1. OCR(Optical Character Recognition)
- 광학 문자 인식
- 이미지나 문서에서 텍스트를 자동으로 인식하고 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 프로세스
2. 테서렉트(Tesseract)
- 오픈 소스 OCR 라이브러리로 구글에서 개발하고 현재는 여러 커뮤니티에 의해 유지보수
- 윈도우: https://github.com/UB-Mannheim/tesseract/wiki 에서 tesseract-ocr-w64-setup-5.3.1.20230401.exe 를 다운로드(2023-07-31 기준)
Home
Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract
github.com
- 설치중 Choose Components에서 Additional script data(download) 트리를 내려 Hangul script와 Hangul vertical script 를 체크, Additional language data(download)에서 korean을 체크
- 설치된 위치 기억: C:\Program Files\Tesseract-OCR
- 환경 설정
1. 탐색기(window 키 + e) ➡ "내 PC"에서 마우스 오른쪽 버튼 클릭 ➡ "속성"을 선택창을 최대화 한 후 좌측 메뉴
"고급 시스템 설정"을 클릭
1-1. 윈도우 검색 창에서 "환경" 검색해서 들어가도 된다!
2. "환경 변수" 버튼 클릭
3. 시스템 변수에서 "Path"를 선택하고 "편집" 버튼을 클릭
4. "새로 만들기" 버튼을 클릭 ➡ 테서렉트 설치 경로를 추가(C:\Program Files\Tesseract-OCR)
5. 파이썬에서 tesseract 설치하기
📍 jupyter notebook에서 설치하다가 파이썬 버전이 여러개 설치되어 있어서 Path문제로 설치되지 않았다...😭
파이참에서 설치하여 진행하였다
3. image_to_string()
import cv2
import pytesseract
img = cv2.imread('hello.png')
dst = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # tesseract에서는 RGB로 넣어야하기 때문에 변환
# lang: 언어를 선택하는게 좋음. 비슷한 언어를 구별할 수 있게함, 'kor+eng'은 한글과 영어를 둘 다 감안해서 읽어들이라는 뜻
text = pytesseract.image_to_string(dst, lang='kor+eng')
print(text)
📍 주의할점: tesseract에서는 RGB로 이미지를 넣어야하기 때문에 BGR2RGB를 해주어야함!