본문 바로가기
Python/OCR

[파이썬, Python] OCR - Tesseract 설치 & 사용하기(환경변수 설정)

by coding-choonsik 2023. 7. 31.
728x90
반응형
SMALL

1. OCR(Optical Character Recognition)

  • 광학 문자 인식
  • 이미지나 문서에서 텍스트를 자동으로 인식하고 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 프로세스

 

2. 테서렉트(Tesseract)

 

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

▲ 다운로드 받는 위치

 

  • 설치중  Choose Components에서 Additional script data(download) 트리를 내려 Hangul script와 Hangul vertical script 를 체크, Additional language data(download)에서 korean을 체크

▲ Additional script data(download) '+'를 클릭해 트리를 내림
▲ Hangul script와 Hangul vertical script 를 체크
▲ 밑에 Additional language data(download)의 트리를 내림
▲ Korean을 추가

 

  • 설치된 위치 기억: C:\Program Files\Tesseract-OCR

▲설치된 경로 복사해놓기!!

  • 환경 설정

 

1. 탐색기(window 키 + e) ➡ "내 PC"에서 마우스 오른쪽 버튼 클릭 ➡ "속성"을 선택창을 최대화 한 후 좌측 메뉴

"고급 시스템 설정"을 클릭 

 

1-1. 윈도우 검색 창에서 "환경" 검색해서 들어가도 된다!

 

 

 

2. "환경 변수" 버튼 클릭

 

3. 시스템 변수에서 "Path"를 선택하고 "편집" 버튼을 클릭

 

 

4. "새로 만들기" 버튼을 클릭 ➡ 테서렉트 설치 경로를 추가(C:\Program Files\Tesseract-OCR)

 

 

5. 파이썬에서 tesseract 설치하기

 

📍 jupyter notebook에서 설치하다가 파이썬 버전이 여러개 설치되어 있어서 Path문제로 설치되지 않았다...😭

파이참에서 설치하여 진행하였다 

▲ 주피터 노트북에서 설치 안됨ㅠ

 

 

▲ 파이참에서는 설치됨. 파이참 가상환경에서는 파이썬 버전별로 환경설정이 가능해서 좋은것같다!

 

 

▲ cmd창에 tesseract 명령어 전달 시 아래와 같이 뜨면 잘 설치된것임!


3. image_to_string()

▲ 읽어들일 이미지파일

import cv2
import pytesseract

img = cv2.imread('hello.png')
dst = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # tesseract에서는 RGB로 넣어야하기 때문에 변환
# lang: 언어를 선택하는게 좋음. 비슷한 언어를 구별할 수 있게함, 'kor+eng'은 한글과 영어를 둘 다 감안해서 읽어들이라는 뜻
text = pytesseract.image_to_string(dst, lang='kor+eng')
print(text)

📍 주의할점: tesseract에서는 RGB로 이미지를 넣어야하기 때문에 BGR2RGB를 해주어야함!

▲ 한글도 꽤 잘 읽는것 같다.

 

 

 

728x90
반응형
LIST