파이썬을 이용한 이미지에서 텍스트 추출(Deep learning, python, pytesseract, PIL, mac, OCR 라이브러리)
파이썬을 이용해 크롤링을 하다보면 이미지 파일에 있는 텍스트를 추출해야할 경우들이 있다. 텍스트 인식을 위한 오픈소스인 Tesseract과 파이썬을 이용해서 이미지의 텍스트를 추출해보았다. from PIL import Image from pytesseract import * class Test: def __init__(self, path:str): test_img_path = path test_img = Image.open(test_img_path) img_txt = image_to_string(test_img, lang='eng+kor', config='--psm 1 -c preserve_interword_spaces=1') with open('test_sample(2).txt', 'w', encodi..
단축키
내 블로그
내 블로그 - 관리자 홈 전환 |
Q
Q
|
새 글 쓰기 |
W
W
|
블로그 게시글
글 수정 (권한 있는 경우) |
E
E
|
댓글 영역으로 이동 |
C
C
|
모든 영역
이 페이지의 URL 복사 |
S
S
|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.