파이썬을 이용한 이미지에서 텍스트 추출(Deep learning, python, pytesseract, PIL, mac, OCR 라이브러리)
파이썬을 이용해 크롤링을 하다보면 이미지 파일에 있는 텍스트를 추출해야할 경우들이 있다. 텍스트 인식을 위한 오픈소스인 Tesseract과 파이썬을 이용해서 이미지의 텍스트를 추출해보았다. from PIL import Image from pytesseract import * class Test: def __init__(self, path:str): test_img_path = path test_img = Image.open(test_img_path) img_txt = image_to_string(test_img, lang='eng+kor', config='--psm 1 -c preserve_interword_spaces=1') with open('test_sample(2).txt', 'w', encodi..