적합한 모델 찾기, 여러 모델 실험

1. Pytesseract를 이용한 text OCR - tablets

01. Pre settings

!apt-get install update
!apt-get install tesseract-ocr

Pytesseract가 정상 작동하는지 확인용 이미지
결과 → 잘 작동됨

다만, 우리 데이터에 대해서 알약에 text가 없는 경우와 text가 있는 경우 모두에 대해서 text 검출 결과가 None이었다. (배경 제거는 안하고 알약이 있는 부분을 사각형으로 crop 하였다.)

따라서, 데이터 Augmentation이 필요할 것으로 추측

02. Augmentation - cv2.Canny (CannyEdge Algorithm)

test할 알약 이미지 하나에 대해서 알약 부분만 crop을 진행하고 아래와 같이 CannyEdge Algorithm을 적용

cropped_image = cv2.imread(os.path.join(root, '198900578_2.jpg'), 0)
cropped_image = cropped_image[1950:2350, 1250:1650]
edge_image = cv2.Canny(cropped_image, 20, 30)

원본(Crop한 이미지)과 CannyEdge 결과 이미지 비교

하지만, Crop한 이미지와 CannyEdge한 이미지에 대해서 모두 text 검출 결과가 없었다.

Why? → CannyEdge한 글자같은 느낌이라면 컴퓨터가 인식을 제대로 못하는 것 같고(글씨 자체가 너무 지저분함) Crop한 이미지는 Resolution이 너무 낮아서 인식을 못하는 것 아닐까 생각

03. Augmentation - Albumentations.Sharpen(p=1.0)

Untitled

효과가 미미하였고 역시 검출을 못하였다.