clovaai https://github.com/clovaai/deep-text-recognition-benchmark
문제점:
- input을 아주 tight하게 텍스트 범위로 줄여줘야한다. → 전처리 필요
- segmentation으로 해결될 줄 알았는데, 오히려 알약의 모양을 글씨로 판단 (둥그런 모양의 알약을 ‘C’라고 인식)
해결 방법:
- OCR로 이미지에서 bbox가 있는 부분을 crop해서 해당 patch을 text recognition 진행
text를 검출하기 위한 것이기 때문에 pretrained된 모델들을 사용해도 충분하다고 생각.
굳이 train을 다시 할 필요 없을 수도 (일단 진행해보고 결정)
1. 별다른 augmentation이나 crop을 진행하지 않음
의약품안전나라 원본 이미지
cv2.grabcut()으로 배경 일부 제거한 이미지
Test Set 이미지
2. Text가 있는 범위만 crop
코드가 아닌 직접 screenshot한 이미지
CRAFT file_utils.py 수정
Segmentation 후 알약 이미지에서 텍스트 추출
3. Augmentation이 적용된 Crop한 이미지