241110) 앞으로 어떻게 해야할까

241110) 앞으로 어떻게 해야할까

2024년 11월 10일

프로젝트 포스팅 #

지금까지 프로젝트를 진행하면서 개발일지나 여러 연구 사항을 적으려고 했지만 막상 적으려고보니 차라리 개발이나 공부에 시간을 투자하는게 좋다는 생각도 들어서 지금까지 관리가 잘 안되고 있는 것 같다.

이 프로젝트는 OCR만 해도 전처리, 후처리 과정에서 발생할 수 있는 연구사항이 많을것 같아서 제대로 좀 적어보려고 하는데 이외에도 기능 구현에 대한 아이디어나 이 프로젝트를 운영하면서 발생하는 일상적인 일같은 것도 적으면 좋을것 같다.


마일스톤 #

  • OCR을 이용한 CN to KR
    • OCR 개선사항
      • 인식할 글씨 크기 정할 수 있도록
      • 인식한 글씨에 네모박스 표시
    • Translator 개선사항
      • 문장단위로 받아서 번역 처리하기 (문맥같은 것도 기억할 수 있게하면 좋을듯)
      • 번역하지 않을 단어 선택할 수 있도록 수정
      • 기술적인 단어에 대해 잘 알고 번역하도록 수정
    • 전체 개선사항
      • 창 크기조절이나 위치조절이 잘 안되는 버그
  • STT를 이용한 CN to KR
  • 언어 선택기능, OCR/STT/Trans 모델 선택기능

고민의 흔적들 #

전처리 후처리?
OCR 후처리 단계에서 pyspellchecker나 autocorrect와 같은 철자 교정 라이브러리를 사용하면 어느정도 글자 보정이 될 것 같다.

문맥기억?

문장이 만들어질때까지 기다렸다가 번역? 문장인식은 어떻게?

여러 문제점 #

  • 일단 화면에 윈도우 헤더? 가 보여서 영상을 가림
  • 크기로 지정했다고 하더라도 큰 크기의 글자가 영상에 나오면 인식해버림
  • 영어만 나오면 인식을 잘 못함
  • 번역을 좀더 잘하는방법?
comments powered by Disqus