241116) 그래픽 카드 온 날
2024년 11월 16일
광군절이다. 글카를 줍다. #
프로젝트를 시작할 시점에서 그래픽 카드는 rtx2060 6GB를 사용하고 있었다.
번역 자체는 deepl 이나 google api를 사용한다 하더라도 kanxue에서 자막을 제공하지 않는 한 이 프로젝트는 STT ai 모델이 핵심인데 알아보니 whisper의 large 모델만 하더라도 보통 VRAM 10GB 정도가 권장이라고해서 그래픽 카드의 교체를 생각하게 됐다.
STT + 번역, OCR + 번역 아니면 여기에 문장 개선을 위한 ai를 사용하게 된다면 16GB 정도는 필요할 것 같아서 마침 광군절 할인을 하고있는 알리에서 4060ti 16GB 버전을 50에 집어왔다
다음주나 돼야 올 줄 알았는데 오늘 도착하게 돼서 여러 작업을 진행해볼 것이다.
개선된 기능 #
OCR #
윈도우 크기조절, 타이틀바 개선 #
OCR 캡쳐 영역에서 크기를 조절할 때 아래쪽이 잘 조절되지 않는 버그가 있었음.
여러 테스트를 걸쳐 확인해보니 window.attributes("-transparentcolor", "white") 속성을 적용하면 투명화가 아니라 완전히 사라지는 것처럼 보이고 아마 테두리 부분은 border를 적용한 Frame이 가린 것처럼 보인다. 그래서 그냥 커스텀으로 만들어달라고 GPT 한테 요청했다.
영상을 녹화할때도 타이틀바가 거슬려서 마우스를 올렸을때만 표시되도록 구현했다.
생각보다 라인이 꽤 되는데 느려지지 않는게 좀 신기하긴함
개선할 기능 #
- 앱을 켤때마다 뭔가 로드하는 것들이 많아서 그런가 너무 느리게 켜진다. 디버깅할땐 로드가 안되거나 조금만 로드되도록 해야한다.
- 커스텀윈도우를 capture_frame, normal_frame 이렇게 선택할 수 있게 하고, 헤더도 숨겨지게 할건지 여부를 선택할 수 있게 하면 모든 메뉴에서 custom_frame을 사용할 수 있을 것이다.
- 번역할때 컴퓨터 용어를 인식했다면 영어인채로 두거나 거기에 맞게 번역
- 문장완성감지모듈?
- 설정창도 필요하다
- 번역 언어 변경 (입력언어, 출력언어)
- STT 언어 선택
- ai 모델선택?
- OCR에서 인식할 폰트 사이즈?