
지난 시간에 Gemma4 설치와
컴퓨터 사양에 맞는 모델을 다운로드 했었는데요..
이번 시간에는
사진을 첨부하여 OCR로 텍스트화 해보도록 하겠습니다.
그 전에 OCR이 뭔지에 대해서부터 알아야겠죠??
OCR 기능이란 무엇인가?
OCR(Optical Character Recognition)은
이미지, 사진, PDF 등에 포함된 글자를 자동으로 인식해서
편집 가능한 텍스트로 변환해주는 기술이다.
쉽게 말하면👇
👉 사진 속 글자를 복사 가능한 글자로 바꿔주는 기능
예시
책 사진 → 텍스트 변환
영수증 사진 → 자동 입력
스캔 문서 → 워드 파일 변환
OCR 기능의 핵심 원리
OCR은 단순한 이미지 인식이 아니라, 다음 과정을 거친다.
이미지 전처리 (노이즈 제거, 선명도 개선)글자 영역 탐지
문자 패턴 분석
텍스트 변환 및 출력
최근에는 AI 기술이 결합되어
손글씨, 흐릿한 글씨까지도 인식 정확도가 크게 향상됐다.
OCR 기능의 주요 활용 분야
1. 문서 디지털화
종이 문서를 스캔해서 텍스트로 변환
→ 종이 없는 업무 환경 구축
2. 자동 데이터 입력
영수증, 송장, 명함 등을 자동으로 입력
→ 업무 시간 절약
3. 번역 기능
이미지 속 외국어 텍스트를 추출 후 번역
→ 해외 자료 활용 가능
4. 검색 가능 문서 생성
PDF 파일을 검색 가능하게 변환
→ 자료 찾기 효율 상승
자, 이제부터 올라마에게 요청해볼게요
이 영수증에 있는 내용을 OCR을 수행해보도록 하겠습니다

올라마에 사진을 첨부하고
"이 영수증을 OCR 텍스트화해줘" 라고 명령합니다.
"이 영수증을 OCR 텍스트화해줘" 라고 명령합니다.
결과
OCR 수행이 모든 글자에 완벽하게 수행되지는 않았지만텍스트화 된 결과물을 얻을 수 있었습니다.
AI 수익화 아이디어
이런 OCR 수행을 통해서
얻을 수 있는 아이디어는
해외에 나가서
외국 문자들을 카메라로 사진을 찍어서
OCR 수행과 함께 번역까지 해주는
그런 서비스를, 어플을 만들어서 제공할 수 있다면
하나의 AI 수익화 모델이 생기게 되는 셈이죠.
그럼 외국음료 사진을 첨부해서
OCR을 통해 번역을 잘 수행하는지 확인해볼게요^^
일본어로 쓰여진 음료이구요.
참고로 젬마4는
굉장히 많은 양의 언어를 학습했다고 하니까요
여러 나라의 언어로 시도해보시면 좋을 것 같습니다.
결과물
OCR을 통해 번역을 잘 수행하는지 확인해볼게요^^
참고로 젬마4는
굉장히 많은 양의 언어를 학습했다고 하니까요
여러 나라의 언어로 시도해보시면 좋을 것 같습니다.
결과물

이 결과물을 통해 인지해야 하는 점은
바로, OCR 수행을 해내고 있다는 것입니다.
결과물을 허접하게 내놓고 있다
바로, OCR 수행을 해내고 있다는 것입니다.
결과물을 허접하게 내놓고 있다
라는 것에 집중하는 것이 아닌
OCR 수행을 통해 번역을 하고 있고
이 사진이 무엇을 의미하는지 (차를 의미한다)
를 간단하게 알 수 있다는 점에 주목하실 필요가 있습니다.
API를 사용하지 않고 무료로 할 수 있다는 점 까지도요.
모델에 따라, 컴퓨터에 사양에 따라
작업 속도나, 완성도는 많은 차이가 있음을 알아두시길 바랍니다.
요기까지~
요기까지~


