인공지능 에이전트 육성 방법 3 "Gemma4로 사진 OCR수행 방법"

지난 시간에 Gemma4 설치와

컴퓨터 사양에 맞는 모델을 다운로드 했었는데요..

이번 시간에는

사진을 첨부하여 OCR로 텍스트화 해보도록 하겠습니다.

그 전에 OCR이 뭔지에 대해서부터 알아야겠죠??

OCR 기능이란 무엇인가?

OCR(Optical Character Recognition)은
이미지, 사진, PDF 등에 포함된 글자를 자동으로 인식해서
편집 가능한 텍스트로 변환해주는 기술이다.

쉽게 말하면👇
👉 사진 속 글자를 복사 가능한 글자로 바꿔주는 기능

예시

책 사진 → 텍스트 변환

영수증 사진 → 자동 입력

스캔 문서 → 워드 파일 변환

OCR 기능의 핵심 원리

OCR은 단순한 이미지 인식이 아니라, 다음 과정을 거친다.

이미지 전처리 (노이즈 제거, 선명도 개선)
글자 영역 탐지
문자 패턴 분석
텍스트 변환 및 출력

최근에는 AI 기술이 결합되어
손글씨, 흐릿한 글씨까지도 인식 정확도가 크게 향상됐다.

OCR 기능의 주요 활용 분야

1. 문서 디지털화

종이 문서를 스캔해서 텍스트로 변환
→ 종이 없는 업무 환경 구축

2. 자동 데이터 입력

영수증, 송장, 명함 등을 자동으로 입력
→ 업무 시간 절약

3. 번역 기능

이미지 속 외국어 텍스트를 추출 후 번역
→ 해외 자료 활용 가능

4. 검색 가능 문서 생성

PDF 파일을 검색 가능하게 변환
→ 자료 찾기 효율 상승

자, 이제부터 올라마에게 요청해볼게요

이 영수증에 있는 내용을 OCR을 수행해보도록 하겠습니다

올라마에 사진을 첨부하고
"이 영수증을 OCR 텍스트화해줘" 라고 명령합니다.

결과

OCR 수행이 모든 글자에 완벽하게 수행되지는 않았지만
텍스트화 된 결과물을 얻을 수 있었습니다.

AI 수익화 아이디어

이런 OCR 수행을 통해서

얻을 수 있는 아이디어는

해외에 나가서

외국 문자들을 카메라로 사진을 찍어서

OCR 수행과 함께 번역까지 해주는

그런 서비스를, 어플을 만들어서 제공할 수 있다면

하나의 AI 수익화 모델이 생기게 되는 셈이죠.

그럼 외국음료 사진을 첨부해서
OCR을 통해 번역을 잘 수행하는지 확인해볼게요^^

일본어로 쓰여진 음료이구요.

참고로 젬마4는
굉장히 많은 양의 언어를 학습했다고 하니까요
여러 나라의 언어로 시도해보시면 좋을 것 같습니다.

결과물

이 결과물을 통해 인지해야 하는 점은
바로, OCR 수행을 해내고 있다는 것입니다.

결과물을 허접하게 내놓고 있다

라는 것에 집중하는 것이 아닌

OCR 수행을 통해 번역을 하고 있고

이 사진이 무엇을 의미하는지 (차를 의미한다)

를 간단하게 알 수 있다는 점에 주목하실 필요가 있습니다.

API를 사용하지 않고 무료로 할 수 있다는 점 까지도요.

모델에 따라, 컴퓨터에 사양에 따라

작업 속도나, 완성도는 많은 차이가 있음을 알아두시길 바랍니다.

요기까지~