OCR이란? AI OCR 핵심 기술부터 문서 자동화 활용 가이드까지

HANCOM 2026.05.15

OCR을 도입했는데 표 구조가 무너지고, HWP·HWPX 파일은 처리조차 안 되는 상황, 문서 전처리에서 막히는 경우는 생각보다 흔해요. OCR 뜻과 원리부터 AI OCR 핵심 기술, 문서 자동화 파이프라인까지 차근차근 정리해 드릴게요.

OCR이란 무엇인가요? 뜻과 개념 정리

OCR(Optical Character Recognition, 광학 문자 인식)은 텍스트 이미지를 기계가 읽을 수 있는 형식으로 변환하는 기술입니다.

OCR 정의와 핵심 기능

OCR은 스캔한 문서, 카메라 이미지, 이미지 전용 PDF에서 데이터를 추출해 편집·검색이 가능한 텍스트로 바꿔줘요. OCR 소프트웨어는 이미지에서 글자를 골라 단어로 만든 다음, 단어를 문장으로 변환해 원본 콘텐츠에 접근하고 편집할 수 있도록 합니다. 행정 공문 스캔, 계약서 자동 입력, 이미지 기반 PDF 텍스트 추출이 모두 이 기술을 기반으로 해요.

OCR 원리, 어떻게 작동하나요?

OCR은 이미지 전처리 → 문자 인식 → 후처리, 세 단계를 거쳐 작동합니다.

이미지 전처리에서는 잡음(노이즈)을 제거하고 기울기를 보정해요. 문자 인식에서는 이미지 속 영역을 분석해 배경과 구분되는 글자 영역에서 패턴 인식 알고리즘으로 문자를 판별합니다. 후처리에서는 오인식된 글자를 교정해 편집·검색이 가능한 텍스트 데이터로 출력해요.

OCR 기술의 역사와 AI OCR 핵심 기술

전통 OCR의 역사와 방식 종류

OCR 기술은 20세기 초 시각 장애인이 인쇄된 텍스트를 읽을 수 있도록 돕기 위해 처음 개발됐습니다.

1950년대에 이르러 은행과 우편 업계가 표준화된 양식에서 데이터를 자동으로 추출하기 위해 상업적으로 도입하기 시작했어요. 다만 초기 OCR은 미리 정의된 글꼴과 레이아웃만 읽을 수 있어서, 형식에 조금이라도 변화가 있으면 오류가 발생했습니다. 구조화되고 예측 가능한 문서에는 잘 작동했지만 그 외의 문서에는 제대로 작동하지 못했어요.

1990년대에는 다양한 글꼴과 수십 가지 언어를 인식할 수 있도록 발전했습니다. 활용 범위는 크게 넓어졌지만 비정형 데이터, 손글씨, 특이한 레이아웃을 가진 문서 처리는 여전히 어려웠어요. 대부분의 문서 처리 과정에서 수동 검토가 필수였습니다.

2000년대에 진정한 전환점이 찾아왔어요. OCR 시스템에 AI와 머신러닝이 통합되면서 훨씬 다양한 유형의 문서를 더 높은 정확도로 처리할 수 있게 됐습니다. 처리한 문서를 통해 스스로 학습하고, 새로운 형식에 적응하며, 수동 입력과 오류율을 획기적으로 줄였어요.

AI OCR 핵심 기술 3가지

문서 인식(Document Understanding)을 구성하는 핵심 기술은 OCR·DLA·TSR입니다. 여기에 VLM(Vision-Language Model, 시각 언어모델) 기술이 결합되면서 이미지·차트와 같은 비정형 시각 정보까지 함께 이해하는 방향으로 확장되고 있어요.

문서 구조 분석(DLA, Document Layout Analysis)은 문서에서 제목, 표, 이미지 영역을 자동으로 구분해요. 사람이 문서를 보는 순간 구조를 파악하는 것처럼, 문서 구조 분석(DLA)은 AI가 문서 전체 레이아웃을 먼저 이해할 수 있도록 합니다.

표 구조 인식(TSR, Table Structure Recognition)은 테두리 없는 표와 병합 셀도 행·열 관계를 복원해 정형 데이터로 변환해요. 기존 OCR이 표를 단순 텍스트 덩어리로 처리했다면, 표 구조 인식(TSR)은 셀 단위 구조를 그대로 살려 LLM과 RAG에 바로 활용할 수 있는 형태로 출력합니다.

VLM 기반 이미지 캡셔닝(Image Captioning)은 차트·다이어그램 이미지를 검색 가능한 텍스트 설명으로 자동 생성합니다. 이미지 안의 정보가 텍스트로 변환되기 때문에 AI 검색 시 시각 정보까지 활용할 수 있어요.
※ 이미지 캡셔닝 기능은 현재 PoC 단계로, 상용 출시 일정은 추후 안내될 예정입니다.

한컴 데이터 로더는 문서 구조 분석(DLA)·표 구조 인식(TSR)·시각 언어모델(VLM) 기반 이미지 캡셔닝·OCR을 하나의 파이프라인으로 통합한 Semantix를 내부에 포함하고 있어요.

OCR 활용 방법과 산업별 적용 사례

금융, 공공, 의료, 물류 분야 OCR 활용 사례는?

AI OCR은 금융, 의료, 물류 등 다양한 산업에서 수작업 데이터 입력을 자동화합니다.

금융·뱅킹에서는 청구서, 영수증, 대출 서류, 수표 입금 등 금융 거래에 필요한 서류를 자동으로 처리하고 검증해요. 의료에서는 치료·검사·입원 기록 등 환자 기록을 처리하고 워크플로를 간소화해 병원의 수작업을 줄입니다. 물류에서는 패키지 라벨, 인보이스, 운송장(BOL)에서 정보를 추출해 문서를 효율적으로 추적해요. 이 밖에도 기업과 기관은 기존 문서를 검색 가능한 디지털 아카이브로 변환해 대량의 파일에서 필요한 정보를 빠르게 검색할 수 있습니다.

AI 시대 OCR 문서 자동화, 글자 인식만으로 부족한 이유

OCR과 Parser의 차이점

AI 시대 OCR에는 단순 텍스트 추출이 아닌 문서 구조화 출력이 요구됩니다.

LLM과 RAG가 실무에 도입되면서 OCR에 요구되는 수준이 달라졌어요. 스캔 PDF에서 텍스트만 뽑아내는 방식으로는 AI 파이프라인을 제대로 구동하기 어렵습니다. 병합 셀이 뭉개지거나, 다단 레이아웃 순서가 뒤섞이거나, 제목·소제목·본문의 위계가 사라지면 AI가 맥락을 파악할 수 없어요.

OCR이 ‘무엇이 적혀 있는지’를 읽는다면, 파싱(Document Parsing)은 ‘어떤 구조로 배치되어 있는지’를 이해합니다. 두 단계가 함께 작동해야 완전한 문서 AI 연동이 가능해요.

한눈에 살펴보는 OCR과 Document Parser의 차이

구분	OCR	Document Parser
역할	이미지 속 글자를 텍스트로 변환	문서의 구조, 계층, 의미를 분석
출력	평면 텍스트	구조화 데이터(JSON, HTML)
한계	표, 계층, 이미지 구조 파악 불가	이미지 문서 단독 처리 불가
활용	단순 텍스트 디지털화	RAG, AI 시스템 파이프라인 연동

💡 HWP·HWPX 파일 처리와 AI 시스템 연동을 동시에 고민하고 있다면, 한컴 데이터 로더의 라이브 데모를 먼저 확인해 보세요.

👉한컴 데이터 로더 둘러보기

OCR 한글 문서 처리, 일반 솔루션으로 가능할까요?

일반 OCR 솔루션으로는 HWP·HWPX 파일을 직접 처리할 수 없습니다. HWP·HWPX를 지원하지 않아 PDF 변환이 선행되어야 하고, 그 과정에서 문서 구조가 손실되기 때문이에요.

일반 OCR 솔루션의 HWP·HWPX 처리 한계와 원본 직접 파싱이 필요한 이유

국내 공공·금융·법무 문서의 상당수는 HWP·HWPX 포맷으로 작성됩니다. 그런데 AWS Textract, Google Document AI, Tesseract 등 대부분의 OCR 솔루션은 HWP·HWPX를 직접 지원하지 않아 변환 과정이 필요해요.

이 과정에서 변경추적·각주·수식·글머리표 등 20종 이상의 레이아웃 요소가 손실됩니다. 병합 셀이 있는 표는 이미지로 변환되어 내용을 인식하지 못해요.

한컴 데이터 로더는 HWP SDK 원천기술로 HWP 3.0 이상 전 버전을 PDF 변환 없이 원본에서 직접 분석해, 20종 이상의 레이아웃 정보를 유지한 채 JSON, HTML로 출력합니다.

한눈에 살펴보는PDF 변환 방식과 원본 직접 파싱 방식의 차이

항목	PDF 변환 방식	원본 직접 파싱
처리 방식	HWP·HWPX → PDF 변환 후 OCR	HWP·HWPX 원본 파일 직접 분석
표 데이터	이미지로 변환되어 인식 불가	구조 보존하여 셀 단위 추출
서식 정보	각주, 들여쓰기, 글머리 소실	20종 이상 레이아웃 요소 인식
지원 버전	제한적	HWP 3.0 이상 전 버전

OCR과 RAG 연관성, 추출 품질이 검색 정확도를 결정하는 이유

문서 추출 품질은 RAG 시스템 전체 성능의 상한선을 결정합니다.

RAG는 문서 추출 → 청킹 → 임베딩 → 벡터 DB 저장 → 검색 → LLM 답변 순서로 작동해요. 앞단 추출 품질이 낮으면 이후 모든 단계가 연쇄적으로 저하됩니다. 구조가 없는 평면 텍스트는 의미 단위로 나누기(청킹)가 어렵고, 잘못 나눠진 조각을 검색하면 AI는 맥락을 잃어 엉뚱한 답변을 생성해요.

한컴 데이터 로더의 Level 추론은 들여쓰기, 번호 체계, 폰트 크기를 분석해 문단 계층을 자동 구분합니다. 계층 정보가 구조화 데이터에 함께 담겨 출력되기 때문에, 이후 청킹 단계에서 AI가 맥락을 정확히 파악하고 답변할 수 있어요. 한컴 데이터 로더는 추출·파싱 단계를 담당하며, 청킹 단계부터는 한컴피디아 등 RAG 솔루션과 연계해 구성할 수 있습니다.

OCR 프로그램 종류와 선택 기준

오픈소스부터 기업용 솔루션까지 OCR 프로그램 비교

OCR 프로그램은 오픈소스, 클라우드 API, 온프레미스 세 종류로 나뉩니다. 어떤 방식이 맞는지는 문서 종류, 보안 환경, 인프라 조건에 따라 달라져요.

오픈소스 프로그램인 Tesseract·PaddleOCR은 Apache 2.0 라이선스 기반 무료 도구로 100개 이상의 언어를 지원합니다. 다만 이미지 기반으로 작동하기 때문에 HWP·HWPX 파일 포맷을 직접 처리할 수 없어요. 클라우드 API인 Google Vision·AWS Textract는 빠른 도입과 높은 범용 정확도가 장점이지만, 문서를 외부 서버로 전송해야 해 폐쇄망 환경의 공공·금융기관은 사용할 수 없습니다. SaaS API 방식은 별도 설치 없이 즉시 연동해 사용할 수 있어, 보안 환경과 도입 목적에 맞게 선택할 수 있어요.

한눈에 살펴보는 오픈소스, 클라우드 API, 온프레미스 비교

구분	대표 도구	특징	주요 한계
오픈소스	Tesseract, PaddleOCR	무료, 커스터마이징 가능	HWP·HWPX 파일 포맷 미지원
클라우드 API	Google Vision, AWS Textract	빠른 도입, 높은 범용 정확도	외부 전송 필수 → 폐쇄망 불가
온프레미스	한컴 데이터 로더 등	내부망 설치, 보안 극대화	초기 환경 구축 필요

도입 전 HWP·HWPX 처리 필요 여부, 폐쇄망 환경 여부, CPU 전용 구동 여부, AI 파이프라인 연동 여부 네 가지를 먼저 점검하세요. 두 가지 이상 해당된다면 문서 구조화 파싱 솔루션을 검토해야 합니다.

💡 위 항목 중 두 가지 이상 해당된다면, 한컴 데이터 로더 데모를 통해 실제 구현을 확인해 보세요.

👉 한컴 데이터 로더, 라이브 데모 사용하러 가기

OCR 관련 자주 묻는 질문 FAQ

Q1. OCR과 문서 파싱은 같은 건가요?

다른 기술입니다. OCR은 이미지의 글자를 텍스트로 읽는 단계이고, 파싱(Document Parsing)은 그 텍스트의 구조·계층을 분석하는 단계예요. 완전한 문서 자동화를 위해 두 단계는 순서대로 함께 작동합니다.

Q2. HWP·HWPX 파일도 OCR로 처리할 수 있나요?

HWP·HWPX 전자 문서는 OCR이 아닌 직접 파싱이 필요해요. HWP·HWPX는 구조 정보가 이미 디지털로 인코딩된 파일이라 OCR 적용 시 PDF 변환이 선행되어야 하고, 그 과정에서 서식·표 구조가 손실됩니다. HWP SDK 원천기술 기반 직접 파싱이 서식과 표 구조 손실 없이 처리할 수 있는 방식이에요.

Q3. OCR 품질이 AI 검색 정확도에 영향을 주나요?

직접적으로 영향을 줍니다. 앞단의 문서 추출 품질이 낮으면 아무리 좋은 AI 모델을 써도 검색 정확도와 답변 품질에 한계가 생겨요. 구조가 무너진 텍스트는 의미 단위로 나누기 어렵고, AI는 올바른 맥락을 찾지 못합니다.

OCR 다음 단계, 문서 구조화까지 고려하셨나요?

🖥️한컴 데이터 로더

OCR에서 시작한 문서 자동화를 완성하려면 표 구조, 문단 계층, HWP·HWPX 포맷까지 처리하는 구조화 추출이 함께 필요합니다.

한컴 데이터 로더는 문서 구조 분석(DLA)·OCR·표 구조 인식(TSR)을 단일 파이프라인으로 내재화해 HWP·HWPX·PDF·OOXML을 변환 없이 구조화 데이터로 추출해요. 폐쇄망 온프레미스 설치를 지원하며, CPU·GPU 유연 운용이 가능합니다.

RAG 파이프라인 구축을 검토 중이라면, 한컴 데이터 로더로 시작해 보세요.

👉한컴 데이터 로더 도입 문의하기

참고 자료

IBM, 「광학 문자 인식(OCR)이란 무엇인가요?」
AWS, 「OCR이란 무엇인가요?」
Idenfo, 「OCR 기술의 진화: 과거, 현재 그리고 미래」
Parseur, 「OCR(광학 문자 인식)이란 무엇인가요?」
arXiv, 「Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks」, 2020
Tesseract OCR 공식 GitHub
Amazon Textract 공식 API 문서

Post Views: 52