문서 파서(Parser) 시작 가이드 – 한컴 데이터 로더의 HWP·HWPX 직접 파싱과 지원 포맷 총정리

HANCOM 2026.05.06

기업 내 문서는 방대하지만, 그 안의 정보를 AI가 바로 활용할 수 있는 형태로 만드는 일은 생각보다 복잡합니다. 이미지가 포함된 PDF, 병합 셀이 가득한 표, 들여쓰기로 얽힌 계층 구조 등 단순히 텍스트를 뽑는 것만으로는 놓치는 정보가 너무 많죠.

문서 데이터화 없이는 RAG 시스템 구축도, LLM 학습 데이터 확보도, 에이전트 개발도 온전히 시작하기 어렵습니다. 이 가이드에서 한컴 데이터 로더의 지원 포맷, 핵심 기능, 배포 방식을 한 번에 정리합니다.

문서 데이터 추출, 왜 AI에 그대로 넣을 수 없을까?

생성형 AI를 업무에 도입하려는 기업이 늘고 있지만, 정작 내부 문서를 AI에 활용하는 단계에서 멈추는 경우가 많습니다. 원인은 대부분 같습니다. 문서를 AI가 읽을 수 있는 형태로 변환하는 과정, 즉 문서 데이터 추출 단계가 생각보다 복잡하기 때문입니다.

비정형 데이터 처리가 복잡한 이유 – 포맷마다 다른 전처리 방식

비정형 데이터 처리의 근본적인 어려움은 포맷별로 완전히 다른 파싱 전략이 필요하다는 데 있습니다. HWP·HWPX는 전용 파서 없이는 내부 구조에 접근할 수 없고, PDF는 텍스트 기반 디지털 문서와 스캔 이미지 PDF가 겉보기엔 같지만 처리 방식이 완전히 다릅니다. OOXML까지 더하면 하나의 파이프라인으로 일관되게 처리하는 것 자체가 난제입니다.

더 까다로운 문제는 문서 내부의 구조적 복잡성이에요. 다단 레이아웃 문서는 사람이 읽는 순서와 기계가 추출하는 순서가 다를 수 있고, 사용자가 실수로 작성한 들여쓰기는 계층 구조를 왜곡할 수 있습니다.

특히 한국 공공·금융 환경에서 대다수를 차지하는 HWP·HWPX 포맷은 해외 오픈소스로는 처리 자체가 불가능한 경우가 많죠.

문서 텍스트 추출의 한계

RAG 파이프라인에서 문서 파싱 품질은 최종 AI 답변 정확도를 결정하는 첫 번째 관문입니다. 단순 문서 텍스트만 추출할 경우 아래와 같은 문제가 발생할 수 있습니다.

표: 병합 셀·중첩 표를 단순 추출하면 행·열 관계가 깨져 AI가 맥락을 잃습니다.
이미지·차트: 매출 그래프, 조직도, 프로세스 다이어그램에 담긴 핵심 정보가 추출 과정에서 통째로 누락됩니다.
계층 구조: 제목–부제목–본문 위계가 흐려지면 청킹 경계가 어긋나고 임베딩 품질과 검색 정확도가 함께 떨어지게 됩니다.

파싱 품질이 낮으면 청킹 → 임베딩 → 검색 → 답변 전 과정에 연쇄적으로 영향을 미칩니다. 문서 데이터화는 RAG 솔루션 구축과 AX의 공통된 출발점입니다.

한컴 데이터 로더 – 문서 데이터화를 위한 문서 파싱 솔루션

한컴 데이터 로더는 문서의 의미 단위까지 정확히 분리·추출하여 에이전트 친화적 메타데이터와 함께 구조화 데이터로 제공하는 문서 구조 분석 솔루션입니다. 일반 OCR(Optical Character Recognition, 광학 문자 인식)이 아닌 문서 구조 보존형 추출 방식으로, RAG 구축의 핵심 전처리 기술로 더 정교하고 신뢰할 수 있는 문서 기반 지식을 만듭니다.

문서 데이터 출력형식 및 추출 가능한 포맷 – HWP·HWPX·PDF·OOXML

한컴 데이터 로더는 HWP·HWPX·PDF·DOCX·XLSX·PPTX·PNG·JPG까지 주요 문서·이미지 포맷을 모두 지원합니다.

한컴 데이터 로더 포맷별 파싱 처리 방식 비교

입력 포맷	처리 방식	주요 특징
HWP·HWPX	원본 바이너리 직접 파싱	표 구조·각주·메타데이터 보존, PDF 변환 불필요
PDF	원본 직접 추출 + OCR 연동	스캔 문서 포함, 레이아웃 분석으로 구조화
OOXML(DOCX·XLSX·PPTX)	텍스트 추출	오피스 문서 내 텍스트·표·이미지 추출
PNG·JPG·BMP	OCR 기반 인식	스캔 이미지까지 커버

한컴 데이터 로더 출력 형식

추출 결과는 사용 환경(스튜디오/솔루션)과 입력 포맷에 따라 JSON·HTML·Clientinfo 등 구조화 데이터 형식으로 출력되며, AI 학습·검색 인덱싱·RAG 등 목적에 맞게 활용할 수 있습니다.

사용 환경	입력 포맷	출력 형식
스튜디오	PDF	JSON·HTML·뷰어
스튜디오	HWP·HWPX	JSON·뷰어
솔루션	PDF_AI·HWP·HWPX	JSON·Clientinfo
솔루션	OOXML(DOCX·XLSX·PPTX)·PDF	Clientinfo
API SaaS	PDF·HWP·HWPX	JSON

🔗한컴 데이터 로더의 핵심 기능이 더 궁금하다면?

HWP·HWPX 데이터 파싱 – PDF 변환 없이 원본에서 직접 추출

대부분의 파싱 도구는 HWP·HWPX를 PDF로 변환한 뒤 추출하는 우회 방식을 사용합니다. 이 과정에서 표가 이미지로 변환되어 인식이 불가능해지고, 각주·들여쓰기·글머리 같은 서식 정보가 소실되기도 합니다.

반면 한컴 데이터 로더는 HWP·HWPX 원본 파일을 직접 분석해 구조 왜곡과 정보 유실을 최소화합니다. 복잡한 글머리표와 깊은 들여쓰기의 목록도 정확히 읽어 원본 구조와 의미를 그대로 보존하며, 사용자가 실수로 작성한 들여쓰기도 AI가 레벨 구조를 추론해 자동으로 보완합니다.

여기에 더해 문단 스타일·들여쓰기·번호 체계를 분석해 Hierarchy 계층 레벨을 자동 태깅하는 레벨 추론 기술을 제공합니다. 한국어 공문서·법령·보고서 특유의 들여쓰기 기반 위계 구조를 인식해 구조화된 청크(Chunk)를 생성하고, RAG 검색 정확도를 높입니다.

업무 자동화의 시작, 문서 데이터 추출 핵심 기술 Semantix

문서 내 이미지·다이어그램·차트는 텍스트와 함께 포함되어 있지만, 일반적인 추출 과정에서는 개별 객체로 인식되는 수준에 그치는 경우가 많습니다.

Semantix는 이러한 한계를 보완하기 위해 복잡한 PDF 및 이미지 문서를 AI로 먼저 분석·해석하여, 한컴 데이터 로더가 활용할 수 있도록 데이터를 추출합니다. OCR, 표 구조 인식(TSR, Table Structure Recognigion), 이미지 캡셔닝(Image Captioning) 등 다양한 기술을 기반으로 시각 요소를 문맥과 함께 해석함으로써 이미지와 차트 역시 텍스트와 동일한 방식으로 검색 및 활용이 가능하도록 만듭니다.

문서 구조 분석(DLA)

문서 구조 분석(DLA, Document Layout Analysis)은 AI 딥러닝 기술을 활용하여 문서 내 텍스트·이미지·표·그래픽 등 다양한 요소를 구분하고, 각 요소의 위치와 관계를 정확히 파악하는 구조 분석 기술입니다. 세분화된 기준으로 20여 종 이상의 객체를 분류하며, 글머리표·들여쓰기 목록형 텍스트까지 높은 정확도로 인식해요.

특히 표와 이미지 같은 개별 객체가 가까이 붙어 있어도 혼합 없이 정확하게 분리 인식하는 것이 강점이죠. 단일·다단·번역본 등 문서 구조를 고려한 읽기 순서 자동 지정으로, 다단 레이아웃에서 발생하기 쉬운 잘못된 데이터 해석을 방지합니다. 추출된 계층 정보는 RAG 파이프라인에서 의미 단위 청킹의 기준이 되어 검색 정확도 향상으로 이어집니다.

비정형 데이터 처리 – 데이터 분리가 가능한 표 구조 인식(TSR)

표 구조 인식(TSR, Table Structure Recognition)은 이미지에 있는 표를 논리적 좌표나 마크업 시퀀스처럼 기계가 이해할 수 있는 형식으로 변환하는 기술이에요. 셀 간 관계를 파악하여 표의 논리 구조를 정확히 복원하고, 테두리 없는 표·병합 셀·중첩 표까지 완전 대응합니다. 변환된 데이터는 셀·행·열 단위로 Markdown, JSON, HTML 형식으로 출력되어 별도 후처리 없이 바로 활용할 수 있습니다.

이미지·차트 맥락 키워드 자동 태깅 – 이미지 캡셔닝

이미지 캡셔닝(Image Captioning)은 이미지 속 객체의 맥락과 관계를 이해하고, 그 결과를 자연어로 생성·추출하는 이미지 해석 기술입니다. 비정형 시각 정보도 맥락을 이해해 손실 없이 데이터화하며, 객체 간 관계를 분석해 정확한 캡션을 생성해요.

B2G·B2B 업무 환경에 최적화된 라벨링을 지원합니다. 별도의 고사양 인프라 없이도 빠르고 안정적으로 운용할 수 있습니다.

활용 범위도 다양합니다. RAG 기반 질의응답에서 이미지 검색·매칭 정확도를 높이고, 대체 텍스트 자동 생성으로 디지털 약자 접근성을 강화하며, 이미지 태깅·메타데이터 부여로 자동 분류 파이프라인 구축까지 가능해요.

※ 이미지 캡셔닝 기능은 현재 PoC 단계로, 상용 출시 일정은 추후 안내될 예정입니다.

👉한컴 데이터 로더 기술 자세히 알아보기

RAG 파이프라인 – 문서 업로드부터 AI 답변까지

한컴 데이터 로더는 문서 수집부터 데이터 추출, RAG 연결, AI 답변까지 이어지는 전 과정을 하나의 파이프라인으로 제공합니다. 문서를 업로드하면 별도 전처리 없이 바로 AI가 활용할 수 있는 데이터로 변환되는 구조예요.

문서 파싱부터 구조화 데이터 생성까지

문서가 입력되면 LOAD(문서 수집) → EXTRACT(문서 구조 분석·계층 탐지·순서 인식) 단계를 거쳐 구조화 데이터를 생성합니다. 단순 텍스트가 아닌 문서의 맥락과 구조를 포함한 형태로 정리돼요.

데이터 로더 스튜디오를 통한 추출 결과 검토 및 후보정

추출된 데이터는 데이터 로더 스튜디오(확장 솔루션)에서 원본 문서와 나란히 비교하며 검토할 수 있습니다.

사용자는 계층·카테고리·읽기 순서 등을 직접 확인하고 필요한 부분을 후보정해 문서 구조와 의미 관계가 실제 업무 목적에 맞게 정제되도록 관리할 수 있습니다. 또한 의미 기반 태깅과 라벨링 작업을 통해 고객사 문서 양식에 맞는 추출 기준을 보완하고, 학습 및 검색에 적합한 데이터 품질로 다듬을 수 있습니다.

한컴피디아 연계 – RAG 파이프라인 통합 구축

정제된 데이터는 청킹 → 임베딩 → 벡터DB 저장 단계로 이어지며 RAG 파이프라인에 바로 연결됩니다. 한컴의 자체 RAG 솔루션 한컴피디아와 직접 연계하면 문서 기반 지식 검색 시스템을 빠르게 구축할 수 있죠.

문서 파싱 도입을 검토하고 있다면, 한컴 데이터 로더 라이브 데모에서 HWP·HWPX·PDF 파일을 직접 업로드하고 DLA, TSR 결과를 확인해보세요.

👉한컴 데이터 로더 라이브 데모 바로가기

문서파싱 온프레미스와 SaaS API 비교 – 상황에 맞는 배포 방식 고르기

한컴 데이터 로더는 보안 환경과 도입 목적에 따라 두 가지 배포 방식을 지원합니다. 온프레미스는 고객사 내부 서버에 직접 설치해 운영하는 방식이고, SaaS API 방식은 별도 설치 없이 즉시 연동해 사용할 수 있는 방식이에요.

온프레미스 문서 파싱 – 문서가 외부로 나가지 않는 폐쇄망 환경 방식

한컴 데이터 로더는 고객사 내부 서버에 설치·운용되며, 문서 데이터가 외부로 전송되지 않는 구조로 설계되어 있습니다. 인터넷 연결이 제한된 폐쇄망 환경에서도 운영이 가능해 공공기관·금융기관 등 보안 요구 수준이 높은 환경에 적합하죠.

또한 문서 유형에 따라 두 가지 추출 방식을 선택할 수 있습니다. 공문·법률·의료 문서처럼 형식이 일정한 정형 문서는 사전 정의된 스키마(Schema) 기반의 규칙 기반 모델 방식으로 빠르게 처리하고, 그림·표·이미지가 혼합된 비정형 문서는 AI OCR 기반의 레이아웃 분석 방식으로 구조를 정밀 분석합니다. 고객사 상황에 맞는 방식을 선택하거나 병행할 수 있어요.

SaaS API 방식 – 설치 없이 바로 시작하는 방식

SaaS API 방식은 별도 서버 구축 없이 즉시 연동해 사용할 수 있습니다. page 단위 과금 구조로 사용한 만큼만 비용이 발생하며, 초기 투자 비용 없이 빠르게 도입할 수 있어요. 온프레미스 구축 전 파일럿 테스트 용도로도 적합합니다.

온프레미스 및 SaaS API 배포 방식 비교

비교 항목	온프레미스	SaaS API 방식
데이터 보안	내부망 완결, 외부 전송 없이 운영 가능	외부 API 호출을 통한 처리
초기 비용	서버 인프라 구축 필요	초기 투자 없이 사용 가능
과금 방식	솔루션 도입 비용	사용량 기반 과금 (페이지 단위)
도입 속도	Docker 기반 설치 후 내부 환경에 맞게 구축·운용	API 연동으로 빠르게 시작 가능
적합 환경	공공기관·대기업 등 민감 데이터 처리 환경	파일럿·소규모 테스트, 빠른 적용 환경

한컴 데이터 로더로 시작하는 문서 기반 AX

🖥️한컴 데이터 로더

문서 데이터화는 RAG 시스템 구축, LLM 학습 데이터 확보, AI 에이전트 개발의 공통된 출발점입니다.

한컴 데이터 로더는 국내 유일하게 HWP·HWPX를 PDF변환없이 원본으로 완전 지원하며, PDF·OOXML·이미지까지 다양한 포맷을 함께 처리합니다. HWP·HWPX·PDF를 포함한 주요 문서 포맷에서 표·계층·이미지 구조를 보존한 구조화 데이터로 변환합니다.

파싱 후에도 데이터 로더 스튜디오를 통한 후보정까지 지원하며, 한컴피디아 연계를 통해 RAG 답변 생성까지 이어지는 문서 기반 AI 구축을 완성할 수 있습니다.

우리 기업 AI 구축을 최적화하고 싶다면 지금 한컴 데이터 로더의 홈페이지를 방문해 주세요.

👉한컴 데이터 로더, 라이브 데모 사용하러 가기

👉한컴 데이터 로더, 도입 문의하기

참고자료

한글과컴퓨터, 「한컴 데이터 로더」
한컴 SDK, 「데이터 로더 서비스 페이지」
아이뉴스24, 「한컴 ‘오픈데이터로더 v2.0’ 공개」
AI타임스, 「한컴 데이터 로더 글로벌 출시」

Post Views: 84