RAG를 구축할 때 사람들이 가장 먼저 걸리는 지점이 있다. 파서를 잘못 선택해서 문서에서 정보를 제대로 못 뽑아오는 것이다. 업스테이지 Document Parse와 Synap DocuAnalyzer, 어떤 상황에서 어느 쪽을 써야 하는지 — 실제 테스트 결과를 바탕으로 판단 기준을 정리했다.

로더, OCR, 인텔리전트 파서 — 지금 당신이 쓰는 건 어느 수준인가

랭체인 기반으로 RAG를 처음 구축할 때 많은 사람들이 PyPDF나 Word 로더를 파서라고 부른다. 틀린 말은 아니지만, 이걸 '파서를 썼다'고 말하기엔 수준이 낮다.

기본 로더는 PDF 안의 텍스트를 그냥 긁어오는 역할만 한다. 이미지, 차트, 표의 레이아웃은 가져오지 못하고 글자만 추출한다. 스캔된 PDF라면 OCR 기능이 없는 로더는 아예 텍스트를 읽지 못한다.

OCR 기능이 탑재된 로더는 한 단계 위다. 이미지 속 문자를 디지털 텍스트로 변환해준다. 하지만 그 텍스트가 타이틀인지, 본문인지, 표 안의 데이터인지 — 구조 정보는 여전히 주지 않는다. 요즘 실무에서 말하는 '파서'는 이 구조 정보까지 제공하는 인텔리전트 파서를 가리킨다.

인텔리전트 파서는 레이아웃 인식(바운더리 감지 + 카테고리 분류), 읽기 순서 판단, 마크다운 변환까지 처리해준다. 단순 OCR과 인텔리전트 파서의 차이는 결국 벡터 DB에 저장되는 데이터 품질에서 그대로 드러난다.

파서를 고를 때 가격보다 먼저 봐야 할 것

현재 주요 인텔리전트 파서 가격을 정리하면 이렇다. 업스테이지 Document Parse는 페이지당 0.01달러, Unstructured.io의 고급 플랜은 0.02~0.03달러 수준, LlamaParse는 하루 1,000페이지까지 무료 프로모션을 운영 중이다(변경 가능성 있으니 직접 확인 필요). Azure Document Intelligence와 AWS Textract는 세부 과금 정책이 복잡해 용도별로 계산이 필요하다.

업스테이지를 SaaS 형태로 상시 운영하면 시간당 15달러로, 한 달 내내 켜두면 비용이 상당하다. 실무에서는 파싱 작업이 있을 때만 서버를 올리고 끝나면 내리는 방식이 합리적이다. 그런 관점에서는 AWS 마켓플레이스를 통한 업스테이지 활용이 경쟁력 있다.

가격 외에 반드시 확인해야 할 기준이 있다. 첫째, 온프레미스 지원 여부. 폐쇄망 환경이라면 클라우드 API만 지원하는 파서는 아예 쓸 수 없다. 둘째, HWP 지원 여부. 국내 공공·기업 문서는 HWP 비중이 높다. 셋째, 멀티모달 처리 수준 — 수식, 이미지, 차트까지 가져와야 하는 환경이라면 파서의 비전 모델 성능이 핵심이다.

Synap DocuAnalyzer가 HWP·엑셀에서 강한 진짜 이유

사인소프트는 2000년부터 문서 처리 서비스를 해온 회사다. 이 배경이 Synap DocuAnalyzer의 방식에 그대로 반영되어 있다.

업스테이지가 비전 딥러닝 기반으로 문서를 이미지처럼 '보고' 파싱하는 방식이라면, Synap은 HWP·DOCX·XLSX 파일을 직접 열어 내부 구조를 해석하는 방식이다. 이 차이가 결과물에서 확연하게 드러난다.

직접 테스트해보면 HWP 파일에서 Synap의 정확도가 눈에 띄게 높다. 복잡한 머지셀 표에서도 '있음/없음'을 컬럼별로 정확히 구분했고, 마크다운으로 표현 불가능한 '표 안의 표'를 테이블 포지션 번호를 부여해 별도 표로 풀어내는 방식으로 해결한 점은 인상적이었다. 후처리 부담을 줄이려는 설계 의도가 분명하게 느껴졌다.

읽기 순서를 시각적으로 표시해주는 데모 UI도 실용적이다. 어느 객체를 몇 번째 순서로 읽었는지 번호로 확인할 수 있어, 복잡한 2단 레이아웃에서도 파서가 사람의 읽기 흐름을 제대로 따라가는지 바로 검증할 수 있다.

엑셀 파일 테스트에서도 Synap은 열 너비가 좁아 내용이 잘린 셀까지 내부 구조에서 전체 값을 읽어왔다. 반면 업스테이지는 화면에 보이는 잘린 내용 그대로 가져오는 문제가 발생했다.

단, Synap DocuAnalyzer는 현재 온프레미스 설치형만 지원한다. 개인이 API 키를 발급해 바로 쓰는 방식은 불가능하며, B2B 엔터프라이즈 계약 형태로만 도입할 수 있다. 또한 수식을 LaTeX로 변환하는 기능이 없고 이미지로만 제공되는 점도 아쉬운 부분이다.

업스테이지가 PDF·수식 처리에서 앞서는 이유

업스테이지 Document Parse의 강점은 비전 모델에서 나온다. PDF처럼 내부 구조를 열어볼 수 없는 포맷도 이미지로 인식해 파싱하기 때문에, Synap이 구조 해석으로 접근하기 어려운 영역에서 오히려 강점을 보인다.

동그라미 기호, 화살표 같은 특수 문자를 PDF에서 정확히 가져오는 것도 비전 모델 덕분이다. Synap이 같은 PDF에서 동그라미를 'ㅇ'으로 인식하거나 포상 주기 항목을 누락하는 오류를 보인 반면, 업스테이지는 해당 기호와 내용을 정확히 처리했다.

논문의 수식 처리에서는 격차가 더 벌어진다. 업스테이지는 수식 객체를 LaTeX로 완벽하게 변환해주는 반면, Synap은 수식 영역을 이미지 파일로만 반환했다. 수식이 포함된 학술 문서나 기술 매뉴얼을 RAG에 넣어야 한다면 업스테이지가 현재로서는 유일한 선택지다.

다만 HWP 파일을 PDF로 변환해서 업스테이지에 넣으면 성능이 떨어진다. 구조 정보가 이미 사라진 상태의 PDF를 비전으로 읽는 것이기 때문이다. 업스테이지에서 HWP를 처리할 때는 최근 추가된 HWP/HWPX 직접 지원 기능을 활용하는 것이 낫다.

엑셀 처리에서 발생한 열 잘림 오류와 맥 환경에서 작성된 워드 파일의 인코딩 깨짐 문제는 간단한 버그로 보이며, 업스테이지 측에 확인이 필요한 부분이다.

어떤 파서를 선택해야 하는가 — 실제 판단 기준

두 파서를 어느 쪽이 더 낫다고 단정 짓기 어렵다. 처리할 문서 포맷과 인프라 환경에 따라 답이 달라지기 때문이다.

HWP·DOCX·XLSX 원본 파일이 주력이고, 폐쇄망이나 온프레미스 환경에서 운영해야 한다면 Synap DocuAnalyzer가 유리하다. 파일 구조를 직접 해석하는 방식이므로 표 파싱 정확도가 높고, 후처리 부담도 상대적으로 적다.

PDF가 주력이거나 수식·이미지가 포함된 복잡한 문서를 다룬다면, API로 바로 연결해 쓸 수 있고 LaTeX 변환까지 지원하는 업스테이지 Document Parse가 현실적인 선택이다. 개인 개발자도 신용카드 등록만으로 즉시 사용 가능하다는 점도 진입 장벽을 낮춘다.

한 가지 더 짚어야 할 점이 있다. 어떤 파서를 쓰든 파싱 결과물인 마크다운이 나왔다고 해서 전처리가 끝난 것이 아니다. 파서는 객체와 구조를 인식해서 정보를 가져오는 역할만 하고, 그 구조를 바탕으로 후처리 로직을 어떻게 구성하느냐가 RAG 성능을 결정한다. 파서 선택에 에너지를 쏟는 만큼, 파싱 이후의 청킹 전략과 후처리 파이프라인에도 동등한 관심이 필요하다.