📄오픈소스

AI 데이터 추출을 위한 오픈소스 PDF 파서

PDF를 마크다운, JSON, HTML로 변환하는 고정밀 파서. 벤치마크 1위, OCR 지원, 테이블/수식 추출 가능

원본 링크
#PDF#데이터추출#OCR#문서파싱

개요

opendataloader-pdf는 AI 학습용 데이터 추출에 최적화된 오픈소스 PDF 파서입니다. PDF 문서를 마크다운, JSON, HTML 형식으로 정확하게 변환할 수 있습니다.

주요 특징

높은 정확도

벤치마크 1위: 200개 실제 PDF 테스트에서 전체 정확도 0.90, 테이블 정확도 0.93 달성
다단 레이아웃과 과학 논문도 정확하게 처리
로컬 처리 모드와 AI 하이브리드 모드 제공

OCR 지원

스캔된 PDF 자동 인식
80개 이상 언어 지원
300 DPI 이상의 저품질 스캔도 처리 가능

복잡한 요소 추출

복잡한 테이블 및 테두리 없는 테이블
LaTeX 형식의 수식
이미지 및 차트

다양한 언어 지원

Python (PyPI)
JavaScript/TypeScript (npm)
Java (Maven Central)
Java 11 이상 필요

사용 사례

RAG(Retrieval-Augmented Generation) 시스템용 데이터 준비
PDF 문서 자동 접근성 향상
학술 논문 및 기술 문서 파싱
대량 문서 배치 처리

성능 최적화

convert() 호출마다 JVM 프로세스가 생성되므로, 대량 파일 처리 시 배치 모드를 사용하는 것이 권장됩니다.