📄오픈소스
AI 데이터 추출을 위한 오픈소스 PDF 파서
PDF를 마크다운, JSON, HTML로 변환하는 고정밀 파서. 벤치마크 1위, OCR 지원, 테이블/수식 추출 가능
↗ 원본 링크#PDF#데이터추출#OCR#문서파싱
개요
opendataloader-pdf는 AI 학습용 데이터 추출에 최적화된 오픈소스 PDF 파서입니다. PDF 문서를 마크다운, JSON, HTML 형식으로 정확하게 변환할 수 있습니다.
주요 특징
높은 정확도
▸
벤치마크 1위: 200개 실제 PDF 테스트에서 전체 정확도 0.90, 테이블 정확도 0.93 달성
▸다단 레이아웃과 과학 논문도 정확하게 처리
▸로컬 처리 모드와 AI 하이브리드 모드 제공
OCR 지원
▸스캔된 PDF 자동 인식
▸80개 이상 언어 지원
▸300 DPI 이상의 저품질 스캔도 처리 가능
복잡한 요소 추출
▸복잡한 테이블 및 테두리 없는 테이블
▸LaTeX 형식의 수식
▸이미지 및 차트
다양한 언어 지원
▸Python (PyPI)
▸JavaScript/TypeScript (npm)
▸Java (Maven Central)
▸Java 11 이상 필요
사용 사례
▸RAG(Retrieval-Augmented Generation) 시스템용 데이터 준비
▸PDF 문서 자동 접근성 향상
▸학술 논문 및 기술 문서 파싱
▸대량 문서 배치 처리
성능 최적화
각 convert() 호출마다 JVM 프로세스가 생성되므로, 대량 파일 처리 시 배치 모드를 사용하는 것이 권장됩니다.