📄오픈소스

AI 데이터 추출을 위한 오픈소스 PDF 파서

PDF를 마크다운, JSON, HTML로 변환하는 고정밀 파서. 벤치마크 1위, OCR 지원, 테이블/수식 추출 가능

#PDF#데이터추출#OCR#문서파싱

개요

opendataloader-pdf는 AI 학습용 데이터 추출에 최적화된 오픈소스 PDF 파서입니다. PDF 문서를 마크다운, JSON, HTML 형식으로 정확하게 변환할 수 있습니다.

▸

벤치마크 1위: 200개 실제 PDF 테스트에서 전체 정확도 0.90, 테이블 정확도 0.93 달성

▸다단 레이아웃과 과학 논문도 정확하게 처리

▸로컬 처리 모드와 AI 하이브리드 모드 제공

▸스캔된 PDF 자동 인식

▸80개 이상 언어 지원

▸300 DPI 이상의 저품질 스캔도 처리 가능

▸복잡한 테이블 및 테두리 없는 테이블

▸LaTeX 형식의 수식

▸이미지 및 차트

▸Python (PyPI)

▸JavaScript/TypeScript (npm)

▸Java (Maven Central)

▸Java 11 이상 필요

▸RAG(Retrieval-Augmented Generation) 시스템용 데이터 준비

▸PDF 문서 자동 접근성 향상

▸학술 논문 및 기술 문서 파싱

▸대량 문서 배치 처리

각 convert() 호출마다 JVM 프로세스가 생성되므로, 대량 파일 처리 시 배치 모드를 사용하는 것이 권장됩니다.