📄오픈소스

GLM-OCR: 0.9B 파라미터로 1위 달성한 초경량 문서 OCR 모델

복잡한 문서 이해를 위한 멀티모달 OCR 모델로, OmniDocBench에서 94.62점으로 1위를 기록하며 빠른 추론 속도 제공

↗ 원본 링크

#OCR#멀티모달#문서이해#GLM

GLM-OCR이란?

GLM-OCR은 복잡한 문서를 이해하고 텍스트를 추출하는 멀티모달 OCR 모델입니다. 불과 0.9B 파라미터로 OmniDocBench V1.5에서 94.62점을 기록하며 1위를 차지했습니다.

주요 특징

🏆 최고 수준의 성능

▸OmniDocBench V1.5에서 종합 1위

▸수식 인식, 표 인식, 정보 추출 등 주요 벤치마크에서 최고 성능

💼 실무 최적화

▸복잡한 표, 코드 문서, 도장 등 실제 비즈니스 환경에 최적화

▸다양한 레이아웃에서 안정적인 성능 유지

⚡ 효율적인 추론

▸0.9B 파라미터로 가벼운 구조

▸vLLM, SGLang, Ollama 배포 지원

▸낮은 지연시간과 비용으로 고동시성 서비스 및 엣지 배포에 이상적

🔧 사용 편의성

▸완전 오픈소스

▸포괄적인 SDK 및 추론 도구 제공

▸간단한 설치와 한 줄 호출로 기존 파이프라인에 쉽게 통합

빠른 시작

Skill 모드 (가장 빠른 설치)

bash

pip install glmocr

API 키만 설정하면 GPU나 YAML 설정 없이 CLI 또는 Python으로 바로 사용 가능합니다.

기술적 특징

GLM-OCR은 GLM-V 인코더-디코더 아키텍처 기반으로 구축되었으며:

▸

Multi-Token Prediction (MTP) 손실: 학습 효율성과 인식 정확도 향상

▸

안정적인 강화 학습: 모든 태스크에서 일반화 능력 개선

▸

CogViT 비전 인코더: 대규모 이미지-텍스트 데이터로 사전 학습

▸

경량 크로스모달 커넥터: 효율적인 토큰 다운샘플링

▸

GLM-0.5B 언어 디코더: 경량화된 언어 이해

활용 분야

▸복잡한 문서 디지털화

▸수식 및 과학 문서 처리

▸표 구조 인식 및 추출

▸코드 문서 이해

▸인보이스 및 영수증 처리

GLM-OCR은 실용성과 성능을 모두 갖춘 OCR 솔루션으로, 프로덕션 환경에서 바로 활용할 수 있는 오픈소스 프로젝트입니다.