🎙️오픈소스
MS의 무료 음성 인식 AI 'VibeVoice' - 60분 회의를 완벽하게 텍스트로 변환
마이크로소프트가 공개한 오픈소스 음성 인식 AI로 긴 회의 녹음을 끊김 없이 텍스트로 변환하고 화자까지 자동 분리
↗ 원본 링크#음성인식#STT#VibeVoice#Microsoft#회의록
VibeVoice란?
마이크로소프트가 무료로 공개한 음성 인식 AI 오픈소스 프로젝트입니다. 깃허브에서 이미 3.8만 개의 별을 받을 정도로 인기를 얻고 있으며, 60분 분량의 회의를 한 번에 끊김 없이 텍스트로 변환할 수 있습니다.
주요 특징
1. 완벽한 문맥 유지
일반 AI는 긴 음성을 여러 구간으로 쪼개서 처리하기 때문에 문맥이 어색해지거나 화자가 섞이는 오류가 발생합니다. 하지만 VibeVoice는 60분을 통째로 처리해 대화 흐름을 완벽하게 유지합니다.
2. 자동 화자 분리
누가 말했는지 자동으로 구분하고, 타임스탬프와 함께 정확하게 기록합니다.
3. 다국어 지원
50개 국가의 언어를 지원하며, 다국어가 섞인 회의에서도 각 언어를 정확히 인식합니다.
4. 음성 생성 기능
텍스트를 음성으로 변환하는 기능도 포함되어 있습니다. 최대 90분 길이까지 생성 가능하며, 여러 화자와 감정까지 표현할 수 있습니다.
사용 방법
사용법은 매우 간단합니다:
1.GitHub 저장소에서 코드를 clone
2.변환할 음성 파일을 지정 폴더에 저장
3.실행 명령어 입력
4.결과 파일 자동 생성 (타임스탬프 + 화자 분리 포함)
주의사항
⚠️ 60분 제한: 한 번에 처리할 수 있는 최대 길이가 60분입니다. 이를 초과하면 에러가 발생하므로, 긴 파일은 미리 60분 단위로 분할해야 합니다.
실무 활용 팁
▸
다국어 회의: 외국어 화자가 섞여 있어도 각 언어를 자동 인식
▸
회의록 자동화: 사람이 직접 타이핑하던 시간을 대폭 절약
▸
비용 절감: 유료 서비스(네이버 클로바 등) 대신 무료로 사용 가능
마무리
회의 내용을 기록하는 방식을 완전히 바꿀 수 있는 혁신적인 도구입니다. 반복적인 회의록 작성 작업에 시간을 쏟고 있다면, 지금 바로 VibeVoice를 업무에 적용해보세요.