Meta AI가 거의 실시간으로 언어를 번역, SeamlessM4T v2 업데이트 버전 공개
Meta AI가 거의 실시간으로 언어를 번역, SeamlessM4T v2 업데이트 버전 공개
또한 Seamless(심리스)에서는 원래 화자의 음색과 감정을 그대로 유지합니다.
메타가 한 언어의 음성을 원래의 어조와 감정을 유지하면서 다른 언어로 빠르게 변환할 수 있는 새로운 언어 번역 AI인 Seamless를 공개했습니다.
최첨단 기술 : 2023년 8월, (AI 분야에서는 아주 오래 전 일처럼 느껴지는) 메타는 거의 100개 언어의 오디오 또는 텍스트 녹음을 모든 언어의 텍스트(또는 36개 언어의 음성)로 번역할 수 있는 AI인 SeamlessM4T를 공개하며 범용 언어 번역기를 개발한다는 목표에 한 걸음 더 다가갔습니다.
당시 메타는 "앞으로 이 기본 모델이 어떻게 새로운 커뮤니케이션 기능을 구현하여 궁극적으로 모든 사람이 이해할 수 있는 세상에 더 가까이 다가갈 수 있을지 연구하고 싶습니다."라고 말했습니다.
새로운 기능은 무엇인가요? 메타는 이제 언어 번역 AI의 업데이트 버전인 SeamlessM4T v2를 공개했으며, "자동 음성 인식, 음성 대 음성, 음성 대 텍스트 및 텍스트 대 음성 기능의 성능 향상을 보여줍니다."라고 설명합니다.
또한 업데이트된 모델을 기반으로 구축된 두 가지 새로운 AI도 공유했습니다: 심리스 스트리밍과 심리스 익스프레시브입니다.
https://x.com/AIatMeta/status/1730338597365309742?s=20
일반적인 언어 번역 도구는 화자가 문장을 완성할 때까지 기다렸다가 번역을 시작합니다. 이는 언어마다 다른 문장 구조(예: 많은 언어가 주어-동사-목적어 순서가 다른 경우)로 인한 문제를 극복하는 데 도움이 되지만, 지연이 발생하여 대화가 자연스럽지 않게 느껴질 수 있습니다.
심리스 스트리밍은 화자가 말을 하는 동안 음성 번역을 시작합니다. 즉, 청취자는 단 몇 초의 지연으로 번역을 들을 수 있습니다.
https://x.com/AIatMeta/status/1737560778801389841?s=20
한편 SeamlessExpressive는 화자가 말하는 내용보다는 말하는 방식에 더 집중하여 번역이 원본 연설의 리듬, 감정, 스타일을 유지하도록 돕습니다.
https://x.com/AIatMeta/status/1730338983828500640?s=20
오픈 소스: 메타는 SeamlessStreaming과 SeamlessExpressive를 단일 언어 번역 AI인 Seamless로 통합하고 모든 것을 만드는 데 사용되는 코드, 모델 및 데이터 세트를 GitHub에서 무료로 사용할 수 있도록 했습니다.
"우리의 작업을 공개함으로써 연구자와 개발자가 점점 더 상호 연결되고 상호 의존하는 세상에서 다국어 연결을 연결하는 기술을 구축하여 우리 기여의 영향력을 확대할 수 있기를 바랍니다."라고 Meta 연구원들은 말합니다.
(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)