Microsoft의 새로운 AI는 초현실적인 말하는 딥페이크를 만들고 Mona Lisa를 랩으로 만들었습니다

11123124123 2024.04.22. 00:33

76 0 0

해외 기사를 번역기로 번역 하였습니다 오역이 있을수 있으니 원문을 참고 하세요

Microsoft의 새로운 AI는 초현실적인 말하는 딥페이크를 만들고 Mona Lisa를 랩으로 만들었습니다 | mbong.kr 엠봉

Microsoft Research Asia는 실제와 같은 말하는 얼굴을 생성하기 위한 프레임워크인 VASA를 소개하는 새로운 논문을 발표했습니다. 연구원들은 단일 정적 이미지와 음성 오디오 클립만을 기반으로 사실적인 비디오를 생성할 수 있는 VASA-1이라는 모델을 선보였습니다. 전체 논문은 arXiv에서 볼 수 있습니다 .

결과는 인상적이며 생성 인공 지능을 사용하여 사실적인 딥페이크를 생성하는 이전 도구를 모두 능가합니다.

VASA-1에서 특히 흥미로운 점은 자연스러운 얼굴 표정, 다양한 감정, 립싱크 능력을 거의 인공물 없이 에뮬레이션하는 전반적인 능력입니다.

연구원들은 이 모델이 다른 모든 모델과 마찬가지로 여전히 머리카락과 같은 비강성 요소로 인해 어려움을 겪고 있음을 인정합니다. 그러나 이 영역에서도 모델은 평균 이상의 성능을 발휘하여 허위 딥페이크 비디오를 식별할 때 알려진 위험 신호 중 하나를 완화합니다.

Microsoft에 따르면 기술적 초석은 표현력이 풍부하고 얽혀 있지 않은 얼굴 잠재 공간에서 작동하는 혁신적인 전체적인 얼굴 역학 및 머리 움직임 생성 모델입니다. VASA-1은 실시간 효율성도 제공합니다.

“우리의 방법은 오프라인 일괄 처리 모드에서 45fps로 512 × 512 크기의 비디오 프레임을 생성하고, 단일 NVIDIA RTX 4090이 탑재된 데스크톱 PC에서 평가한 170ms의 이전 대기 시간으로 온라인 스트리밍 모드에서 최대 40fps를 지원할 수 있습니다. GPU.”

새 모델을 기반으로 한 도구는 사용이 매우 쉽고 "조건에 따라 선택적 신호"를 제어하는 기능도 제공합니다. 즉, 사용자가 주요 시선 방향, 머리 거리 및 감정 오프셋을 설정할 수 있습니다.

VASA-1은 예술 작품과 같은 비현실적인 입력도 처리합니다. 따라서 본질적으로 그림에도 생명을 불어넣을 수 있습니다.

모델은 또한 영어가 아닌 다른 언어로 사진을 노래하거나, 랩하거나, 이야기하게 만들 수도 있습니다. 그 예 중 하나로 Microsoft는 Mona Lisa가 랩을 하는 재미있는 클립을 선보였습니다.

이러한 기술을 사용하여 정치인 , 유명인 뿐만 아니라 일반 시민 등 실제 인물을 모방하는 콘텐츠를 생성할 때 발생할 수 있는 잠재적 피해를 강조하는 것이 중요합니다 . 좋은 소식은 Microsoft 연구원들이 다음과 같은 위험을 인식하고 있다는 것입니다.

"우리는 해당 기술이 적절한 규정에 따라 책임감 있게 사용될 것이라는 확신이 들 때까지 온라인 데모, API, 제품, 추가 구현 세부 정보 또는 관련 제품을 출시할 계획이 없습니다."

Microsoft는 오용 가능성을 인정합니다. 그러나 이는 또한 교육적 형평성 강화, 의사소통 문제가 있는 개인의 접근성 향상, 도움이 필요한 사람들에게 동반자 또는 치료 지원 제공 등 기술의 잠재적 이점을 강조합니다.

★★★★★★★★★★

신고스크랩