Cohere for AI, 101개 언어를 위한 오픈소스 LLM 출시

123124123 2024.02.15. 06:57

146 0 0

https://mbong.kr/plusd/2058437 복사

Cohere for AI, 101개 언어를 위한 오픈소스 LLM 출시

Cohere for AI, 101개 언어를 지원하는 Aya 모델 공개

Cohere for AI가 101개 언어를 지원하는 오픈소스 LLM(대형 언어 모델)인 Aya를 공개.

이는 기존 모델에서 다루는 언어 수의 두 배 이상이며, Aya 데이터 세트도 함께 공개됨.

새로운 모델과 데이터는 다양한 언어와 문화에 대한 LLM의 잠재력을 활용하는 데 도움이 될 것으로 예상됨.

Aya 모델의 특징 및 업적

Aya 프로젝트는 2023년 1월에 시작되었고, 119개국의 팀과 3000명 이상의 참가자가 참여한 대규모 공동 작업.

5억 1,300만 개 이상의 명령을 미세 조정된 주석을 사용하여 훈련되었으며, Aya는 다양한 언어에서 Bloomz 등 최고 모델을 능가함.

데이터 세트는 언어에 관한 "절벽"을 극복하고 미세 조정 데이터 외의 다양한 언어를 다루기 위한 가치 있는 자료를 제공함.

언어 다양성에 대한 노력과 도전

Cohere for AI는 Aya와 유사한 다국어 데이터 노력의 중요성을 강조.

다국어 데이터의 부족으로 어려움을 겪는 언어에 대한 모델 성능 향상을 위한 연구가 진행되고 있으며, 글로벌 지원 및 협력이 필요.

Aya 모델 및 데이터는 이미 Hugging Face에서 사용 가능.

Cohere가 2022년에 설립한 비영리 연구소인 Cohere for AI는 오늘 101개 언어를 지원하는 오픈소스 LLM(대형 언어 모델)인 Aya를 공개했습니다. 이는 기존 오픈 소스 모델에서 다루는 언어 수의 두 배 이상입니다.

연구원들은 또한 그에 상응하는 인간 주석 모음인 Aya 데이터 세트를 공개했습니다. 이는 덜 일반적인 언어를 훈련하는 데 장애물 중 하나가 훈련할 소스 자료가 적다는 것이기 때문에 이것이 중요합니다. 그러나 Cohere for AI에 따르면 연구소의 엔지니어들은 더 적은 훈련 데이터로 모델 성능을 향상시킬 수 있는 방법도 찾았습니다.

Cohere의 연구 부사장이자 Cohere for AI의 리더인 Sara Hooker는 2023년 1월에 시작된 Aya 프로젝트는 119개국의 팀과 참가자를 포함하여 전 세계 3000명 이상의 공동 작업자가 참여한 "거대한 노력"이라고 말했습니다.

5억 1,300만 개 이상의 명령이 미세 조정된 주석(정보 분류에 도움이 되는 데이터 레이블)을 사용하여 Hooker는 인터뷰에서 VentureBeat에게 이렇게 말했습니다. 일종의 데이터는 LLM 교육이 끝날 때 계속되는 매우 가치 있는 "금가루"입니다(인터넷에서 스크랩한 사전 교육 데이터와 반대).

Cohere의 공동 창립자이자 CTO인 Ivan Zhang은 X에 "우리는 지능을 더욱 확장하고 영어를 읽을 수 있는 세계보다 인류에게 더 많은 서비스를 제공하기 위해 100개 이상의 언어로 인간 시연을 공개할 것"이라고 게시했습니다. Hooker와 Cohere for AI 팀이 달성한 또 다른 불가능한 과학적, 운영적 업적입니다.

언어와 문화에 대한 LLM의 잠재력은 대부분 무시됩니다.

Cohere 블로그 게시물 에 따르면 , 새로운 모델과 데이터 세트는 "연구원들이 오늘날 시장에 나와 있는 대부분의 고급 모델에서 크게 무시되는 수십 가지 언어와 문화에 대한 LLM의 강력한 잠재력을 활용하는 데 도움이 됩니다."

Cohere for AI는 사용 가능한 오픈 소스 대규모 다국어 모델에 대해 Aya 모델 성능을 벤치마킹했다고 밝혔습니다. 벤치마크 테스트 성능에서 mT0 및 Bloomz와 같은 최고의 오픈 소스 모델을 "넓은 차이로" 능가하고

소말리아어 및 우즈베크어를 포함하여 이전에 제공되지 않았던 50개 이상의 언어로 적용 범위를 확장합니다.

이는 영어 미세 조정 데이터 외부에 일종의 데이터 "절벽"이 있다는 것을 의미하므로 Aya의 데이터는 "믿을 수 없을 정도로 드물다"고 Hooker는 설명했습니다.

"내가 기대하는 것은 사람들이 이 데이터 세트에서 공유하고 싶은 언어를 선택하고, 언어 하위 집합을 제공하는 모델을 반복하고 생성할 수 있다는 것입니다. 이는 엄청난 수요입니다."라고 그녀는 말했습니다. “하지만 지금 기술적으로 가장 큰 차이점은 정확성입니다. 이 모델은 전 세계에서 사용되어 왔기 때문에 사람들은 이 모델이 자신에게 적합하길 원합니다. 그리고 그들은 개인화를 원하며, 그 중 일부는 다양한 언어로 된 데이터가 필요합니다.”

이전에 Google DeepMind의 연구원이었던 Aleksa Gordic은 현재 언어별 LLM을 위한 풀 스택 생성 AI 플랫폼을 구축하고 있으며 세르비아어, 보스니아어, 크로아티아어 및 몬테네그로어에 대한 Mistral 및 Llama 2보다 성능이 뛰어난 LLM인 YugoGPT를 개발했습니다.

그는 VentureBeat에 “Aya와 유사한 모든 다국어 데이터 노력이 중요하다고 생각합니다.”라고 말했습니다. "LLM은 데이터를 기반으로 하며, 영어가 아닌 언어를 지원하려면 고품질 LLM을 구축할 수 있도록 해당 대상 언어에 대한 고품질의 이상적으로 풍부한 데이터 소스가 필요합니다."

그는 “이 노력은 확실히 충분하지 않지만 올바른 방향으로 나아가는 단계”라고 덧붙였습니다. 그는 이를 위해 글로벌 연구 커뮤니티가 필요하다고 설명했습니다. “또한 대규모 고품질 데이터 소스 구축의 중요성을 이해하려면 전 세계 정부의 지원이 필요합니다. 그렇게 하면 새로운 AI 세계에서 당신의 언어와 문화를 보존할 수 있습니다.”

Cohere for AI의 Aya 모델 및 데이터 세트는 이미 Hugging Face 에서 사용할 수 있습니다

(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)

★★★★★★★★★★

신고스크랩