중국 AI 모델이 Hugging Face의 LLM 챗봇 벤치마크 순위표를 강타했습니다.

123124123 2024.07.01. 22:44

52 0 0

번역기만 돌린 기계 번역으로 오역이 많을 수 있으며 자세한 내용은 원문을 참고하세요.

중국 AI 모델이 Hugging Face의 LLM 챗봇 벤치마크 순위표를 강타했습니다. 미국의 주요 경쟁업체가 악화됨에 따라 Alibaba가 이사회를 운영합니다.

중국 AI 모델이 Hugging Face의 LLM 챗봇 벤치마크 순위표를 강타했습니다. | mbong.kr 엠봉

허깅 페이스는 두 번째 LLM 리더보드를 출시하여 테스트한 최고의 언어 모델을 순위를 매겼습니다. 새로운 리더보드는 다양한 작업에서 개방형 대규모 언어 모델(LLM) 성능을 테스트하기 위한 더욱 도전적인 통일된 표준이 되고자 합니다. 알리바바의 Qwen 모델은 리더보드의 첫 순위에서 우세한 것으로 보이며 상위 10위 안에 3개 자리를 차지했습니다.

Hugging Face의 두 번째 순위표는 지식 테스트, 극도로 긴 상황에 대한 추론, 복잡한 수학 능력 및 지침 따르기라는 네 가지 작업에 걸쳐 언어 모델을 테스트합니다. 이러한 품질을 테스트하기 위해 6개의 벤치마크가 사용되며, 1,000 단어로 된 살인 미스터리 풀기, 일반인의 용어로 박사 수준 질문 설명, 그리고 가장 어려운 고등학교 수학 방정식을 포함한 테스트를 포함합니다. 사용된 벤치마크의 전체 분석 내용은 Hugging Face 블로그 에서 확인할 수 있습니다 .

새로운 리더보드의 선두 주자는 Alibaba 의 LLM인 Qwen으로, 다양한 변형으로 1위, 3위, 10위를 차지했습니다. 또한 Llama3-70B, Meta의 LLM 및 팩보다 뛰어난 성능을 발휘한 소수의 소규모 오픈 소스 프로젝트도 표시됩니다. 특히 ChatGPT의 흔적은 없습니다. Hugging Face의 리더보드는 결과의 재현성을 보장하기 위해 비공개 소스 모델을 테스트하지 않습니다.

리더보드 자격을 얻기 위한 테스트는 CEO Clem Delangue의 트위터에 따르면 300개의 Nvidia H100 GPU로 구동되는 Hugging Face의 자체 컴퓨터에서만 실행됩니다. Hugging Face의 오픈 소스 및 협업 특성으로 인해 누구나 테스트를 위해 새로운 모델을 자유롭게 제출하고 리더보드에 승인할 수 있으며, 새로운 투표 시스템을 통해 테스트할 인기 있는 새 항목의 우선 순위를 정할 수 있습니다. 리더보드를 필터링하여 중요한 모델의 강조 표시된 배열만 표시하여 혼란스러운 소규모 LLM 과잉을 방지할 수 있습니다.

★★★★★★★★★★

신고스크랩