GPT-4는 LMSYS 벤치마크에서 Claude-3에게 "최고의" LLM 위치를 잃습니다
해외 기사를 번역기로 번역 하였습니다 오역이 있을수 있으니 원문을 참고 하세요
Anthropic의 로컬 스케일 모델 Claude 3 Haiku, "GPT-4급" 성능으로 7위 획득
모든 사람이 대규모 언어 모델을 개발하는 데 자신의 모자와 돈을 던진 것처럼 보입니다. 이러한 AI 폭발로 인해 비교를 위해 벤치마킹할 필요성이 생겼습니다. 그래서 UC Berkley, UC San Diego 및 Carnegie Mellon University의 연구자들은 대규모 언어 시스템 조직(LMSYS Org 또는 간단히 LMSYS)을 구성했습니다.
대규모 언어 모델과 이를 사용하는 챗봇을 평가하는 것은 어렵습니다. 사실적 실수, 문법 오류 또는 처리 속도를 계산하는 것 외에 전 세계적으로 인정되는 객관적인 측정 기준은 없습니다. 지금은 주관적인 측정에 갇혀 있습니다.
"실제" LLM 순위를 매기는 크라우드 소싱 리더보드인 LMSYS의 Chatbot Arena 에 입장하세요. 체스와 같은 제로섬 게임에서 플레이어의 순위를 매기는 데 널리 사용되는 Elo 등급 시스템을 사용합니다. 두 개의 LLM이 무작위로 직접 대결하여 경쟁하며, 인간은 성능에 따라 어떤 봇을 선호하는지 맹목적으로 판단합니다.
GPT-4는 지난해 출시 이후 챗봇 아레나 1위 자리를 지켜왔습니다. 이는 "GPT-4 클래스" 모델로 설명되는 최고 등급 시스템을 갖춘 최고의 표준이 되었습니다. 그러나 OpenAI의 LLM은 어제 Anthropic의 Claude 3 Opus가 GPT-4를 1253 대 1251의 근소한 차이로 이겼을 때 1위 자리에서 밀려 났습니다. 비트가 너무 가까워서 오류 한계로 인해 Claude 3와 GPT-4가 3대 1의 격차를 보였습니다. GPT-4의 또 다른 미리보기 빌드로 처음으로 동점을 이루었습니다.
아마도 더욱 인상적인 것은 Claude 3 Haiku가 상위 10위 안에 들었다는 점일 것입니다. Haiku는 Google의 Gemini Nano와 비교할 수 있는 Anthropic의 "로컬 크기" 모델입니다. 수조 개의 매개변수가 있는 Opus보다 기하급수적으로 작기 때문에 비교해 보면 훨씬 빠릅니다 . LMSYS에 따르면 리더보드에서 7위를 차지한 Haiku는 GPT-4 클래스를 졸업했습니다.