prev
next
엠봉 유저들을 위한 홍보게시판
  • 목록
  • 아래로
  • 위로
  • 쓰기
  • 검색

GPT-4는 LMSYS 벤치마크에서 Claude-3에게 "최고의" LLM 위치를 잃습니다

123124123
87 0 0
https://mbong.kr/plusd/2128878 복사

해외 기사를 번역기로 번역 하였습니다 오역이 있을수 있으니 원문을 참고 하세요

Anthropic의 로컬 스케일 모델 Claude 3 Haiku, "GPT-4급" 성능으로 7위 획득

모든 사람이 대규모 언어 모델을 개발하는 데 자신의 모자와 돈을 던진 것처럼 보입니다. 이러한 AI 폭발로 인해 비교를 위해 벤치마킹할 필요성이 생겼습니다. 그래서 UC Berkley, UC San Diego 및 Carnegie Mellon University의 연구자들은 대규모 언어 시스템 조직(LMSYS Org 또는 간단히 LMSYS)을 구성했습니다.


대규모 언어 모델과 이를 사용하는 챗봇을 평가하는 것은 어렵습니다. 사실적 실수, 문법 오류 또는 처리 속도를 계산하는 것 외에 전 세계적으로 인정되는 객관적인 측정 기준은 없습니다. 지금은 주관적인 측정에 갇혀 있습니다.

"실제" LLM 순위를 매기는 크라우드 소싱 리더보드인 LMSYS의 Chatbot Arena 에 입장하세요. 체스와 같은 제로섬 게임에서 플레이어의 순위를 매기는 데 널리 사용되는 Elo 등급 시스템을 사용합니다. 두 개의 LLM이 무작위로 직접 대결하여 경쟁하며, 인간은 성능에 따라 어떤 봇을 선호하는지 맹목적으로 판단합니다.

GPT-4는 LMSYS 벤치마크에서 Claude-3에게

GPT-4는 지난해 출시 이후 챗봇 아레나 1위 자리를 지켜왔습니다. 이는 "GPT-4 클래스" 모델로 설명되는 최고 등급 시스템을 갖춘 최고의 표준이 되었습니다. 그러나 OpenAI의 LLM은 어제 Anthropic의 Claude 3 Opus가 GPT-4를 1253 대 1251의 근소한 차이로 이겼을 때 1위 자리에서 밀려 났습니다. 비트가 너무 가까워서 오류 한계로 인해 Claude 3와 GPT-4가 3대 1의 격차를 보였습니다. GPT-4의 또 다른 미리보기 빌드로 처음으로 동점을 이루었습니다.

아마도 더욱 인상적인 것은 Claude 3 Haiku가 상위 10위 안에 들었다는 점일 것입니다. Haiku는 Google의 Gemini Nano와 비교할 수 있는 Anthropic의 "로컬 크기" 모델입니다. 수조 개의 매개변수가 있는 Opus보다 기하급수적으로 작기 때문에 비교해 보면 훨씬 빠릅니다 . LMSYS에 따르면 리더보드에서 7위를 차지한 Haiku는 GPT-4 클래스를 졸업했습니다.

★★★★★★★★★★
신고스크랩


댓글 0

댓글 쓰기
불법 사이트 홍보시 영구IP차단 됩니다.
권한이 없습니다. 로그인
0%
에디터 모드

신고

"님의 댓글"

이 댓글을 신고하시겠습니까?

댓글 삭제

"님의 댓글"

이 댓글을 삭제하시겠습니까?