prev
next
엠봉 유저들을 위한 홍보게시판
  • 목록
  • 아래로
  • 위로
  • 쓰기
  • 검색

Jamba, 이스라엘 AI21 Labs의 새로운 AI 모델은 대부분의 것보다 더 많은 컨텍스트를 처리

123124123
34 0 0
https://mbong.kr/plusd/2131684 복사

(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)


Jamba, 이스라엘 AI21 Labs의 새로운 AI 모델은 대부분의 것보다 더 많은 컨텍스트를 처리 | mbong.kr 엠봉

이스라엘 AI21 Labs의 새로운 AI 모델은 대부분의 것보다 더 많은 컨텍스트를 처리할 수 있습니다

AI21 Labs의 Jamba 모델 소개

AI21 Labs가 개발한 Jamba는 새로운 AI 생성 모델로, 높은 컨텍스트 처리 능력을 갖추고 있습니다.

Jamba는 텍스트 생성 및 분석 작업에서 많은 작업을 수행할 수 있으며, 영어, 프랑스어, 스페인어, 포르투갈어로 텍스트를 작성할 수 있습니다.

단일 GPU에서 실행되며, 80GB의 메모리를 갖춘 경우 최대 140,000개의 토큰을 처리할 수 있습니다.

Jamba의 아키텍처와 성능

Jamba는 변환기와 상태 공간 모델(SSM)의 조합을 사용하여 작동합니다.

SSM은 긴 데이터 시퀀스를 처리하는 더 효율적인 아키텍처를 제공하며, 초기 실험 결과에 따르면 변환기 기반 모델보다 더 큰 입력을 처리하고 언어 생성 작업에서 더 뛰어난 성능을 발휘할 수 있습니다.

Jamba는 상용 등급 생산 모델로서 SSM 아키텍처의 가능성을 입증하고 있으며, 앞으로 추가적인 조정을 통해 성능이 향상될 것으로 기대됩니다.

Jamba의 출시와 미래 전망

Jamba는 Apache 2.0 라이센스에 따라 출시되었으며, 연구용 릴리스이지만 상용적인 사용도 가능합니다.

현재는 유해한 텍스트 생성 방지나 편향 처리와 같은 안전 조치는 없지만, 향후 더 안전한 버전이 출시될 예정입니다.

Jamba는 단일 GPU에서 사용 가능하며, 미래에는 추가적인 조정을 통해 성능이 더욱 향상될 것으로 예상됩니다.

AI 산업은 점점 더 긴 컨텍스트를 갖춘 생성적 AI 모델로 전환하고 있습니다. 그러나 컨텍스트 창이 큰 모델은 계산 집약적인 경향이 있습니다. 또는 AI 스타트업 AI21 Labs 의 제품 책임자인 Dagan은 반드시 그럴 필요는 없다고 주장하며 그의 회사는 이를 증명하기 위해 생성 모델을 출시하고 있습니다.

컨텍스트 또는 컨텍스트 창은 모델이 출력(추가 텍스트)을 생성하기 전에 고려하는 입력 데이터(예: 텍스트)를 나타냅니다. 작은 컨텍스트 창을 가진 모델은 아주 최근 대화의 내용조차 잊어버리는 경향이 있는 반면, 더 큰 컨텍스트를 가진 모델은 이러한 함정을 피하고, 추가 이점으로 받아들이는 데이터의 흐름을 더 잘 파악합니다.

새로운 텍스트 생성 및 분석 모델인 AI21 Labs의 Jamba는 OpenAI의 ChatGPT 및 Google의 Gemini 와 같은 모델이 수행할 수 있는 것과 동일한 많은 작업을 수행할 수 있습니다. 공개 데이터와 독점 데이터를 혼합하여 교육받은 Jamba는 영어, 프랑스어, 스페인어 및 포르투갈어로 텍스트를 작성할 수 있습니다.

Jamba는 최소 80GB의 메모리를 갖춘 단일 GPU(예: 고급 Nvidia A100)에서 실행되는 동안 최대 140,000개의 토큰을 처리할 수 있습니다. 이는 약 105,000단어, 즉 210페이지에 해당하며 적당한 크기의 소설입니다.

이에 비해 Meta의 Llama 2 는 32,000개의 토큰 컨텍스트 창을 가지고 있지만(현재 표준에 비해 작은 편) 실행하려면 최대 12GB의 메모리를 갖춘 GPU만 필요합니다. (컨텍스트 창은 일반적으로 원시 텍스트 및 기타 데이터 비트인 토큰으로 측정됩니다.)

표면적으로 Jamba는 눈에 띄지 않습니다. Databricks가 최근 출시한 DBRX 부터 앞서 언급한 Llama 2에 이르기까지 무료로 사용 가능하고 다운로드 가능한 생성 AI 모델이 많이 있습니다 .

그러나 Jamba를 독특하게 만드는 것은 후드 아래에 있는 것입니다. 이는 변환기와 상태 공간 모델(SSM)이라는 두 가지 모델 아키텍처의 조합을 사용합니다.

Transformer는 예를 들어 GPT-4 및 Google의 Gemini 와 같은 모델을 지원하는 복잡한 추론 작업을 위해 선택되는 아키텍처입니다 . 몇 가지 독특한 특성을 가지고 있지만, 지금까지 트랜스포머를 정의하는 특징은 "주의 메커니즘"입니다. 모든 입력 데이터(예: 문장)에 대해 변환기는 다른 모든 입력(다른 문장)의 관련성을 평가 하고 이를 추출하여 출력(새 문장)을 생성합니다.

반면 SSM은 순환 신경망 및 컨볼루션 신경망과 같은 이전 유형의 AI 모델의 여러 품질을 결합하여 긴 데이터 시퀀스를 처리할 수 있는 보다 계산적으로 효율적인 아키텍처를 만듭니다.

이제 SSM에는 한계가 있습니다. 그러나 Princeton 및 Carnegie Mellon 연구진의 Mamba라는 오픈 소스 모델을 포함한 일부 초기 버전은 변환기 기반 모델보다 더 큰 입력을 처리하는 동시에 언어 생성 작업에서 더 뛰어난 성능을 발휘할 수 있습니다.

실제로 Jamba는 Mamba를 핵심 모델의 일부로 사용하며 Dagan은 비슷한 크기의 변환기 기반 모델에 비해 긴 컨텍스트에서 3배의 처리량을 제공한다고 주장합니다.

Dagan은 TechCrunch와의 인터뷰에서 "SSM 모델에 대한 초기 학문적 사례가 몇 가지 있지만 이것은 최초의 상용 등급 생산 규모 모델입니다."라고 말했습니다. "이 아키텍처는 커뮤니티의 추가 연구를 위해 혁신적이고 흥미로울 뿐만 아니라 뛰어난 효율성과 처리량 가능성을 열어줍니다."

이제 Jamba는 비교적 사용 제한이 적은 오픈 소스 라이센스인 Apache 2.0 라이센스에 따라 출시되었지만 Dagan은 이것이 상업적으로 사용하려는 의도가 아닌 연구용 릴리스임을 강조합니다. 모델에는 유해한 텍스트 생성을 방지하거나 잠재적인 편견을 해결하기 위한 완화 조치가 없습니다. 앞으로 몇 주 안에 미세 조정되고 표면적으로는 "더 안전한" 버전이 출시될 예정입니다.

그러나 Dagan은 Jamba가 이 초기 단계에서도 SSM 아키텍처의 가능성을 입증한다고 주장합니다.

신고


댓글 0

댓글 쓰기
불법 사이트 홍보시 영구IP차단 됩니다.
권한이 없습니다. 로그인
0%
에디터 모드

신고

"님의 댓글"

이 댓글을 신고하시겠습니까?

댓글 삭제

"님의 댓글"

이 댓글을 삭제하시겠습니까?