AI 챗봇이 충돌 없이 하루 종일 대화할 수 있는 솔루션 개발

11123124123 2024.02.14. 06:50

173 0 0

https://mbong.kr/plusd/2056929 복사

AI 챗봇이 충돌 없이 하루 종일 대화할 수 있는 솔루션 개발 | mbong.kr 엠봉

AI 챗봇이 충돌 없이 하루 종일 대화할 수 있는 새로운 방법

챗봇 성능 저하 문제 해결

연속 대화가 늘어나면 대규모 언어 모델의 성능이 저하되는 문제를 해결하기 위한 솔루션 개발.

캐시의 키-값 메모리를 조정하는 StreamingLLM 방법으로 챗봇이 충돌 없이 지속적인 대화를 가능케 함.

StreamingLLM의 주요 기능과 성능 향상

StreamingLLM은 캐시의 관심도 싱크를 활용해 연속 대화의 길이에 상관없이 효율적으로 동작.

다른 방법과 비교하여 22배 이상 빠른 성능을 보이며, 400만 단어 이상의 대화에 대해서도 안정적인 메모리 사용과 성능을 유지.

향후 연구 방향과 한계 극복 계획

StreamingLLM은 연속적인 대화를 수행하면서 캐시에 저장되지 않은 단어는 기억하지 못하는 한계가 존재.

향후 연구에서는 퇴거된 토큰 검색이나 모델이 이전 대화를 기억할 수 있는 방법을 탐구하여 이러한 한계 극복 계획.

연구원들은 ChatGPT와 같은 대규모 언어 모델의 성능을 악화시킬 수 있는 수수께끼 같은 문제에 대한 간단하면서도 효과적인 솔루션을 개발했습니다.

인간과 인공지능의 대화에 여러 차례의 연속 대화가 포함되면 ChatGPT와 같은 챗봇을 구동하는 강력한 대규모 언어 머신러닝 모델이 붕괴되기 시작하여 봇의 성능이 급격히 저하되는 경우가 있습니다.

MIT 등의 연구팀은 이 문제의 놀라운 원인을 찾아내어 챗봇이 충돌이나 속도 저하 없이 논스톱 대화를 유지할 수 있는 간단한 솔루션을 개발했습니다.

이 방법은 많은 대규모 언어 모델의 핵심에 있는 키-값 캐시(대화 메모리와 같은)를 조정하는 것입니다. 일부 방법에서는 이 캐시에 용량보다 더 많은 정보를 저장해야 할 때 첫 번째 데이터 조각을 밀어냅니다. 이로 인해 모델이 실패할 수 있습니다.

연구진의 방법은 처음 몇 개의 데이터 포인트가 메모리에 남아 있도록 함으로써 대화가 아무리 길어지더라도 챗봇이 계속 채팅할 수 있도록 합니다.

StreamingLLM이라고 하는 이 방법을 사용하면 대화가 400만 단어 이상으로 늘어나는 경우에도 모델이 효율성을 유지할 수 있습니다. 과거 대화의 일부를 지속적으로 재계산하여 충돌을 방지하는 다른 방법과 비교했을 때 StreamingLLM은 22배 이상 빠른 성능을 보였습니다.

이를 통해 챗봇을 계속 재부팅할 필요 없이 업무 시간 내내 긴 대화를 수행할 수 있어 카피라이팅, 편집, 코드 생성 등의 작업을 효율적으로 수행할 수 있는 AI 비서가 될 수 있습니다.

"이제 이 방법을 사용하면 이러한 대규모 언어 모델을 지속적으로 배포할 수 있습니다. 우리가 항상 대화할 수 있고 최근 대화를 기반으로 항상 응답할 수 있는 챗봇을 만들면 새로운 애플리케이션에 이러한 챗봇을 사용할 수 있습니다."라고 전기 공학 및 컴퓨터 과학(EECS) 대학원생이자 StreamingLLM에 관한 논문의 주 저자인 Guangxuan Xiao는 말합니다.

샤오의 공동 저자로는 지도교수이자 MIT-IBM 왓슨 AI 연구소의 일원이자 엔비디아의 저명한 과학자인 송 한(Song Han)과 메타 AI의 연구 과학자인 위안동 티안(Yuandong Tian), 카네기 멜론 대학의 조교수인 베이디 첸(Beidi Chen), 메타 AI의 연구 과학자인 마이크 루이스(Mike Lewis) 등이 있습니다. 이 연구는 학습 표현에 관한 국제 컨퍼런스에서 발표될 예정입니다.

수수께끼 같은 현상

대규모 언어 모델은 사용자 쿼리의 단어와 같은 데이터를 토큰이라는 표현으로 인코딩합니다. 많은 모델은 이러한 토큰을 사용하여 새로운 텍스트를 생성하는 주의 메커니즘이라는 것을 사용합니다.

이러한 관계를 이해하는 것은 대규모 언어 모델이 인간과 유사한 텍스트를 생성할 수 있게 해주는 기능 중 하나입니다.

하지만 캐시가 매우 커지면 관심도 맵이 훨씬 더 방대해져 계산 속도가 느려질 수 있습니다.

또한 콘텐츠를 인코딩하는 데 캐시가 수용할 수 있는 것보다 더 많은 토큰이 필요한 경우 모델의 성능이 저하됩니다. 예를 들어, 한 인기 있는 모델은 4,096개의 토큰을 저장할 수 있지만 학술 논문에는 약 10,000개의 토큰이 있습니다.

이 새로운 논문에서 연구원들은 첫 번째 토큰을 슬라이딩 캐시에 보관하면 캐시 크기가 초과되더라도 모델이 성능을 유지할 수 있다는 사실을 발견했습니다.

하지만 이것은 말이 되지 않았습니다. 소설의 첫 단어는 마지막 단어와 아무 관련이 없을 가능성이 높은데, 왜 모델이 최신 단어를 생성하는 데 첫 단어가 그렇게 중요할까요?

연구진은 새로운 논문에서 이 현상의 원인도 밝혀냈습니다.

주의력 저하

일부 모델은 주의 메커니즘에서 소프트맥스 연산을 사용하는데, 이는 각 토큰이 다른 토큰과 얼마나 관련이 있는지를 나타내는 점수를 각 토큰에 할당합니다. 소프트맥스 연산을 사용하려면 모든 관심도 점수의 합이 1이 되어야 합니다. 대부분의 토큰은 연관성이 강하지 않기 때문에 관심도 점수가 매우 낮습니다. 모델은 남은 관심도 점수를 첫 번째 토큰에 덤프합니다.

연구원들은 이 첫 번째 토큰을 "관심도 싱크"라고 부릅니다.

"우리는 관심 싱크가 필요했고, 모델은 첫 번째 토큰이 전 세계에 표시되어 다른 모든 토큰이 볼 수 있기 때문에 이를 관심 싱크로 사용하기로 결정했습니다. 모델 역학을 유지하려면 항상 관심 싱크를 캐시에 유지해야 한다는 것을 알게 되었습니다."라고 한은 말합니다.

StreamingLLM을 구축하면서 연구원들은 슬라이딩 캐시의 시작 부분에 4개의 관심 싱크 토큰을 두는 것이 최적의 성능을 이끌어낸다는 사실을 발견했습니다.

또한 새로운 토큰이 추가되고 다른 토큰이 밀려나더라도 각 토큰의 위치 인코딩은 동일하게 유지되어야 한다는 사실도 발견했습니다. 토큰 5가 범프아웃되면 토큰 6은 현재 캐시에서 다섯 번째 토큰임에도 불구하고 6으로 인코딩된 상태를 유지해야 합니다.

이 두 가지 아이디어를 결합함으로써 StreamingLLM은 재연산을 사용하는 일반적인 방법보다 뛰어난 성능을 유지하면서 지속적인 대화를 유지할 수 있게 되었습니다.

예를 들어 캐시에 256개의 토큰이 있는 경우, 재계산 방식은 새 토큰을 디코딩하는 데 63밀리초가 걸리는 반면 StreamingLLM은 31밀리초가 걸립니다. 그러나 캐시 크기가 4,096개 토큰으로 증가하면 새 토큰을 재계산하는 데 1,411밀리초가 소요되는 반면 StreamingLLM은 65밀리초만 소요됩니다.

이번 연구에 참여하지 않은 싱가포르 국립대학교의 컴퓨터 과학 석좌교수인 양 유(Yang You)는 "주의 싱크 메커니즘을 중심으로 한 StreamingLLM의 혁신적인 접근 방식은 최대 400만 개의 토큰 길이의 텍스트를 처리할 때도 안정적인 메모리 사용과 성능을 보장합니다."라고 말합니다. "이 기능은 단순히 인상적일 뿐만 아니라 혁신적이어서 다양한 AI 애플리케이션에 StreamingLLM을 적용할 수 있습니다. StreamingLLM의 성능과 다재다능함은 AI 기반 차세대 애플리케이션에 접근하는 방식을 혁신할 수 있는 매우 유망한 기술입니다."

이번 연구에 참여하지 않은 카네기멜론 대학교의 기계 학습 및 컴퓨터 과학과 조교수 티안치 첸도 이에 동의하며 "스트리밍 LLM은 대규모 언어 모델의 대화 길이를 원활하게 확장할 수 있게 해줍니다. 우리는 이 기술을 사용하여 아이폰에 미스트랄 모델을 성공적으로 배포했습니다."라고 말했습니다.

연구진은 또한 모든 훈련 샘플에 여러 개의 플레이스홀더 토큰을 추가하여 모델 훈련 중에 주의 싱크의 사용법을 탐구했습니다.

그 결과, 주의 싱크를 사용하여 훈련하면 일반적으로 사전 훈련된 모델의 성능을 안정화하는 데 필요한 4개의 주의 싱크 대신 캐시에 단 하나의 주의 싱크만으로 모델의 성능을 유지할 수 있다는 사실을 발견했습니다.

그러나 스트리밍LLM을 사용하면 모델이 연속적인 대화를 수행할 수 있지만, 캐시에 저장되지 않은 단어는 기억할 수 없습니다. 향후 연구진은 퇴거된 토큰을 검색하거나 모델이 이전 대화를 기억할 수 있도록 하는 방법을 연구하여 이러한 한계를 극복할 계획입니다.

StreamingLLM은 NVIDIA의 대규모 언어 모델 최적화 라이브러리인 TensorRT-LLM에 통합되었습니다.

이 연구는 부분적으로 MIT-IBM 왓슨 AI 랩, MIT 과학 허브 및 미국 국립과학재단의 지원을 받았습니다.

(단순 번역으로 오역이 있을수 있습니다 자세한 내용은 원문 참조 부탁드립니다)

★★★★★★★★★★

신고스크랩