목록
아래로
위로

쓰기
검색

정보 (필독)AI 컴퓨팅의 핵심이자 최대 수혜가 바로 D램인 이유 ㄷㄷㄷ

ㅇ_ㅇ)b 2024.02.24. 23:44

196 0 0

https://mbong.kr/issue/2072903 복사

밑에 글에서 우리가 인사이트를 얻을 게 뭐가 있나면

트랜지스터 절벽: 반도체가 AI 발전에 미치는 영향

ttps://asteriskmag.com/issues/03/the-transistor-cliff

들어가며: 무어의 법칙에 종말이 닥쳤는지도 모릅니다. 그렇다면 AI 발전은 어떻게 될까요?

가장 큰 AI 모델은 값비싼 최첨단 반도체에서 훈련됩니다. 구글 및 오픈 AI와 같은 소수의 빅테크들만이 이러한 모델을 훈련시킬 예산이 있습니다. 수년 동안 AI 모델의 성능 개선은 반도체의 발전에 의해 주도되었습니다.

대부분의 반도체 제조 역사에서는 꾸준하고 예상 가능한 성능 향상과 가격 인하가 일반적이었습니다. 이 패턴은 "무어의 법칙" 으로 성문화되었습니다. 인텔 CEO인 고든 무어는 동일한 가격으로 칩에 탑재할 수 있는 트랜지스터의 수가 약 2년마다 두 배로 증가한다는 법칙을 주장했습니다. 그런데 이 무어의 법칙이 조만간 끝날 수도 있습니다. 특정 반도체 성능 지표에 따르면 무어의 법칙은 이미 중단되었고, 곧 근본적인 물리적 한계에 도달할 예정입니다.

그렇다면 "무어의 법칙 이후"에는 어떤 일이 일어날까요? 그리고 이것이 AI 모델 발전에 어떤 영향을 미칠까요?

이에 대해 좀 더 자세히 살펴보겠습니다.

스케일링이란 무엇입니까?

AI의 스케일링 법칙은 일반적으로 모델의 성능을 훈련 데이터, 모델 매개변수(Parameter) 및 컴퓨팅과 같은 변수로 계산합니다.

AI 모델의 성능은 데이터에서 "정답"을 선택하는 정확도를 나타냅니다. 예컨대 LLM(대규모 언어 모델)은 텍스트 완성을 예측하도록 훈련됩니다. 텍스트를 완성하는 방법을 더 자주 정확하게 예측할수록 성능이 향상됩니다. 성능의 반댓말은 "손실(Loss)"이며, 이는 모델의 예측이 정답과 얼마나 동떨어졌는지를 측정하는 척도입니다. 낮은 손실은 더 나은 성능을 의미합니다.

훈련 데이터는 모델 훈련에 사용되는 데이터의 크기입니다. 모델의 매개변수 개수는 신경망의 노드 수와 같은 모델 복잡성의 척도입니다.

* 초당 부동 소수점 연산 횟수(FLoating point Operations Per Second)인 플롭스는 컴퓨터의 성능을 측정하는 척도입니다. 부동 소수점은 소수점이 이동할 수 있기 때문에 "부동"이라는 의미로 컴퓨터 메모리에 있는 숫자를 말합니다. 연산은 기본 산술을 의미하며, 초당은 시간 구성 요소입니다. 참고로 애플 M1 칩은 2.6테라플롭스의 성능을 보여주고, 엔비디아 A100 GPU는 312테라플롭스입니다. 대규모 연구소에서는 수천 개의 GPU 클러스터를 사용하여 모델을 훈련할 수 있습니다.

2020년 오픈 AI 에서 발견한 손실과 컴퓨팅 간의 스케일링 관계는 제곱 관계입니다. 모델의 컴퓨팅 파워가 10배 증가하면 손실은 약 11% 낮아집니다. 이는 "컴퓨팅 파워의 증가"만으로 얼마나 "더 나은" 모델을 얻을 수 있는지 알려줍니다. 모델이 얼마나 강력하고 정확한지 "11% 더 낮은 손실"이 무엇을 의미하는지 정확히 말하기는 어렵지만, 기존 모델을 통해 그 맥락을 파악할 수 있습니다.

오픈 AI가 2019년에 출시한 GPT-2는 3억 개의 텍스트 데이터 토큰으로 훈련되었으며, 15억 개의 매개변수를 가졌습니다. 챗GPT의 기반이 된 AI 모델인 GPT-3는 3000억에서 4000억 개의 텍스트 데이터 토큰으로 훈련되었으며, 1750억 개의 매개변수를 가졌습니다. 최신 모델인 GPT-4의 세부 정보는 공개되지 않았지만, 그 규모에 대해 외부 전문가들은 약 4000억에서 1조 개의 매개변수와 8조 개의 텍스트 데이터 토큰으로 훈련되었다고 추정합니다.

즉, GPT-3 학습에는 GPT-2보다 약 200,000배 많은 컴퓨팅이 필요했고, GPT-4는 GPT-3보다 60~150배 더 많은 컴퓨팅이 필요했습니다. 실질적으로 GPT-2는 일관된 문장을 생성할 수 있지만, 그 결과물은 텍스트가 약 한 단락 이상 넘어가면 반복적인 노이즈로 변질되는 경향이 있었습니다. 훨씬 더 큰 GPT-3는 주제에 맞는 합리적인 구성의 전체 글을 안정적으로 완성할 수 있습니다. GPT-4는 프로그래밍 문제에서 변호사 시험에 이르기까지 모든 분야에서 훨씬 더 인상적인 성능을 보였습니다.

더 긴 시간 범위를 살펴보면 2012년에서 2023년 사이에 최신 AI 모델을 훈련하는 데 사용되는 컴퓨팅이 약 8자릿수(즉, 1억 배 이상) 증가했다고 Epoch AI는 추정합니다 .

가장 큰 AI 모델이 2020년대가 끝날 때까지 현재 속도로 계속 성장한다면 이는 컴퓨팅 성장의 3배 규모에 해당합니다. 이는 GPT-3과 GPT-4 사이의 컴퓨팅 증가보다 크지만 GPT-2와 GPT-3 사이의 컴퓨팅 증가보다 적습니다. 초대형 모델의 컴퓨팅 집약도가 높아짐에 따라 성장 속도가 느려진 것 같습니다.

AI 모델 전용 컴퓨팅이 현재 추세보다 더 빠르게 성장할 가능성은 여전히 있습니다. 아마도 AI는 최초의 LLM 기반 제품이 출시되고 널리 보급됨에 따라 더 많은 투자와 리소스를 유치할 것입니다. 그러나 이번 10년 말까지 LLM에 얼마나 많은 컴퓨팅이 들어갈 수 있는지에 대한 근본적인 한계에 부딪힐 수 있다고 예상하는 몇 가지 이유가 있습니다.

AI 발전과 관련된 무어의 법칙

1965년 고든 무어는 집적 회로의 트랜지스터 밀도가 2년마다 두 배로 증가한다고 주장했습니다. 적어도 칩당 트랜지스터 개수에 관해서는 이 주장은 사실입니다.

(필독)AI 컴퓨팅의 핵심이자 최대 수혜가 바로 D램인 이유 ㄷㄷㄷ | mbong.kr 엠봉

그런데 거기에 비용까지 같이 고려하면 무어의 법칙은 사실상 정체된 것처럼 보입니다. 트랜지스터당 비용은 2011년 28nm 노드에서 감소를 멈췄습니다(오늘날의 최첨단 트랜지스터는 3nm를 사용하며 내년에 2nm가 출시될 예정임). 그 이후로 트랜지스터 비용이 증가하여 최신 3nm 노드의 경우 2.16달러까지 비용이 올랐습니다.

비용이 큰 문제가 되지 않는 최고급 컴퓨팅 하드웨어의 트랜지스터 밀도는 현재 기하급수적으로 증가하고 있습니다. 그러나 비용 관점에서는 이미 10년 전부터 개선이 정체되었습니다.

그렇다면 성능 관점에서는 어떨까요? AI 발전 속도를 예측하기 위해 우리는 1초당 최대로 수행할 수 있는 작업 개수(피크 플롭)로 측정되는 하드웨어의 최고 속도에 주목합니다.

AI 모델의 "컴퓨팅 성능(=c)"은 다음과 같이 계산됩니다.

c = 훈련 시간 x 코어 수 x 피크 플롭 x 활용률

즉, 컴퓨팅(및 그에 따른 성능)은 모델 훈련에 소요되는 시간, (요즘은 주로 GPU가 활용되는) 병렬 연산에 쓰이는 코어 수, 코어의 최고 속도, 코어가 실제로 연산에 활용되는 활용률의 곱으로 결정됩니다.

"잠깐만, 여기에서 활용률이란, 즉 GPU가 일을 안하고 논다는 건 대체 무슨 뜻일까요?"

AI 모델 훈련에는 단순히 숫자를 서로 곱하는 것 이상이 포함되기 때문입니다. 그것은 바로 메모리를 호출하고 서로 다른 프로세서 간에 통신하는 것입니다. 오늘날 하드웨어에서 가장 효율적인 모델도 훈련 시간의 40%를 메모리를 호출하는 데 사용합니다. 경험적으로 활용률은 기껏해야 30~75%인 것 같습니다. 사용률은 또한 병렬로 사용되는 GPU 프로세서의 수와 함께 감소합니다. 더 많은 프로세서를 사용할수록 그들 사이에서 데이터를 보내는 데 더 많은 시간을 "낭비"해야 하기 때문입니다.

우선, 훈련 시간은 아마도 여기에서 더 늘리기는 힘들어 보입니다. 가장 큰 언어 모델은 이미 몇 달 동안 훈련을 받고 있으며, 기업들은 단일 모델을 몇 년 동안 훈련하는 것이 수익성이 없다고 생각합니다. 따라서 오픈 AI, 딥마인드, 메타 및 기타 대형 AI 플레이어들이 시간보다는 비용에 제약이 덜하다고 가정하면 LLM에 사용되는 컴퓨팅 성능은 피크 플롭 및 코어 수에 따라 개선되어야만 합니다.

GPU 플롭은 대략 2년마다 두 배씩 증가 했습니다.

GPU 성능 발전의 주요 원동력은 더 작은 트랜지스터와, 그만큼 증가한 코어 개수입니다. 무어의 법칙이 트랜지스터를 더 작게 만들고, 각 GPU에 더 많은 코어를 탑재 가능하게 하고, 각 GPU는 증가한 코어 개수로 초당 더 많은 연산을 수행합니다.

그러나 트랜지스터 축소의 본질적인 물리적 한계가 점점 가까워지고 있습니다.

트랜지스터 크기에 대한 근본적인 물리적 한계

한 가지 한계는 열역학과 관련이 있습니다. 트랜지스터가 작아짐에 따라 전류를 "켜짐"에서 "꺼짐"으로 제어하는 스위치를 작동시키는데 드는 에너지가 점점 감소하고 있습니다. 이 "스위칭 에너지"가 우리가 열이라고 지칭하는 무작위 운동 에너지 이하 수준으로 감소하면 트랜지스터가 열을 조금만 받아도 무작위로 켜지고 꺼집니다.

그렇다면 이 열역학적 최소 게이트 길이는 얼마나 될까요? 2015년의 한 논문에서는 이를 4~5nm** 범위로 추정합니다. 이 한계는 2030년까지 도달할 가능성이 높습니다. 그러나 열역학적 최소 게이트 길이는 반도체에 사용되는 재료에 따라 달라집니다. 실리콘 대신 더 많은 전기 에너지를 보유할 수 있는 새로운 반도체 재료로 바꾸면 열역학적 변동에도 불구하고 트랜지스터 사이즈를 더 줄여도 열에 영향을 안 받는 상태를 유지할 수 있습니다.

** TSMC의 최신 "3나노" FAB은 실제로 게이트 길이가 3나노미터인 트랜지스터를 생산하지 않습니다. 반도체 제조 노드를 지칭할 때 "3nm"는 마케팅 용어이며, 실제 피처의 크기를 의미하지 않습니다. 3nm 노드의 실제 게이트 길이는 16~18나노미터에 가깝습니다.

이와 같은 새로운 재료를 사용하면 실험실에서 훨씬 더 작은 트랜지스터를 만들 수 있습니다. 중국 칭화대 연구팀이 실험실에서 그래핀과 이황화 몰리브덴으로 만든 0.34nm 트랜지스터를 제작했다고 주장합니다. 그러나 실험실에서 트랜지스터 "하나"를 제조하는 것과 대규모 제조 라인에서 칩 하나 당 트랜지스터 "수천억 개"를 대량 생산하는 것은 전혀 다른 차원의 문제이며, 모든 재료가 대량 생산에 적합한 것은 아닙니다.

트랜지스터를 더 작게 만들기 어려운 또 다른 물리적 한계는 노광 해상도와 관련이 있습니다. 현재 반도체 회로는 심자외선(DUV), 극자외선(EUV) 리소그래피로 알려진 방법으로 웨이퍼 표면에 그려집니다. 자외선은 "마스크"를 통해 투사되어 정밀한 기하학적 패턴으로 반도체 웨이퍼를 때리고 광활성 물질과 반응합니다. 그런 다음 강한 용매를 사용하여 빛이 닿지 않은 모든 부분을 식각하여 회로의 한 층을 형성하는 융기된 패턴을 남깁니다. 그러나 빛은 파동이며, 수십 나노미터 이하인 빛의 주파수보다 절반 이상 작은 패턴을 그리는 것은 거의 불가능합니다.

이것이 바로 반도체 제조 업체들이 EUV처럼 막대한 비용을 들여 더 높고 더 높은 주파수의 빛을 노광 장비에 사용해 온 이유입니다. 하지만 그렇다고 해도 빛의 파장보다 훨씬 작은 회로는 패터닝할 수 없습니다.

이론적으로는 X-레이와 같은 더 높은 주파수의 방사선을 사용하는 것도 가능합니다. 그러나 극한의 비용과 새로운 기술 및 재료를 개발해야 하는 것과 별개로 X-레이는 이온화 방사선이라는 치명적인 한계가 있습니다. X-레이는 접촉하는 모든 것과 상호 작용하여 전자를 산란시키고 이미지의 해상도를 "흐리게" 합니다. 지금까지 생산된 가장 작은 X-레이 리소그래피 패터닝 선폭은 실제로 30nm로, DUV 리소그래피 장비가 그릴 수 있는 것보다 오히려 큽니다. 반도체 제조 기술의 미래를 예측하고 계획하기 위한 조직인 IEEE 국제 장비 및 시스템 로드맵의 의장인 Paolo Gargini는 2029년경 포토 리소그래피가 한계에 도달할 것이라고 예측합니다.

위에서 언급한 두 가지 이유 때문에 트랜지스터 크기 축소의 한계가 10년도 채 남지 않은 것 같습니다.

무어의 법칙 너머: 다른 대안들

트랜지스터를 더 작게 만들지 않고도 더 많은 플롭을 달성할 수 있는 몇 가지 대안이 있습니다.

첫 번째 대안은 칩을 재설계하는 것입니다. 한 가지 옵션은 트랜지스터가 수직으로 쌓인 3D 구조의 칩을 제조하는 것입니다. 3DS CMOS(3D Stacked Complementary Metal-Oxide Semiconductor: 3차원 적층 상호 보완형 금속-산화물 반도체)는 "켜짐" 상태와 "꺼짐" 상태 사이를 효율적으로 전환할 수 있도록 두 가지 유형(pMOS, nMOS)의 트랜지스터를 사용하는 반도체 유형으로서, 트랜지스터 밀도를 두 배로 늘릴 수 있습니다. 인텔은 최근 2030년까지 트랜지스터 밀도를 10배 향상시킬 수 있는 새로운 재료에 대한 진행 상황을 발표했습니다 . 그리고 트랜지스터 밀도를 40% 향상시킬 수 있는 2층 CPU 칩이 2021년에 출시 되었습니다 .

이러한 개발은 10년 전에 처음 상용화된 3D 낸드 메모리 설계를 기반으로 합니다. 각 공정 단계별로 레이어 개수가 30-50%씩 증가합니다. 그리고 이론적으로 레이어는 계속해서 높게 쌓일 수 있으므로, 개별 트랜지스터 사이즈를 축소하지 않고도 트랜지스터 밀도를 수직으로 계속 높일 수 있습니다. 예를 들어 삼성전자는 2030년까지 3D 낸드 레이어 개수가 1,000개에 도달할 것으로 예측합니다.

두 번째 대안은 특수 목적 칩을 설계하는 것입니다. 주어진 응용 프로그램에 대한 최상의 플롭은 범용 컴퓨팅 장치에서 달성할 수 없으며, 대신 해당 응용 프로그램 전용으로 설계된 특수 아키텍처 기반 칩에서 달성할 수 있습니다. 여기에는 두 가지 주요 옵션이 있습니다.

예를 들어 Google의 TPU(Tensor Processing Unit)는 머신 러닝을 가속화하기 위해 특별히 설계된 맞춤형 ASIC입니다. 3세대 TPU는 TSMC 16나노 공정으로 제작됨에도 TSMC 12나노 공정으로 제작된 엔비디아 V100 GPU보다 플롭이 2~4배 높습니다 . 그러나 특수 목적 아키텍처를 개발하는 새로운 경쟁자들의 등장에도 불구하고 2022년 현재 엔비디아의 최신 세대 GPU인 H100은 표준 MLPerf 벤치마크 테스트 에서 여전히 선두를 달리고 있습니다.

따라서 원칙적으로 특수 목적 AI 칩은 동일한 수의 트랜지스터로 더 많은 플롭을 얻을 수 있고, 특정 훈련 작업에서 종종 더 저렴하지만, 일반적인 작업의 최대 처리 속도에서 표준 GPU 아키텍처보다 아직 확실하게 앞서지 못했습니다.

마지막 세 번째 대안은 트랜지스터를 다른 종류의 스위치로 교체하는 것입니다. 계산이 트랜지스터로 이루어져야 한다는 물리적 법칙은 없습니다. 광학 컴퓨팅 및 멤리스터를 포함하는 계산을 위한 대체 모델은 더 빠르고 확장성이 좋을 수 있지만 대부분은 아직 초기 단계입니다.

광학 컴퓨팅은 계산을 위해 전자 대신 빛을 사용하므로 에너지와 열이 적습니다. 게다가 광자는 전자보다 약 20배 더 빠릅니다. IBM 연구원이 개발한 하나의 실험용 광학 스위치는 기존 트랜지스터보다 1000배 빠르게 교체할 수 있습니다. 보다 최근의 애리조나 대학의 연구에서는 기존 트랜지스터보다 백만 배 더 빠른 광학 스위치를 개발했습니다 .

그러나 광학 스위치는 빠를 수 있지만 밀도가 높을 수는 없습니다. 빛을 전달하기 위해 광학 도파관은 수백 나노미터 크기인 빛의 파장보다 작아질 수 없습니다. 대조적으로 기존의 전자 기반 반도체 트랜지스터는 수십 나노미터의 피처 크기를 가질 수 있습니다. 따라서 완전한 광학 컴퓨팅 장치는 아직은 공상과학의 영역에 불과합니다.

무어의 법칙을 극복하는 세 가지 대안을 종합하면 다음과 같습니다.

1. 어드밴스드 패키징 및 3D 아키텍쳐: 트랜지스터의 수직 증축을 통해 2030년까지 트랜지스터 밀도가 최소 10배 이상 향상되고, 또 레이어 개수가 계속 증가하면 2030년대까지 컴퓨팅 성능의 10배 성장이 계속될 가능성이 있습니다.

2. 특수 목적 컴퓨터: 아키텍처 최적화 여부에 따라 플롭 속도 최대 10배 향상

3. 전자 기반 트랜지스터를 대신하는 패러다임 전환: 매우 불확실하고 전혀 발생하지 않을 수도 있지만 이론적으로 플롭을 5~1000배 향상시킬 수 있습니다.

예를 들어, "무어의 법칙은 2040년까지 3D 아키텍처를 통해 유지되고, 특수 목적 AI 가속기는 플롭 개선을 제공하지 않으며, 전자 기반 트랜지스터는 2030년대 내내 반도체 구조의 근간으로 남아 있다."라는 가장 현실적인 시나리오에서 GPU가 달성한 최대 플롭은 2022년 거의 1테라플롭에서 2040년까지 수백 엑사플롭으로 증가하거나, 혹은 거의 20년 동안 5자릿수(1만 배) 이상 증가할 수 있습니다.

플롭이 2030년까지 성장을 아예 멈추는 가장 비관적인 시나리오에서 우리는 2030년까지 최고 계산 속도가 2배 정도만 증가할 것이며 2030년에서 2040년 사이에는 더 이상 증가하지 않을 것입니다.

즉, 가장 큰 AI 모델의 현재 컴퓨팅 성장 속도가 2030년까지 계속되려면(모델이 3배 더 컴퓨팅 집약적임) 최첨단 모델은 훨씬 더 많은 반도체를 사용해야 합니다. 당연히 비용은 현재보다 훨씬 더 증가합니다. 이 경우 GPT-3에서 4로 나아가며 달성한 수준의 AI 모델 성능 개선을 다시 달성하려면 엄청나게 증가한 반도체 소요를 어떻게 감당하느냐에 따라 10년 이상이 걸리게 될 수도 있습니다.

메모리 벽(Memory Wall)

GPU가 피크 플롭을 많이(또는 전혀) 개선하지 못하더라도 AI 회사가 GPU 개수를 최대한 늘려서 컴퓨팅 성능 개선이 가능할까요?

아니요. 그건 바로 훈련 시간이 문제이기 때문입니다. 오늘날 가장 큰 AI 모델은 훈련하는 데 6개월이 걸리며, 그 시간의 상당 부분은 메모리에서 모델 가중치를 작성하고 검색하는 데 사용됩니다.

메모리는 계산을 수행하는 GPU 칩과 별도의 장치에 저장됩니다. 일반적으로 디램입니다. 메모리 호출 수를 최소화하도록 훈련 알고리즘을 최적화할 수 있지만, 궁극적으로 일회성 개선일 뿐입니다. AI 모델이 훈련할 데이터가 많을수록 가중치를 업데이트하기 위해 메모리를 더 많이 호출해야만 합니다. 이로 인해 엔비디아 A100 GPU에서 달성한 최대 활용률이 약 60% 수준입니다.

그렇다면 시간이 지남에 따라 컴퓨팅 발전과 동일한 속도로 메모리 성능이 개선되고 있을까요? 전혀 그렇지 못합니다.

디램 대역폭은 플롭보다 훨씬 느리게 증가하여 지난 20년 동안 겨우 30배 증가했습니다(플롭은 같은 기간에 90,000배 증가했습니다). 오늘날 훈련하는 데 6개월이 걸리고 GPU 활용률이 60%인 AI 모델은 메모리에서 데이터를 주고받는 데만 약 2.5개월이 소요됩니다.

그 시간을 두 배 이상은 늘리지 않는다고 가정해 보겠습니다. 그리고 디램 대역폭이 현재 속도로 계속 증가한다고 가정해 보겠습니다. 이 경우 우리가 얼마나 많은 컴퓨팅을 가지고 있는지는 중요하지 않습니다. 훈련에서 메모리 호출 시간이 팽창하지 않는다면 컴퓨팅 성능이 2030년까지 3배 이상, 2040년까지 17배 이상 증가할 수 없습니다. 무어의 법칙에 근거한 플롭 증가율 전망(2030년까지 128배), 또는 최근의 AI 컴퓨팅 발전 트렌드에 근거한 증가율 전망(2030년까지 631배)보다 훨씬 낮은 성장률입니다. 메모리 대역폭(및 시간)이 제한 요소인 현실에서 우리는 향후 10년 동안 AI 컴퓨팅에서 한 자릿수 이상의 성능 발전을 기대하긴 힘들 것입니다.

그렇게 된다면 우리는 2040년에서야 GPT-5를 개발할 수 있을 것입니다. 또는 오픈 AI CEO인 샘 알트만이 최근에 "거대 AI 모델의 등장은 당분간 끝났고, 그래서 우리는 꽤 오랫동안 GPT-5를 훈련하지 않을 것입니다."라는 언급처럼 될 수 있습니다.

반면에 이러한 암울한 미래를 바꿀 수 있는 몇 가지 방안들이 있습니다.

1. 메모리 대역폭 개선

디램 메모리와 프로세서 사이의 메모리 대역폭(GB/s)은 메모리 클럭 속도(초당 수행할 수 있는 작업 수) 및 메모리 버스 폭(주기당 전송할 수 있는 데이터 비트 수)과 같은 요인에 따라 달라집니다. 또한 메모리 아키텍처, 칩 설계 및 제조 품질에 따라서도 달라질 수 있습니다.

메모리의 경우 로직과 마찬가지로 수십 년 동안 무어의 법칙에 따라 클럭 속도가 증가했습니다.

그러나 트랜지스터는 계속해서 작아지는 반면, 더 이상 빨라지지는 않습니다.

스위칭 속도는 트랜지스터 게이트의 폭에 따라 다르지만 게이트 폭은 이제 단일 분자 정도의 길이이며 실제로 더 좁아질 수 없습니다. 따라서 트랜지스터의 다른 부분을 더 축소해도 속도가 증가하지 않습니다.

사실 클럭 속도는 2004년 이후로 일정했습니다.

따라서 우리는 메모리 대역폭을 향상시키기 위해 클럭 속도에만 의존할 수 없습니다.

대신 버스 폭을 늘리는 것은 어떨까요?

HBM(High Bandwidth Memory)으로 알려진 새로운 메모리 규격으로, 디램 Die를 여러 레이어로 쌓고 TSV 공정으로 수직으로 연결하면 더 큰 버스 폭을 가능하게 하여 메모리 대역폭을 늘릴 수 있습니다. HBM과 GPU 사이에 더 많은 연결을 통해 더 빠른 데이터 흐름이 가능해 집니다.

그러나 HBM은 기존 디램보다 훨씬 더 비쌉니다. 가장 최신형 HBM은 GB당 약 12불인 데 비해, 일반 DDR5 디램은 약 2불입니다.

더욱이 메모리를 점점 더 많이 쌓거나 회로 소자를 더 조밀하게 채우는 데 제약이 되는 요소가 바로 열입니다. 메모리는 "켜져" 있지 않은 경우에도 정보를 저장하기 위해 전원이 필요하며 열을 발산합니다. 오늘날에는 열 제약으로 인해 메모리 Die를 12층 이상 쌓는 것조차 불가능할 수 있습니다. 메모리는 열에 특히 민감합니다. 더 높은 온도에서는 열 노이즈로 인해 저장된 데이터가 더 빨리 소실될 수 있기 때문입니다. 성능 저하가 빠르다는 것은 데이터를 더 자주 Refresh 해야만 함을 의미합니다. 하지만 더 많이 Refresh 할수록 더더욱 많은 열이 발생합니다! 그래서 과열이 더 과열로 이어지는 악순환이 생깁니다.

방열 개선은 메모리 연구에서 가장 활발한 영역이므로, 향후 몇 년 동안 더 방열 효율적인 메모리 설계가 발명될 수 있지만, 현재의 느린 속도로는 메모리 대역폭을 확장하는 것은 계속해서 도전이 될 것입니다.

2. AI 모델 효율성 개선

또 다른 접근 방식은 AI 모델(또는 이를 훈련하기 위한 알고리즘)을 재설계하여 메모리 대역폭이나 계산 능력이 덜 필요하도록 하는 것입니다.

여러 GPU에서 훈련을 병렬로 수행할 때, 동일한 정보를 여러 메모리 공간에 중복해서 저장하는 행위를 방지하면 AI 모델의 메모리 필요도 줄어들어 10억 매개변수(GPT-2 크기) 모델에서 8배의 속도 향상을 얻을 수 있습니다. 메모리 병목 현상이 10배 이상 완화되면 AI 모델의 계산 부하가 2030년까지 2~3배, 2040년까지 5배까지 증가할 수 있는 "플롭 병목 현상" 시나리오로 돌아갈 수 있습니다. .

컴퓨팅 분야에서도 혁신이 있었습니다. 70억 개의 매개변수만 사용하면서 인간이 생성한 예제와 LLM 생성한 예제를 적절히 조합해서 사용하는 Alpaca와 같은 소형 오픈 소스 모델은 훨씬 더 큰 GPT-3(175B 매개변수)과 유사한 성능을 자랑합니다. Alpaca는 100달러 미만의 비용으로 단 3시간 만에 훈련을 끝냈습니다. 같은 맥락에서 LoRA는 GPT-3의 조합 속도를 25% 높이고, 여러 GPU를 훨씬 쉽게 병렬 사용할 수 있게 하는 특정 작업에 대한 대규모 언어 모델의 새로운 교육 체계입니다.

"우리는 기술적 해자가 없으며, 오픈 AI 역시 마찬가지다."라는 제목으로 구글 직원이 유출했다고 주장하는 파일 내용에 따르면, 오픈 소스 커뮤니티에서 작고 저렴한 비용으로 LLM을 만드는 능력이 대형 AI 회사를 뛰어 넘었을 수도 있습니다. LLM이 제대로 작동하기 위해 엄청나게 클 필요가 없다면, 그것은 소수의 대규모 빅테크들만의 영역으로 남을 필요가 없습니다. 더 작은 AI 모델이 GPT-3와 같은 성능에 필적할 수 있다면, 현재 추정하는 AI 발전 속도보다 훨씬 더 나은 성능을 기대할 수도 있다는 뜻일 것입니다.

발전의 끝: AI의 끝이 아니다

AI 발전의 한계에 도달하면 어떻게 될까요?

훈련 시간 제한이든, 데이터 가용성 제한이든, 컴퓨터 하드웨어의 비용과 가용성에 따른 제한이든 관계없이 모델을 개선하는 가장 간단한 방법은 모델을 더 크게 만드는 것입니다.

물론 이것이 더 나은 모델을 만드는 것의 끝을 의미하지는 않습니다.

모델 사이즈 확장은 AI 모델을 개선하는 가장 간단하고 단순한 방법이며, 한동안 놀라울 정도로 잘 먹혔습니다.확장이 정체된 세상에서 AI의 발전은 더 많은 데이터나 컴퓨팅을 사용하지 않고도 큰 모델의 기본 성능을 끌어내기 위한 아키텍처 및 알고리즘 혁신과 함께 새로운 애플리케이션을 개발하고 이미 보유한 큰 기본 모델의 미세 조정된 변형을 개발하는 혁신과 비슷해 보일 것입니다.

AI의 발전이 끝난 이후의 시나리오는 "AI 겨울"처럼 보일 수도 있고, 무어의 법칙 대신 예측하기 어려운 다른 요인에 의해 AI 성능이 개선되는 것처럼 보일 수도 있을 것입니다.

이 글의 저자 Sarah Constantin은 Nanotronics의 기업 개발 이사입니다. 그녀는 Yale에서 수학 박사 학위를 받았으며 Rough Diamonds 에서 블로그를 운영하고 있습니다.