트랜스포머 모델은 순차적 데이터를 처리하는 데 탁월한 신경망 아키텍처 유형으로, 특히 대규모 언어 모델(LLM)과 관련이 깊습니다. 트랜스포머 모델은 컴퓨터 비전, 음성 인식, 시계열 예측 등 인공 지능(AI)의 다른 분야에서도 뛰어난 성능을 보여주고 있습니다.
트랜스포머 아키텍처는 Vaswani 등이 2017년에 발표한 ‘Attention is All You Need’ 논문에서 처음 제시되었으며, 이는 딥 러닝에 있어 전환점으로 간주됩니다.
원래 기계 번역에 사용되는 순환 신경망(RNN) 기반 시퀀스 간 모델의 발전으로 도입된 트랜스포머 기반 모델은 이후 거의 모든 머신 러닝(ML) 분야에 걸쳐 최첨단 발전을 이루었습니다.
다방면에 활용 가능함에도 불구하고, 트랜스포머 모델은 챗봇, 텍스트 생성, 요약, 질의응답, 감정 분석 등 자연어 처리(NLP) 분야에서 가장 많이 언급됩니다.
Google이 2019년에 발표한 BERT는 트랜스포머 기반 인코더-디코더 모델로, 트랜스포머 확립의 중대한 지점이 되었으며, 최신 벡터 데이터베이스부터 Google 검색에 이르기까지 대부분의 현대적 워드 임베딩 애플리케이션의 기반이 됩니다.
GPT-3(Generative Pre-trained 트랜스포머)와 같은 오토리그레시브 디코더 전용 LLM은 OpenAI의 ChatGPT 출시를 지원하며 현대 생성형 AI(gen AI) 시대를 촉진했습니다.
데이터 시퀀스의 각 부분이 다른 부분에 어떻게 영향을 미치고 상호 연관되는지 복잡하게 파악하는 트랜스포머 모델의 능력은 다양한 용도로도 활용할 수 있습니다.
예를 들어, 비전 트랜스포머(ViT)는 이미지 분할 , 객체 감지 및 관련 작업에서 컨볼루션 신경망(CNN)보다 성능이 뛰어난 경우가 많습니다. 트랜스포머 아키텍처는 이미지 생성, 멀티 모달 TTS, 비전 언어 모델(VLM)에 사용되는 여러 확산 모델의 기반이 되기도 합니다.
트랜스포머 모델의 핵심 기능은 셀프 어텐션 메커니즘이며, 이를 통해 입력 시퀀스의 각 구성 요소 간의 관계(또는 종속성)를 감지하는 놀라운 능력을 얻습니다. 기존 RNN 및 CNN 아키텍처와 달리, 트랜스포머는 오직 어텐션 레이어와 표준 피드포워드 레이어만 사용합니다.
셀프 어텐션의 이점, 특히 트랜스포머 모델이 이를 계산하기 위해 사용하는 멀티헤드 어텐션 기법은 트랜스포머가 이전에 최첨단이었던 RNN 및 CNN의 성능을 능가할 수 있도록 합니다.
트랜스포머 모델이 등장하기 전 대부분의 NLP 작업은 RNN에 의존했습니다. RNN이 순차 데이터를 처리하는 방식은 본질적으로 직렬화되어 있으며, 입력 시퀀스의 요소를 한 번에 하나씩 특정 순서로 수집합니다.
이는 RNN이 장거리 종속성을 캡처하는 능력을 저해하므로 RNN은 짧은 텍스트 시퀀스만 효과적으로 처리할 수 있습니다.
이러한 결함은 장단기 메모리 네트워크(LSTM)의 도입으로 어느 정도 해결되었지만, 여전히 RNN의 근본적인 단점으로 남아 있습니다.
반대로 어텐션 메커니즘은 전체 시퀀스를 동시에 검토하고 해당 시퀀스의 특정 시간 단계에 집중하는 방법과 시기를 결정할 수 있습니다.
트랜스포머의 이러한 특성은 장기적인 종속성 이해 능력을 크게 향상시킬 뿐 아니라, 일련의 단계가 아닌 여러 계산 단계를 동시에 수행할 수 있는 병렬화를 가능하게 합니다.
병렬 처리에 적합하다는 점에서 트랜스포머 모델은 학습과 추론 모두에서 GPU가 제공하는 성능과 속도를 최대한 활용할 수 있습니다. 이러한 가능성은 자기 지도 학습을 통해 전례 없이 방대한 데이터 세트에 대해 트랜스포머 모델을 학습시킬 수 있는 기회를 열어주었습니다.
특히 시각적 데이터의 경우, 트랜스포머는 합성곱 신경망(CNN)보다 몇 가지 이점을 제공합니다. CNN은 본질적으로 지역적이며, 입력 데이터를 작은 단위로 나누어 하나씩 처리하기 위해 합성곱을 사용합니다
따라서 CNN 역시 서로 인접하지 않은 단어(텍스트 내) 또는 픽셀(이미지 내) 간의 상관관계와 같은 장기적인 종속성을 식별하는 데 어려움을 겪습니다. 어텐션 메커니즘은 이러한 제약을 받지 않습니다.
어텐션, 특히 자기어텐션의 수학적 개념을 이해하는 것은 트랜스포머 모델이 여러 분야에서 성공한 이유를 이해하는 데 필수적입니다. 어텐션 메커니즘은 본질적으로 AI 모델이 특정 시점에 어떤 데이터 시퀀스의 부분에 “주의를 기울여야 할지” 판단하도록 설계된 알고리즘입니다.
언어 모델이 영어 문장
일반적으로 트랜스포머 모델의 어텐션 레이어는 다음 네 단계로 데이터 시퀀스의 각 부분에 대한 구체적인 문맥을 평가하고 활용합니다.
학습 이전에는 트랜스포머 모델이 최적의 벡터 임베딩과 정렬 점수를 어떻게 생성할지 “모릅니다.” 학습 중 모델은 학습 데이터에서 추출한 수백만 개의 예시를 기반으로 예측을 수행하며, 손실 함수는 각 예측의 오차를 정량화합니다.
예측을 수행하고 역전파와 경사 하강법을 통해 모델 가중치를 업데이트하는 반복적인 사이클을 거쳐, 모델은 정확한 출력을 생성하는 벡터 임베딩, 정렬 점수, 어텐션 가중치를 “학습”하게 됩니다.
관계형 데이터베이스와 같은 트랜스포머 모델은 데이터 시퀀스의 각 부분에 대한 쿼리, 키 및 값 벡터를 생성하고, 이를 사용하여 일련의 행렬 곱셈을 통해 어텐션 가중치를 계산합니다.
관계형 데이터베이스는 관련 데이터의 저장 및 검색을 간소화하도록 설계되었습니다. 각 데이터에 고유 식별자("키")를 할당하고 각 키는 해당 값과 연결됩니다. 논문 “Attention is All You Need”는 이 개념적 프레임워크를 텍스트 시퀀스 내 각 토큰 간의 관계를 처리하는 데 적용했습니다.
대규모 언어 모델(LLM)에게 있어 모델의 “데이터베이스”는 학습 데이터의 텍스트 샘플에서 학습한 토큰의 어휘입니다. 이 어텐션 메커니즘은 이 “데이터베이스”에서 얻은 정보를 바탕으로 언어의 문맥을 이해합니다.
문자, 숫자, 구두점과 같은 글자 단위는 인간이 언어를 표현하는 기본 단위이지만, AI 모델이 사용하는 언어의 최소 단위는 토큰(token)입니다. 각 토큰은 고유한 ID 번호를 부여받으며, LLM은 단어 자체나 토큰 자체가 아니라 이 ID 번호를 통해 어휘 “데이터베이스”를 탐색합니다. 이러한 언어의 토큰화는 텍스트를 처리하는 데 필요한 계산량을 크게 줄여줍니다.
트랜스포머의 어텐션 레이어에 입력할 쿼리 및 키 벡터를 생성하기 위해, 모델은 각 토큰에 대한 초기 문맥 없는 벡터 임베딩이 필요합니다. 이러한 초기 토큰 임베딩은 학습 중에 새롭게 학습되거나, 사전학습된 단어 임베딩 모델에서 가져올 수 있습니다.
단어의 순서와 위치는 그 의미론적 의미에 큰 영향을 미칠 수 있습니다. RNN의 직렬적 구조는 각 토큰의 위치 정보를 자연스럽게 보존하지만, 트랜스포머 모델은 어텐션 메커니즘이 이를 고려할 수 있도록 명시적으로 위치 정보를 추가해야 합니다.
위치 인코딩을 사용하면 모델은 입력이 어텐션 메커니즘에 들어가기 전에 상대적 위치에서 파생된 각 토큰의 임베딩에 값 벡터를 추가합니다. 두 토큰이 가까울수록 포지션 벡터는 더 유사해지고, 그에 따라 위치 정보 추가로 인해 정렬 점수가 더 높아집니다. 이렇게 하여 모델은 인접한 토큰에 더 많은 주의를 기울이도록 학습하게 됩니다.
위치 정보가 추가되면, 갱신된 각 토큰 임베딩은 세 개의 새로운 벡터를 생성하는 데 사용됩니다. 이 쿼리, 키, 값 벡터는 최초의 어텐션 레이어 전에 존재하는 세 개의 병렬 피드포워드 신경망 레이어를 통해 원래의 토큰 임베딩을 통과시켜 생성됩니다. 해당 선형 레이어의 각 병렬 서브셋은 고유한 가중치 행렬을 가지며, 이는 대규모 텍스트 데이터 세트를 이용한 자기지도 사전 학습을 통해 학습됩니다.
트랜스포머의 어텐션 메커니즘 주요 기능은 각 토큰의 쿼리 벡터를 시퀀스 내 다른 모든 토큰의 키 벡터와 매칭하여 정확한 어텐션 가중치를 할당하는 것입니다. 정확히 수행될 경우, 각 토큰을 다음과 같이 생각할 수 있습니다. 이제 각 토큰은 해당 어텐션 가중치 벡터가 있다는 것을 의미합니다. 여기서 해당 벡터의 각 요소는 다른 토큰이 영향을 미치는 정도를 나타냅니다.
기본적으로 의 벡터 임베딩은 시퀀스 내 다른 토큰들이 제공하는 문맥을 더 잘 반영하도록 업데이트되었습니다.
토큰들이 서로 관계를 맺는 다양한 다면적인 방식을 포착하기 위해, 트랜스포머 모델은 여러 어텐션 블록에 걸쳐 멀티 헤드 어텐션을 구현합니다.
첫 번째 피드포워드 레이어에 입력되기 전에, 각 원본 입력 토큰 임베딩은 동일한 크기의 h개의 부분 집합으로 분할됩니다. 임베딩의 각 부분은 h개의 병렬 행렬 중 하나인 Q, K 및 V 가중치에 입력되며, 각각은 쿼리 헤드, 키 헤드, 값 헤드라고 불립니다. 이 병렬 쿼리, 키, 값 헤드 3개의 벡터 아웃풋은 다음 어텐션 층의 해당 부분 집합에 입력되며, 이를 어텐션 헤드라고 합니다.
각 어텐션 블록의 마지막 층에서는 이 h개의 병렬 회로 아웃풋이 결국 다시 결합되어 다음 피드포워드 층으로 전달됩니다. 실제로 모델 학습은 각 회로가 의미적 의미의 개별적인 측면을 포착하는 다른 가중치를 학습하는 결과를 낳습니다.
어떤 상황에서는, 어텐션 블록에서 출력된 문맥적으로 업데이트된 임베딩을 전달하는 것이 원래 시퀀스의 정보 손실을 초래할 수 있습니다.
이를 해결하기 위해, 트랜스포머 모델은 종종 어텐션 메커니즘이 제공하는 문맥 정보와 각 토큰의 원래 의미적 의미를 균형 있게 조절합니다. 어텐션으로 업데이트된 토큰 임베딩의 모든 부분 집합이 다시 하나로 결합된 후, 업데이트된 벡터는 토큰의 원래 (위치 인코딩된) 벡터 임베딩에 더해집니다. 원래 토큰 임베딩은 해당 레이어와 네트워크의 이전 레이어 사이의 잔여 연결에 의해 제공됩니다.
결과 벡터는 또 다른 선형 피드포워드 레이어에 입력되며, 여기서 다음 어텐션 블록으로 전달되기 전에 일정한 크기로 정규화됩니다. 이러한 조치들은 학습의 안정성을 유지하는 데 도움을 주고, 데이터가 신경망 깊숙이 전달될 때 텍스트의 원래 의미가 손실되지 않도록 보장합니다.
결국, 모델은 최종 아웃풋에 반영할 충분한 문맥 정보를 갖추게 됩니다. 아웃풋 레이어의 성격과 기능은 트랜스포머 모델이 설계된 특정 작업에 따라 달라집니다.
자동 회귀 LLM에서는 최종 레이어가 소프트맥스 함수를 사용하여 다음 단어가 어휘 “데이터베이스” 내 각 토큰과 일치할 확률을 결정합니다. 특정 샘플링 하이퍼파라미터에 따라 모델은 그 확률들을 이용해 아웃풋 시퀀스의 다음 토큰을 결정합니다.
트랜스포머 모델은 원래 기계 번역 용도로 개발되어 NLP와 가장 밀접한 관련이 있습니다. 특히, 트랜스포머 아키텍처는 생성형 AI의 도래를 촉진한 대형 언어 모델(LLM)의 기반이 되었습니다.
일반 대중이 가장 잘 아는 대부분의 대형 언어 모델(LLM)은, OpenAI의 GPT 시리즈와 Anthropic의 Claude 모델과 같은 폐쇄형 소스 모델부터 Meta Llama 또는 IBM® Granite®를 포함한 오픈 소스 모델에 이르기까지, 모두 자동 회귀 디코더 전용 LLM입니다.
자동 회귀 LLM은 텍스트 생성용으로 설계되었으며, 요약 및 질문 응답 같은 인접 작업에도 자연스럽게 확장됩니다. 이들은 자기 지도 학습을 통해 훈련되며, 텍스트 구절의 첫 단어를 제공받고 시퀀스 끝까지 다음 단어를 반복적으로 예측하는 임무를 수행합니다.
셀프 어텐션 메커니즘이 제공하는 정보는 모델이 입력 시퀀스에서 문맥을 추출하고 아웃풋의 일관성과 연속성을 유지하도록 합니다.
BERT와 그 파생 모델 같은 인코더-디코더 마스킹 언어 모델(MLM)은 트랜스포머 기반 LLM의 또 다른 주요 진화 분기를 대표합니다. 훈련 중 MLM은 일부 토큰이 마스킹(숨김)된 텍스트 샘플을 제공받아 누락된 정보를 완성하는 임무를 수행합니다.
이 훈련 방법론은 텍스트 생성에는 덜 효과적이지만, 번역, 텍스트 분류, 임베딩 학습 등 견고한 문맥 정보를 필요로 하는 작업에서 MLM이 뛰어나도록 돕습니다.
트랜스포머 모델은 원래 자연어 처리용으로 설계되었으며 지금도 가장 두드러지게 자연어와 관련되지만, 시퀀스 데이터를 포함하는 거의 모든 상황에서 사용할 수 있습니다. 이로 인해 멀티 모달 시스템으로 LLM 미세 조정, 전용 시계열 예측 모델, 컴퓨터 비전용 ViT 등 다른 분야의 트랜스포머 기반 모델 개발로 이어졌습니다.
어떤 데이터 양식은 트랜스포머 친화적인 시퀀스 표현에 더 자연스럽게 적합합니다. 시계열, 오디오, 비디오 데이터는 본질적으로 순차적이지만, 이미지 데이터는 그렇지 않습니다. 그럼에도 불구하고 ViT와 기타 어텐션 기반 모델은 이미지 캡션 생성, 객체 탐지, 이미지 분할, 시각적 질문 응답 등 많은 컴퓨터 비전 작업에서 최첨단 결과를 달성했습니다.
전통적으로 “순차적”으로 간주되지 않는 데이터를 트랜스포머 모델에 사용하려면, 그 데이터를 시퀀스로 표현하는 개념적 우회가 필요합니다. 예를 들어, 시각 데이터를 이해하기 위해 어텐션 메커니즘을 사용하려면, ViT는 패치 임베딩을 활용해 이미지 데이터를 시퀀스로 해석 가능하게 만듭니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Google의 BERT, 전 세계적으로 출시(IBM.com 외부 링크), 검색 엔진 저널, 2019년 12월 9일