Model transformator adalah jenis arsitektur jaringan neural yang unggul dalam memproses data sekuensial, yang paling menonjol terkait dengan model bahasa besar (LLM). Model transformator juga telah mencapai kinerja elit di bidang kecerdasan buatan (AI) lainnya, seperti visi komputer, pengenalan suara, dan forecasting.
Arsitektur transformator pertama kali dijelaskan dalam makalah seminal tahun 2017 "Attention is All You Need" oleh Vaswani dan lainnya, yang sekarang dianggap sebagai momen penting dalam pembelajaran mendalam.
Awalnya diperkenalkan sebagai evolusi dari model sequence-to-sequence berbasis jaringan neural berulang (RNN) yang digunakan untuk terjemahan mesin, model berbasis transformator telah mencapai kemajuan mutakhir di hampir setiap disiplin machine learning (ML).
Terlepas dari keserbagunaannya, model transformator masih paling sering dibahas dalam konteks contoh penggunaan pemrosesan bahasa alami (NLP), seperti chatbots, pembuatan teks, peringkasan, penjawab pertanyaan, dan analisis sentimen.
Model encoder-decoder BERT (atau Bidirectional Encoder Representations from Transformers), yang diperkenalkan oleh Google pada tahun 2019, merupakan tonggak utama dalam pembentukan transformer dan tetap menjadi dasar dari sebagian besar aplikasi penyematan kata modern, mulai dari basis data vektor modern ke pencarian Google.
LLM khusus decoder autoregresif, seperti model GPT-3 (kependekan dari Generative Pre-Trained Transformer) yang mendukung peluncuran ChatGPT OpenAI, mengkatalisis era modern AI generatif (gen AI).
Kemampuan model transformator untuk membedakan secara rumit bagaimana setiap bagian dari urutan data mempengaruhi dan berkorelasi dengan yang lain juga memberikan banyak penggunaan multimodal.
Misalnya, vision transformer (ViT) sering kali melebihi kinerja jaringan neural konvolusional (CNN) pada segmentasi gambar, deteksi objek, dan tugas terkait. Arsitektur transformator juga mendukung banyak model difusi yang digunakan untuk pembuatan gambar, multimodal Text to Speech (TTS) dan model bahasa visi (VLM).
Fitur utama dari model transformator adalah mekanisme perhatian diri mereka, dari mana model transformator memperoleh kemampuan mengesankan mereka untuk mendeteksi hubungan (atau dependensi) antara setiap bagian dari urutan input. Tidak seperti arsitektur RNN dan CNN yang mendahuluinya, arsitektur transformator hanya menggunakan lapisan perhatian dan lapisan feedforward standar.
Manfaat perhatian diri, dan khususnya teknik perhatian multi-kepala yang digunakan model transformator untuk menghitungnya, adalah apa yang memungkinkan transformator untuk melebihi kinerja RNN dan CNN yang sebelumnya canggih.
Sebelum pengenalan model transformator, sebagian besar tugas NLP mengandalkan jaringan neural berulang atau neural networks (RNN). Cara RNN memproses data sekuensial secara inheren diserialisasi: mereka menyerap elemen-elemen dari urutan input satu per satu dan dalam urutan tertentu.
Hal ini menghalangi kemampuan RNN untuk menangkap ketergantungan jarak jauh, yang berarti RNN hanya dapat memproses urutan teks pendek secara efektif.
Kekurangan ini agak diatasi dengan pengenalan jaringan memori jangka pendek (LSTM), tetapi tetap menjadi kelemahan mendasar RNN.
Mekanisme perhatian, sebaliknya, dapat memeriksa seluruh urutan secara bersamaan dan membuat keputusan tentang bagaimana dan kapan untuk fokus pada langkah-langkah tertentu dari urutan tersebut.
Selain secara signifikan meningkatkan kemampuan untuk memahami ketergantungan jarak jauh, kualitas transformer ini juga memungkinkan paralelisasi: kemampuan untuk melakukan banyak langkah komputasi sekaligus, daripada secara serial.
Sangat cocok untuk paralelisme memungkinkan model transformator untuk mengambil keuntungan penuh dari kekuatan dan kecepatan yang ditawarkan oleh GPU selama pelatihan dan inferensi. Kemungkinan ini, pada gilirannya, membuka peluang untuk melatih model transformator pada kumpulan data besar yang belum pernah terjadi sebelumnya melalui pembelajaran yang diawasi sendiri.
Terutama untuk data visual, transformator juga menawarkan beberapa keunggulan dibandingkan neural networks. CNN pada dasarnya bersifat lokal, menggunakan konvolusi untuk memproses subset data input yang lebih kecil satu per satu.
Oleh karena itu, CNN juga kesulitan untuk melihat ketergantungan jarak jauh, seperti korelasi antara kata (dalam teks) atau piksel (dalam gambar) yang tidak saling berdekatan. Mekanisme perhatian tidak memiliki batasan ini.
Memahami konsep matematis dari perhatian, dan lebih khusus lagi perhatian diri, sangat penting untuk memahami keberhasilan model transformator di berbagai bidang. Mekanisme perhatian, pada dasarnya, adalah algoritma yang dirancang untuk menentukan bagian mana dari urutan data yang harus “diperhatikan” model AI pada saat tertentu.
Pertimbangkan model bahasa yang menafsirkan teks bahasa Inggris "
Secara umum, lapisan perhatian model transformator menilai dan menggunakan konteks spesifik dari setiap bagian dari urutan data dalam 4 langkah:
Sebelum pelatihan, model transformator belum "tahu" bagaimana cara menghasilkan menanamkan vektor dan skor alignment yang optimal. Selama pelatihan, model membuat prediksi pada jutaan contoh yang diambil dari data pelatihannya, dan fungsi kerugian mengukur kesalahan dari setiap prediksi.
Melalui siklus berulang dalam membuat prediksi dan kemudian memperbarui bobot model melalui propagasi balik dan penurunan gradien, model "belajar" untuk menghasilkan menanamkan vektor, skor penyelarasan, dan bobot perhatian yang menghasilkan output yang akurat.
Model transformator seperti database relasional menghasilkan vektor kueri, kunci,dan nilai untuk setiap bagian dari urutan data, dan menggunakannya untuk menghitung bobot perhatian melalui serangkaian perkalian matriks.
Basis data relasional dirancang untuk menyederhanakan penyimpanan dan pengambilan data dengan memberikan pengenal unik (atau “kunci”) untuk setiap data, yang mana tiap kunci kemudian dikaitkan dengan nilai yang sesuai. Makalah "Attention is All You Need" menerapkan kerangka kerja konseptual itu untuk memproses hubungan antara setiap token dalam urutan teks.
Untuk LLM, “database” model adalah kosakata token yang telah dipelajari dari sampel teks dalam data pelatihannya. Mekanisme perhatiannya menggunakan informasi dari “database” ini untuk memahami konteks bahasa.
Sementara karakter—huruf, angka, atau tanda baca—adalah unit dasar yang digunakan manusia untuk mewakili bahasa, unit bahasa terkecil yang digunakan model AI adalah token. Setiap token diberi nomor ID, dan nomor ID ini (bukan kata-kata atau bahkan token itu sendiri) adalah cara LLM menavigasi "basis data" kosakata mereka. Tokenisasi bahasa secara signifikan mengurangi daya komputasi yang diperlukan untuk memproses teks.
Untuk menghasilkan kueri dan vektor kunci untuk dimasukkan ke lapisan perhatian transformator, model memerlukan penyematan vektor awal tanpa konteks untuk setiap token. Penyematan token awal ini dapat dipelajari selama pelatihan atau diambil dari model embedding kata yang telah dilatih sebelumnya.
Urutan dan posisi kata-kata dapat secara signifikan mempengaruhi makna semantiknya. Sedangkan sifat serial dari RNN secara inheren mempertahankan informasi tentang posisi setiap token, model transformator harus secara eksplisit menambahkan informasi posisi untuk dipertimbangkan oleh mekanisme perhatian.
Dengan pengodean posisi, model menambahkan vektor nilai ke setiap penyematan token, yang berasal dari posisi relatifnya, sebelum input memasuki mekanisme perhatian. Semakin dekat kedua token tersebut, semakin mirip vektor posisinya dan, oleh karena itu, skor penyelarasannya akan semakin meningkat dari penambahan informasi posisi. Dengan demikian, model tersebut belajar untuk lebih memperhatikan token di dekatnya.
Ketika informasi posisi telah ditambahkan, setiap token yang diperbarui digunakan untuk menanamkan tiga vektor baru. Vektor kueri, kunci , dan nilai ini dihasilkan dengan melewatkan penyematan token asli melalui setiap tiga lapisan jaringan neural umpan maju paralel yang mendahului lapisan perhatian pertama. Setiap subset paralel dari lapisan linier tersebut memiliki matriks bobot yang unik, yang dipelajari melalui prapelatihan mandiri pada kumpulan data teks yang sangat besar.
Fungsi utama mekanisme perhatian transformator adalah untuk memberikan bobot perhatian yang akurat pada pasangan vektor kueri setiap token dengan vektor kunci dari semua token lain dalam urutan. Ketika tercapai, Anda dapat memikirkan setiap token yang memiliki vektor bobot perhatian yang sesuai, di mana setiap elemen dari vektor tersebut mewakili sejauh mana beberapa token lain harus mempengaruhinya.
Intinya, penyematan vektor telah diperbarui untuk lebih mencerminkan konteks yang disediakan oleh token lain dalam urutan.
Untuk menangkap berbagai cara token dapat berhubungan satu sama lain, model transformator mengimplementasikan perhatian multi kepala di beberapa blok perhatian.
Sebelum dimasukkan ke dalam lapisan feedforward pertama, setiap penyematan token input asli dibagi menjadi h subset berukuran sama. Setiap bagian dari penyematan dimasukkan ke dalam salah satu dari h matriks paralel dengan bobot Q, K, dan V , yang masing-masing disebut kepala kueri , kepala kunci, atau kepala nilai. Vektor yang dihasilkan oleh masing-masing triplet paralel dari kueri, kunci dan kepala nilai kemudian dimasukkan ke dalam subbagian dari layer perhatian berikutnya, yang disebut kepala perhatian.
Di lapisan akhir dari setiap blok perhatian, output dari sirkuit paralel h ini akhirnya digabungkan kembali sebelum dikirim ke lapisan feedforward berikutnya. Dalam praktiknya, hasil pelatihan model di setiap sirkuit mempelajari bobot yang berbeda yang menangkap aspek makna semantik yang terpisah.
Dalam beberapa situasi, meneruskan output penyematan yang diperbarui secara kontekstual oleh blok perhatian dapat mengakibatkan hilangnya informasi yang tidak dapat diterima dari urutan aslinya.
Untuk mengatasi hal ini, model transformator sering menyeimbangkan informasi kontekstual yang disediakan oleh mekanisme perhatian dengan makna semantik asli dari setiap token. Setelah subset yang diperbarui dengan perhatian dari penyematan token telah digabungkan kembali, vektor yang diperbarui kemudian ditambahkan ke penyematan vektor asli token (dikodekan posisi). Penyematan token asli dipasok oleh koneksi residual antara lapisan itu dan lapisan jaringan sebelumnya.
Vektor yang dihasilkan dimasukkan ke dalam lapisan feedforward linier lainnya, di mana vektor tersebut dinormalisasi kembali ke ukuran konstan sebelum diteruskan ke blok perhatian berikutnya. Bersama-sama, langkah-langkah ini membantu menjaga stabilitas dalam pelatihan dan membantu memastikan bahwa makna asli teks tidak hilang saat data pindah lebih dalam ke jaringan neural.
Akhirnya, model memiliki cukup informasi kontekstual untuk menginformasikan output akhirnya. Sifat dan fungsi output akan bergantung pada tugas spesifik yang dirancang untuk model transformator.
Pada LLM autoregresif, lapisan terakhir menggunakan fungsi softmax untuk menentukan probabilitas bahwa kata berikutnya akan cocok dengan setiap token di dalam "basis data" kosa katanya. Bergantung pada hyperparameter sampling spesifik, model menggunakan probabilitas tersebut untuk menentukan token berikutnya dari output.
Model transformator paling sering dikaitkan dengan NLP, awalnya dikembangkan untuk contoh penggunaan terjemahan mesin. Terutama, arsitektur transformator memunculkan model bahasa besar (LLM) yang mengkatalisasi munculnya AI generatif.
Sebagian besar LLM yang paling dikenal masyarakat, dari model sumber tertutup seperti seri GPT OpenAI dan model Claude Anthropic hingga model sumber terbuka termasuk Meta Llama atau IBM® Granite®, adalah LLM dekoder autoregresif saja.
Autoregressive LLM dirancang untuk pembuatan teks, yang juga meluas secara alami ke tugas-tugas yang berdekatan seperti meringkas dan menjawab pertanyaan. Mereka dilatih melalui pembelajaran yang diawasi sendiri, di mana model ini diberikan kata pertama dari sebuah bagian teks dan ditugaskan untuk memprediksi kata berikutnya secara berulang-ulang hingga akhir urutan.
Informasi yang diberikan oleh mekanisme perhatian diri memungkinkan model untuk mengekstrak konteks dari urutan input dan mempertahankan koherensi dan kontinuitas dari output.
Model bahasa yang disembunyikan pengkode-dekoder (MLM), seperti BERT dan banyak turunannya, mewakili cabang evolusi utama lainnya dari LLM berbasis transformator. Dalam pelatihan, MLM diberikan sampel teks dengan beberapa token yang disembunyikan—tersembunyi—dan ditugaskan untuk menyelesaikan informasi yang hilang.
Meskipun metodologi pelatihan ini kurang efektif untuk pembuatan teks, metodologi ini membantu MLM unggul dalam tugas-tugas yang membutuhkan informasi kontekstual yang kuat, seperti penerjemahan, klasifikasi teks, dan penyematan.
Meskipun model transformator awalnya dirancang untuk contoh penggunaan, dan akan terus dikaitkan paling menonjol dengan contoh penggunaan bahasa alami, mereka dapat digunakan di hampir semua situasi yang melibatkan data berurutan. Hal ini telah mengarah pada pengembangan model berbasis transformator di bidang lain, mulai dari menyempurnakan LLM menjadi sistem multimodal hingga model forecasting seri waktu khusus dan ViTs untuk visi komputer.
Beberapa modalitas data lebih cocok secara alami untuk representasi sekuensial ramah transformator daripada yang lain. Data seri waktu, audio dan video secara inheren berurutan, sedangkan data gambar tidak. Meskipun demikian, ViT dan model berbasis perhatian lainnya telah mencapai hasil canggih untuk banyak tugas visi komputer, termasuk teks gambar, deteksi objek, segmentasi gambar, dan menjawab pertanyaan visual.
Untuk menggunakan model transformator untuk data yang tidak secara konvensional dianggap sebagai "berurutan" memerlukan solusi konseptual untuk merepresentasikan data tersebut sebagai sebuah urutan. Misalnya, untuk menggunakan mekanisme perhatian untuk memahami data visual, ViTs menggunakan penyematan patch untuk membuat data gambar dapat ditafsirkan sebagai urutan.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Google’s BERT Rolls Out Worldwide (tautan berada di luar ibm.com), Search Engine Journal, 9 Desember 2019