3 Tipe LLM
Berdasarkan arsitektur, LLM (large language models) terbagi menjadi 3.
Pertama: Auto Encoding (Masked Language Modeling — MLM)
Model ini menggunakan arsitektur encoding only. Contohnya, kita punya korpus teks:
“The cat is climbing the tree.”
Dalam pendekatan ini, ada bagian yang dihilangkan, seperti “The cat is [MASK] the tree.” Tugas model adalah memprediksi kata yang hilang, yang dalam hal ini adalah “climbing”. Dengan cara ini, model dilatih untuk memahami konteks dan relasi antar kata dalam kalimat dengan melihat kata-kata di sekitar posisi yang dimask.
Kedua: Auto-Regressive (Causal Language Modeling — CLM)
Model ini menggunakan arsitektur decoder only. Dalam pendekatan ini, model bertugas untuk memprediksi kata berikutnya secara berurutan, berdasarkan kata-kata yang sudah ada sebelumnya. Dengan menggunakan kalimat yang sama, “The cat is climbing the tree”, model ini memulai dari kata pertama dan bergerak maju.
Sebagai contoh, prosesnya dimulai dari “The”, lalu model akan memprediksi “cat”, melanjutkan ke “is”, kemudian “climbing”, dan akhirnya “the tree”. Dalam hal ini, setiap kata yang diprediksi hanya bergantung pada kata-kata sebelumnya, tidak pernah melihat kata-kata yang datang setelahnya. Pendekatan ini memungkinkan model untuk menghasilkan teks yang koheren dan alami, menjadikannya sangat efektif untuk aplikasi seperti penulisan kreatif, percakapan, dan chatbot.
CLM juga berfungsi sangat baik ketika dihadapkan dengan konteks yang terbatas, di mana model mengetahui bagian mana dari informasi yang relevan untuk menghasilkan respons yang tepat. Keunggulan dari pendekatan ini adalah kemampuannya untuk menghasilkan teks yang beraliran seperti manusia, sehingga menjadikannya pilihan utama dalam banyak aplikasi generatif.
Ketiga: Sequence-to-Sequence (Encoder-Decoder)
Model ini menggabungkan kedua arsitektur sebelumnya, dengan menerapkan encoder untuk memahami dan merangkum input, sementara decoder bertugas menghasilkan output yang sesuai. Pendekatan ini sangat berguna dalam berbagai tugas yang melibatkan pemetaan dari satu urutan ke urutan lainnya — contoh yang paling jelas adalah dalam terjemahan bahasa.
Misalnya, jika kita ingin menerjemahkan kalimat “The cat is climbing the tree” ke dalam bahasa lain, model ini pertama-tama akan mengalihkan kalimat tersebut melalui encoder. Encoder akan mempelajari konteks secara keseluruhan dan mengubah kalimat menjadi representasi yang lebih ringkas. Setelah itu, decoder akan membaca representasi tersebut untuk menghasilkan output yang sesuai, seperti “Kucing sedang memanjat pohon” dalam bahasa Indonesia.
Kelebihan dari pendekatan ini adalah kemampuannya untuk menangani berbagai jenis tugas kompleks, seperti ringkasan, terjemahan, atau bahkan pemodelan dialog. Dengan memanfaatkan kemampuan encoder untuk memahami konteks dan decoder untuk menghasilkan teks, model ini memberikan solusi yang sangat fleksibel dan kuat dalam banyak aplikasi NLP.