-
Deskripsi Topik: Seiring berkembangnya Large Language Models (LLMs) dari sekadar penghasil teks menjadi sistem yang mampu menangani complex reasoning, konteks multibahasa, hingga perencanaan jangka panjang, metode evaluasi yang digunakan juga perlu berevolusi. Pendekatan konvensional seperti downstream tasks, metrik n-gram, dan benchmark pilihan ganda dinilai tidak lagi cukup untuk mengukur kemampuan model secara komprehensif. Sesi ini […]
