Ujaran kebencian dan penggunaan bahasa yang kasar pada media sosial, khususnya Twitter, sangat berpotensi menimbulkan konfilk antar individu maupun kelompok. Hal itu terjadi karena ujaran kebencian tidak jarang menggunakan bahasa kasar untuk menyerang seseorang maupun kelompok. Beranjak dari fenomena tersebut, Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) melakukan riset deteksi ujaran kebencian dan bahasa kasar pada media sosial Twitter.
Muhammad Okky Ibrohim, M.Kom. bersama Dr. Indra Budi, melakukan riset tersebut dengan pendekatan machine learning. Pendeteksian juga dilakukan dengan mengklasifikasikan target, kategori, dan level ujaran kebencian itu sendiri. Perkataan (twit) diidentifikasi sebagai ujaran kebencian atau bahasa kasar. Kemudian ujaran kebencian dikategorikan menjadi 5 kategori, seperti: agama, ras, fisik, gender atau orientasi seksual, dan umpatan lainnya. Tingkat level ujaran kebencian juga diklasifikasikan pada level, yaitu: Weak hate speech, kata umpatan ditujukan pada individu tanpa unsure provokasi; Moderate hate speech, umpatan yang ditujukan kepada kelompok tanpa provokasi; Strong hate speech, umpatan yang memprovokasi dan berpotensi membuka konflik.
Data tersebut dianotasi (dibangun) dengan skema crowd sourcing oleh beberapa orang dari berbagai latar belakang agama, ras, umur, dan pekerjaan agar diperoleh data yang tidak bias. Selain itu, definisi yang digunakan dan panduan anotasi disusun berdasarkan buku bahasa sosial dan buku tangan ujaran kebencian, serta divalidasi oleh ahli dengan wawancara dan diskusi kelompok bersama staf Badan Reserse dan Krimina lKepolisian Negara Republik Indonesia (BareskrimPolri) serta seorang linguis. “Kami melakukan diskusi kelompok (FGD) bersama staf Direktorat Tindak Pidana Siber Bareskrim Polri, di mana mereka bertanggungjawab untuk menginvetigasi kejahatan siber di Indonesia. Hal ini dilakukan untuk memvalidasi defenisi ujaran kebencian secara tepat termasuk karakteristiknya”, ujar Okky Ibrohim.
Untuk mempermudah klasifikasi dengan hasil yang lebih baik dilakukan data preprocessing yang terdiri dari; Case folding, membuat standar karakter penulisan; Data cleaning, membersihkan karakter yang tidak penting seperti simbol re-tweet dan lain-lain; Text normalization, merubah kata nonformal menjadi kata formal; Stemming, memodifikasi kata setiap cuitan menggunakan algoritma; dan stop words removal. Setelah diekstraksi, data set ini diklasifikasi menggunakan dengan tiga algoritma machine learning yaitu: Naïve Bayes (NB), Support Vector Machines (SVM), dan Random Forest Dicision Tree (RFDT).
Untuk melakukan klasifikasi pada data yang bersifat multilabel ini, Demi menyempurnakan kerja sistem algortima tersebut para peneliti mengkombinasikan algoritma machine learning dengan tiga metode transformasi data, yaitu: Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Hasil riset ini memperlihatkan bahwa word unigram, RFDT, dan LP adalah kombinasi fitur, algoritma klasifikasi, dan metode transformasi data terbaik dengan akurasi 77, 36% dalam medeteksi bahasa kasar dan ujaran kebencian yang terdapat pada Twitter.
Dalam proses deteksi, dataset yang berasal dari Twitter dikumpulkan menggunakan Twitter Search API. Data-data tersebut merupakan kata maupun ungkapan yang sering digunakan oleh netizen ketika menyebarkan ujaran kebencian di media sosial Indonesia. Dalam proses ini terdapat 13.169 cuitan yang yang terdiri dari 7.608 bukan cuitan kebencian dan 5.561 cuitan kebencian.