Klasifikasi Jenis Ujaran Kebencian pada Cuitan Bahasa Indonesia Berdasarkan Sanksi Pidana Menggunakan Glove Embeddings dan Multinomial Naïve Bayes
View/ Open
Date
2021Author
Lumban Tobing, Lenny
Advisor(s)
Purnamawati, Sarah
Huzaifah, Ade Sarah
Metadata
Show full item recordAbstract
The spread of hate speech online has led to several countries implementing laws that prohibit hate speech to force their citizens to refrain from such behavior. Through this tweet the source of the data obtained can be analyzed, considering that users are more likely to express the level of emotion towards each event in a post or tweet. This study aims to classify which tweets contain hate speech based on certain motives, with this approach it can be concluded no crime committed in accordance with the articles in the law. The classification of hate speech through Indonesian tweets uses the Multinomial Naïve Bayes method. This study uses 2500 data crawled on Twitter social media based on 4 types of classification. To perform the classification, it is necessary to have several preprocessing stages which is casefolding, punctual removal, normalization, stopword removal, stemming and tokenization. This study also uses word embedding with Glove Embedding for each tweet in the dataset and each words will represent the number of the value which carried out on the probability value with the Multinomial Naïve Bayes algorithm to determine the probability value of the results of each given label, the highest probability value will be the result of the classification of the type of hate speech on tweets. Hate speech classification with Glove Embeding and Multinomial Naïve Bayes will produce an accuracy of 92%. Penyebaran ujaran kebencian yang dilakukan secara daring telah menyebabkan beberapa negara menerapkan undang - undang yang melarang ujaran kebencian untuk memaksa warga negaranya menahan diri dari perilaku tersebut. Sosial media sebagai sarana secara online untuk menyatakan ekspresi dan emosi terhadap sejumlah momen dan peristiwa yang terjadi sehingga data yang diperoleh melalui user dapat dianalisis. Penelitian ini bertujuan untuk melakukan klasifikasi twit mana saja yang mengandung ujaran kebencian berdasarkan motif motif tertentu, dengan pendekatan ini maka dapat disimpulkan tidak pidana yang dilakukan berdasarkan undang undang. Klasifikasi ujaran kebencian melalui twit bahasa Indonesia menggunakan metode Multinomial Naïve Bayes. Penelitian menggunakan 2500 dokumen twit yang di-crawling pada media sosial twitter berdasarkan 4 jenis klasifikasi. Untuk melakukan klasifikasi perlu adanya tahapan preprocessing terlebih dahulu yaitu casefolding, punctual removal, normalization, stopword removal, stemming dan tokenization. Penelitian ini juga menggunakan pembobotan kata dengan Glove Embedding terhadap tiap twit dalam dataset dan dilakukan kalkulasi terhadap nilai probabilitas dengan algoritma Multinomial Naïve Bayes untuk menentukan nilai probabilitas dari hasil tiap label yang diberikan, nilai probabilitas tertinggi akan menjadi hasil klasifikasi terhadap jenis ujiaran kebencian pada twit. Klasifikasi ujaran kebencian dengan Glove Embeding dan Multinomial Naïve Bayes akan menghasilkan akurasi sebesar 92%.
Collections
- Undergraduate Theses [801]