Analisis Sentimen Terhadap Film Indonesia dengan Pendekatan Bert
View/ Open
Date
2021Author
Fimoza, Dwi
Advisor(s)
Amalia
Harumy, T. Henny Febriana
Metadata
Show full item recordAbstract
This study aims to analyze the sentiment in Indonesia Language towards the Gundala movie reviews on YouTube. However, sentiment analysis on YouTube comments are varying from positive, negative, and neutral comments which requires some automation in terms of classifying comments based on the polarity of sentiment. Sentiment analysis using traditional machine learning algorithms such as Naïve Bayes, SVM, etc cannot understand the context of comments in depth about the semantic of words because it only learns the given patters such as the frequency of occurrence of words. We need a transfer learning approach such as BERT (Bidirectional Encoder Representations from Transformers) which produces a bidirectional language model. The dataset used to do sentiment analysis goes through a pre-processing step which consists of case folding, data cleaning, tokenization, stop words removal, stemming, and normalization, using libraries from NLTK and Sastrawi. In this study, the hyperparameters used were 10 epochs, learning rate of 2e-5, and a batch size 16. In sentiment analysis, we will be using a multilingual-cased-model BERTBASE model and it was carried out with three experiments. During this experiment, the accuracy gained in first experiment is 66%, while the second experiment was 68%, and the third experiment was 66%. So, the average accuracy obtained is 66,7%. Penelitian ini bertujuan untuk analisis sentimen Bahasa Indonesia terhadap review film Gundala di YouTube. Namun, analisis sentimen pada komentar YouTube yang bervariasi dari komentar positif, negatif, maupun netral membutuhkan suatu otomatisasi dalam mengklasifikasikan komentar berdasarkan polaritas sentimennya. Analisis sentimen dengan penggunaan algoritma machine learning tradisional seperti Naïve Bayes, SVM, dan lain-lain tidak dapat memahami konteks dari komentar secara mendalam tentang semantik kata yang ada karena hanya mempelajari pola-pola yang diberikan seperti frekuensi kemunculan kata. Untuk itu dibutuhkan sebuah pendekatan transfer learning seperti BERT (Bidirectional Encoder Representations from Transformers) yang menghasilkan sebuah model bahasa dua arah (bidirectional). Dataset yang digunakan melalui tahap pre-processing yang terdiri dari case folding, data cleaning, tokenisasi, stopwords removal, stemming, dan normalisasi dengan library NLTK dan Sastrawi sebelum dilakukan analisis sentimen. Dalam penelitian ini hyperparameters yang digunakan adalah 10 epoch, learning rate 2e-5, dan batch size 16. Pengujian analisis sentimen menggunakan model BERTBASE multilingual-cased-model dan dilakukan dengan tiga kali percobaan. Nilai akurasi yang diperoleh pada percobaan pertama adalah 66%, sedangkan percobaan kedua adalah 68%, dan percobaan ketiga adalah 66%. Sehingga rata-rata nilai akurasi yang diperoleh adalah 66,7%.
Collections
- Undergraduate Theses [1180]