Show simple item record

dc.contributor.advisorZarlis, Muhammad
dc.contributor.advisorTulus
dc.contributor.authorAntonio, Vindi Dwi
dc.date.accessioned2022-03-28T07:17:24Z
dc.date.available2022-03-28T07:17:24Z
dc.date.issued2021
dc.identifier.urihttps://repositori.usu.ac.id/handle/123456789/48179
dc.description.abstractTwitter is an information platform that can be used by any internet user. Indonesia has 19.5 million Twitter users out of a total of 500 million users worldwide and continues to grow over time. The use of Twitter as a means of conveying information in the handling of covid-19 by the Indonesian government triggered Netizen to respond. Netizen's response consists of Positive and Negative. The opinions of the Twitter Netizens are still random or unclassified. To facilitate the process of classifying the Opinion Data of netizens is required a Sentiment Analysis. The technique for classifying sentiment analysis requires an algorithm. One of the classification algorithms is Stochastic Gradient Descent (SGD). Basically, the more training data provided to the machine, the accuracy of the classificator function model formed by the machine is also higher. But in making representations into numerical vectors, the dimensions of data become large due to the many features. Feature optimization needs to be done to the training data by reducing the dimensions of the training data while maintaining high model accuracy. Optimization feature used is the TF-IDF (Term Frequency - Inverse Document Frequency) feature extraction. After doing this research, sentiment analysis using TF-IDF feature extraction and Stochastic Gradient Descent algorithm can classify Indonesian text appropriately according to positive and negative sentiment. Classification Performance using TF-IDF feature extraction and Stochastic Gradient Descent algorithm obtained an average accuracy of 100 times the test is 81,767 %, and the highest accuracy obtained with iteration 50 times that is with an accuracy is 85.141 %.en_US
dc.description.abstractTwitter merupakan media informasi yang dapat digunakan oleh setiap pengguna internet. Indonesia memiliki pengguna Twitter dengan jumlah 19,5 juta dari total 500 juta pengguna di dunia dan terus berkembang seiring berjalannya waktu. Penggunaan Twitter sebagai wadah penyampai informasi dalam penanganan covid-19 oleh pemerintah Indonesia memicu Netizen untuk menanggapinya. Tanggapan Netizen ini terdiri dari Positif dan Negatif. Opini para Netizen Twitter tersebut masih acak atau belum terklasifikasi. Untuk memudahkan proses pengklasifikasian Data opini para Netizen dibutuhkan suatu Sentimen Analisis. Teknik untuk melakukan klasifikasi pada analisis sentimen diperlukan suatu algoritma. Adapun salah satu algoritma klasifikasinya adalah Stochastic Gradient Descent (SGD). Pada dasarnya, semakin banyak data training yang diberikan kepada mesin, maka akurasi model fungsi klasifikator yang dibentuk oleh mesin juga semakin tinggi. Namun dalam melakukan representasi ke dalam vektor numerik, dimensi data menjadi besar yang dikarenakan oleh banyaknya fitur. Optimasi fitur perlu dilakukan terhadap data training dengan memperkecil dimensi data training namun tetap mempertahankan akurasi model yang tinggi. Optimasi fitur yang digunakan adalah ekstraksi fitur TF-IDF (Term Frequency -Inverse Document Frequency). Setelah melakukan penelitian ini, analisis sentimen menggunakan ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent dapat mengklasifikasikan teks bahasa Indonesia dengan tepat sesuai dengan sentimen berupa positive dan negative. Kinerja Klasifikasi menggunakan Ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent didapatkan akurasi rata-rata dari 100 kali pengujian sebesar 81,767 %, dan akurasi tertinggi didapatkan dengan iterasi 50 kali yaitu dengan akurasi 85,141 %.en_US
dc.language.isoiden_US
dc.publisherUniversitas Sumatera Utaraen_US
dc.subjectTerm Frequency and Inverse Document Frequencyen_US
dc.subjectTF-IDFen_US
dc.subjectStochastic Gradient Descenten_US
dc.subjectSGDen_US
dc.subjectAnalisis Sentimenen_US
dc.titleAnalisis Kinerja Ekstrasi Fitur Tf-Idf (Term Frequency – Inverse Document Frequency) Untuk Algoritma Klasifikasi Stochastic Gradient Descent Pada Analisis Sentimen Teks Indonesiaen_US
dc.typeThesisen_US
dc.identifier.nimNIM197038010
dc.description.pages80 halamanen_US
dc.description.typeTesis Magisteren_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record