Analisis Kinerja Ekstrasi Fitur Tf-Idf (Term Frequency – Inverse Document Frequency) Untuk Algoritma Klasifikasi Stochastic Gradient Descent Pada Analisis Sentimen Teks Indonesia

Antonio, Vindi Dwi

Analisis Kinerja Ekstrasi Fitur Tf-Idf (Term Frequency – Inverse Document Frequency) Untuk Algoritma Klasifikasi Stochastic Gradient Descent Pada Analisis Sentimen Teks Indonesia

dc.contributor.advisor	Zarlis, Muhammad
dc.contributor.advisor	Tulus
dc.contributor.author	Antonio, Vindi Dwi
dc.date.accessioned	2022-03-28T07:17:24Z
dc.date.available	2022-03-28T07:17:24Z
dc.date.issued	2021
dc.identifier.uri	https://repositori.usu.ac.id/handle/123456789/48179
dc.description.abstract	Twitter is an information platform that can be used by any internet user. Indonesia has 19.5 million Twitter users out of a total of 500 million users worldwide and continues to grow over time. The use of Twitter as a means of conveying information in the handling of covid-19 by the Indonesian government triggered Netizen to respond. Netizen's response consists of Positive and Negative. The opinions of the Twitter Netizens are still random or unclassified. To facilitate the process of classifying the Opinion Data of netizens is required a Sentiment Analysis. The technique for classifying sentiment analysis requires an algorithm. One of the classification algorithms is Stochastic Gradient Descent (SGD). Basically, the more training data provided to the machine, the accuracy of the classificator function model formed by the machine is also higher. But in making representations into numerical vectors, the dimensions of data become large due to the many features. Feature optimization needs to be done to the training data by reducing the dimensions of the training data while maintaining high model accuracy. Optimization feature used is the TF-IDF (Term Frequency - Inverse Document Frequency) feature extraction. After doing this research, sentiment analysis using TF-IDF feature extraction and Stochastic Gradient Descent algorithm can classify Indonesian text appropriately according to positive and negative sentiment. Classification Performance using TF-IDF feature extraction and Stochastic Gradient Descent algorithm obtained an average accuracy of 100 times the test is 81,767 %, and the highest accuracy obtained with iteration 50 times that is with an accuracy is 85.141 %.	en_US
dc.description.abstract	Twitter merupakan media informasi yang dapat digunakan oleh setiap pengguna internet. Indonesia memiliki pengguna Twitter dengan jumlah 19,5 juta dari total 500 juta pengguna di dunia dan terus berkembang seiring berjalannya waktu. Penggunaan Twitter sebagai wadah penyampai informasi dalam penanganan covid-19 oleh pemerintah Indonesia memicu Netizen untuk menanggapinya. Tanggapan Netizen ini terdiri dari Positif dan Negatif. Opini para Netizen Twitter tersebut masih acak atau belum terklasifikasi. Untuk memudahkan proses pengklasifikasian Data opini para Netizen dibutuhkan suatu Sentimen Analisis. Teknik untuk melakukan klasifikasi pada analisis sentimen diperlukan suatu algoritma. Adapun salah satu algoritma klasifikasinya adalah Stochastic Gradient Descent (SGD). Pada dasarnya, semakin banyak data training yang diberikan kepada mesin, maka akurasi model fungsi klasifikator yang dibentuk oleh mesin juga semakin tinggi. Namun dalam melakukan representasi ke dalam vektor numerik, dimensi data menjadi besar yang dikarenakan oleh banyaknya fitur. Optimasi fitur perlu dilakukan terhadap data training dengan memperkecil dimensi data training namun tetap mempertahankan akurasi model yang tinggi. Optimasi fitur yang digunakan adalah ekstraksi fitur TF-IDF (Term Frequency -Inverse Document Frequency). Setelah melakukan penelitian ini, analisis sentimen menggunakan ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent dapat mengklasifikasikan teks bahasa Indonesia dengan tepat sesuai dengan sentimen berupa positive dan negative. Kinerja Klasifikasi menggunakan Ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent didapatkan akurasi rata-rata dari 100 kali pengujian sebesar 81,767 %, dan akurasi tertinggi didapatkan dengan iterasi 50 kali yaitu dengan akurasi 85,141 %.	en_US
dc.language.iso	id	en_US
dc.publisher	Universitas Sumatera Utara	en_US
dc.subject	Term Frequency and Inverse Document Frequency	en_US
dc.subject	TF-IDF	en_US
dc.subject	Stochastic Gradient Descent	en_US
dc.subject	SGD	en_US
dc.subject	Analisis Sentimen	en_US
dc.title	Analisis Kinerja Ekstrasi Fitur Tf-Idf (Term Frequency – Inverse Document Frequency) Untuk Algoritma Klasifikasi Stochastic Gradient Descent Pada Analisis Sentimen Teks Indonesia	en_US
dc.type	Thesis	en_US
dc.identifier.nim	NIM197038010
dc.description.pages	80 halaman	en_US
dc.description.type	Tesis Magister	en_US

Files in this item

Name:: 197038010.pdf
Size:: 1.357Mb
Format:: PDF
Description:: Fulltext

View/Open

This item appears in the following Collection(s)

Master Theses [627]
Tesis Magister

Show simple item record