• Login
    View Item 
    •   USU-IR Home
    • Faculty of Computer Science and Information Technology
    • Department of Information Technology
    • Master Theses
    • View Item
    •   USU-IR Home
    • Faculty of Computer Science and Information Technology
    • Department of Information Technology
    • Master Theses
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Analisis Kinerja Ekstrasi Fitur TF-IDF (Term Frequency – Inverse Document Frequency) Untuk Algoritma Klasifikasi Stochastic Gradient Descent pada Analisis Sentimen Teks Indonesia

    View/Open
    Fulltext (2.108Mb)
    Date
    2021
    Author
    Antonio, Vindi Dwi
    Advisor(s)
    Effendi, Syahril
    Mawengkang, Herman
    Metadata
    Show full item record
    Abstract
    Twitter is an information platform that can be used by any internet user. Indonesia has 19.5 million Twitter users out of a total of 500 million users worldwide and continues to grow over time. The use of Twitter as a means of conveying information in the handling of covid-19 by the Indonesian government triggered Netizen to respond. Netizen's response consists of Positive and Negative. The opinions of the Twitter Netizens are still random or unclassified. To facilitate the process of classifying the Opinion Data of netizens is required a Sentiment Analysis. The technique for classifying sentiment analysis requires an algorithm. One of the classification algorithms is Stochastic Gradient Descent (SGD). Basically, the more training data provided to the machine, the accuracy of the classificator function model formed by the machine is also higher. But in making representations into numerical vectors, the dimensions of data become large due to the many features. Feature optimization needs to be done to the training data by reducing the dimensions of the training data while maintaining high model accuracy. Optimization feature used is the TF-IDF (Term Frequency - Inverse Document Frequency) feature extraction. After doing this research, sentiment analysis using TF-IDF feature extraction and Stochastic Gradient Descent algorithm can classify Indonesian text appropriately according to positive and negative sentiment. Classification Performance using TF-IDF feature extraction and Stochastic Gradient Descent algorithm obtained an average accuracy of 100 times the test is 81,767 %, and the highest accuracy obtained with iteration 50 times that is with an accuracy is 85.141 %.
     
    Twitter merupakan media informasi yang dapat digunakan oleh setiap pengguna internet. Indonesia memiliki pengguna Twitter dengan jumlah 19,5 juta dari total 500 juta pengguna di dunia dan terus berkembang seiring berjalannya waktu. Penggunaan Twitter sebagai wadah penyampai informasi dalam penanganan covid-19 oleh pemerintah Indonesia memicu Netizen untuk menanggapinya. Tanggapan Netizen ini terdiri dari Positif dan Negatif. Opini para Netizen Twitter tersebut masih acak atau belum terklasifikasi. Untuk memudahkan proses pengklasifikasian Data opini para Netizen dibutuhkan suatu Sentimen Analisis. Teknik untuk melakukan klasifikasi pada analisis sentimen diperlukan suatu algoritma. Adapun salah satu algoritma klasifikasinya adalah Stochastic Gradient Descent (SGD). Pada dasarnya, semakin banyak data training yang diberikan kepada mesin, maka akurasi model fungsi klasifikator yang dibentuk oleh mesin juga semakin tinggi. Namun dalam melakukan representasi ke dalam vektor numerik, dimensi data menjadi besar yang dikarenakan oleh banyaknya fitur. Optimasi fitur perlu dilakukan terhadap data training dengan memperkecil dimensi data training namun tetap mempertahankan akurasi model yang tinggi. Optimasi fitur yang digunakan adalah ekstraksi fitur TF-IDF (Term Frequency -Inverse Document Frequency). Setelah melakukan penelitian ini, analisis sentimen menggunakan ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent dapat mengklasifikasikan teks bahasa Indonesia dengan tepat sesuai dengan sentimen berupa positive dan negative. Kinerja Klasifikasi menggunakan Ekstraksi fitur TF-IDF dan algoritma Stochastic Gradient Descent didapatkan akurasi rata-rata dari 100 kali pengujian sebesar 81,767 %, dan akurasi tertinggi didapatkan dengan iterasi 50 kali yaitu dengan akurasi 85,141 %.

    URI
    http://repositori.usu.ac.id/handle/123456789/33417
    Collections
    • Master Theses [621]

    Repositori Institusi Universitas Sumatera Utara - 2025

    Universitas Sumatera Utara

    Perpustakaan

    Resource Guide

    Katalog Perpustakaan

    Journal Elektronik Berlangganan

    Buku Elektronik Berlangganan

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV
     

     

    Browse

    All of USU-IRCommunities & CollectionsBy Issue DateTitlesAuthorsAdvisorsKeywordsTypesBy Submit DateThis CollectionBy Issue DateTitlesAuthorsAdvisorsKeywordsTypesBy Submit Date

    My Account

    LoginRegister

    Repositori Institusi Universitas Sumatera Utara - 2025

    Universitas Sumatera Utara

    Perpustakaan

    Resource Guide

    Katalog Perpustakaan

    Journal Elektronik Berlangganan

    Buku Elektronik Berlangganan

    DSpace software copyright © 2002-2016  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    Atmire NV