Implementasi Algoritma K-Means untuk Clustering Data Skripsi

Sani, Salsabila Syukri

View/Open

Fulltext (1.742Mb)

Date

2021

Author

Sani, Salsabila Syukri

Advisor(s)

Jaya, Ivan

Purnamawati, Sarah

Metadata

Show full item record

Abstract

The amount of thesis document which increase continously make a clustering of thesis document more difficult because it has to many topic that can be used to make a thesis. Therefore, the clustering of thesis document is needed to produce a relevant result that can be help to clustering thesis document. The purpose of the research is to imply K-Means algorithm to clustering thesis document to find a suitable main topic. In that process, there is preprocessing step which is call tokenization, the omit of stop words, filtering and stemming. Next, classification of thesis document are done with K-Means algorithm using TD-IDF to get the weight count number. The results of the clustering using TD-IDF process would spend more time because the amount of data needed to be process in short time. The clustering results would make the thesis document which have the same topic will gather in one spot while others will make make another group by their own.

Banyaknya dokumen skripsi yang terus bertambah membuat pengelompokan dokumen skripsi semakin sulit di karenakan banyaknya topik yang di gunakan dalam pembuatan skripsi. Oleh karena itu, pengelompokan dokumen skripsi diperlukan untuk melihat dan menghasilkan hasil relevan yang dapat membantu untuk mengkategorikan topik skripsi yang di gunakan. Penelitian ini memiliki tujuan untuk penerapan algoritma K-Means dalam pengelompokkan dokumen skripsi sesuai dengan topik besar yang ada. Tahapan preprocessing yang dilakukan yaitu tokenization, penghilangan stopwords, filtering dan stemming. Berikutnya, pengelompokan dokumen akan di lakukan dengan algoritma K-Means menggunakan TF-IDF untuk memperoleh jumlah bobot dari perhitungan kata yang di gunakan. Hasil dari pengelompokan dokumen meggunakan proses TD-IDF membutuhkan waktu lebih banyak di karena kan banyaknya kata yang di proses dalam waktu yang singkat. Hasil pengelompokan yang telah dilakukan membuat dokumen yang mempunyai kesamaan dalam topik skripsi berkumpul di suatu area dan topik yang berbeda akan membuat kelompok yang berbeda pula.

URI

https://repositori.usu.ac.id/handle/123456789/47218

Collections

Undergraduate Theses [796]