Analisis Akurasi Algoritma Naïve Bayes pada Klasifikasi Dokumen Berkategori
View/ Open
Date
2013Author
Yanti, Dewi
Advisor(s)
Mawengkang, Herman
Ramli, Marwan
Metadata
Show full item recordAbstract
Nowadays, the growth and spread of information in online document sare very quick.
Thus, it requires a good management of information from a collection of text
documents to facilitate the search for relevant information needed. One kind of
methods that is able to organize the text documents automatically is classification.
Documents classification is the process of grouping documents according to its
category. The technique that is widely used in the documents classification such as
Naive Bayes Classifier (NBC), which has several advantages, among others. It is
simple, fast, and accurate. Based on the previous studies using the Naive Bayes for
classification of documents, the research ertries to classify documents that are usually
done using some categories, but in this study, these categories are grouped into more
common categories with the same domain, namely sub parent category and parent
category. Among the categories that have the same domain, there are many words that
appear showing the same characteristics of the sub parent category and its parent
category. The use of sub parent category and parent category in Naïve Bayes
algorithmis expected to gain a higher accuracy, especially in the documents
classification because the words that appear in a document that intersect each other
shave caused very large mis classification between the categories. The results showed
that the classification accuracy is 31,25% for the documents without sub parent
category + parent category and the maximum of accuracy is 34,37% for the
documents using sub parent category + parent category. Saat ini penyebaran informasi berkembang sangat pesat dalam dokumen online dari ke
waktu waktu yang jumlahnya sangat besar. Diperlukan pengelolaan informasi yang
baik dari sekumpulan dokumen teks sehingga dapat mempermudah dalam pencarian
informasi yang relevan dengan kebutuhan. Metode yang dapat mengorganisir
dokumen teks secara otomatis diantaranya adalah klasifikasi. Klasifikasi dokumen
adalah proses pengelompokan dokumen sesuai dengan kategori yang dimilikinya.
Teknik yang banyak digunakan dalam klasifikasi dokumen diantaranya adalah Naive
Bayes Classifier (NBC) yang memiliki beberapa kelebihan antara lain, sederhana,
cepat dan berakurasi tinggi. Berdasarkan penelitian sebelumnya yang menggunakan
naive bayes untuk klasifikasi dokumen. Penulis mencoba untuk melakukan penelitian
bagaimana mengklasifikasikan dokumen yang biasanya dilakukan dengan
menggunakan beberapa kategori tetapi pada penelitian kali ini kategori-kategori
tersebut dikelompokkan lagi ke dalam kategori-kategori yang lebih umum yang
memiliki domain yang sama yaitu sub parent category dan parent category. Diantara
kategori-kategori yang memiliki domain yang sama banyak terdapat kata-kata yang
muncul sama yang menunjukkan ciri dari sub parent category dan parent categorynya.
Penggunaan sub parent category dan parent category pada algoritma naïve bayes
diharapkan dapat menghasilkan akurasi yang lebih tinggi khususnya pada klasifikasi
dokumen karena banyaknya kata-kata yang muncul dari suatu dokumen yang saling
beririsan menyebabkan jumlah kesalahan klasifikasi antar kategori sangat besar.
Adapun hasil uji coba menunjukkan bahwa nilai akurasi 31,25% untuk klasifikasi
dokumen tanpa menggunakan sub parent category + parent category dan maksimal
34,37% untuk klasifikasi dokumen menggunakan sub parent category + parent
category
Collections
- Master Theses [621]