Peningkatan Kinerja Algoritma C4.5 dengan Metode Average Gain
View/ Open
Date
2020Author
Qowidho, Titin
Advisor(s)
Zarlis, Muhammad
Nababan, Erna Budhiarti
Metadata
Show full item recordAbstract
Zhang (2012) mengusulkan dua metode pruning. Metode pertama disebut heterogeneous-cost sensitive learning (HCSL) dengan memodifikasi average gain split atribut (Mitchell, 1997) yang dikalikan dengan selisih misklasifikasi (misclassification cost dari atribut sebelum di-split dan setelah di-split).Metode pruning kedua adalah menggunakan nilai ambang (thresholdpruning). Algoritma C4.5 masih mempunyai kelemahan dalam melakukan prediksi atau klasifikasi data apabila kelas-kelas yang digunakan dalam jumlah yang banyak dapat menyebabkan meningkatnya waktu pengambilan keputusan. Maka dibutuhkan satu pendekatan untuk meningkatkan kinerja terhadap algoritma C4.5 dengan split atribut yang dipilih yang menggunakan penerapan nilai average gain guna membantu memprediksi screening test yang akan dilalui oleh pengidap penyakit kanker khususnya kanker serviks sehinngga memperoleh pengobatan yang tepat dan cepat. pengujian yang telah dilakukan yang menggunakan dataser Cervical Cancer pada metode C4.5 yang memiliki tingkat akurasi sebesar 90.37% , dengan tingkat kesalahan pengklasifikasian dengan nilai 9.63%. Sedangkan klasifikasi model C4.5 Average Gain memiliki akurasi sebesar 93.90%, dengan tingkat kesalahan pengklasifikasian sebesar 6.10%. Pada dataser Kanker Rahim pada metode C4.5 yang memiliki tingkat akurasi sebesar 95.61% , dengan tingkat kesalahan pengklasifikasian dengan nilai 4.38%. Sedangkan klasifikasi model C4.5 Average Gain memiliki akurasi sebesar 98.61%, dengan tingkat kesalahan pengklasifikasian sebesar 1.4%. Perbedaan pada penelitian ini disebabkan oleh jumlah dari atribut yang berbeda, semakin banyak atribut yang diuji maka menghasilkan tingkat akurasi yang lebih rendah dari atribut yang sedikit, maka dataset Kanker Rahim memiliki akurasi yang lebih tinggi dibandingkan dengan dataset Cervical Cancer. Zhang (2012) proposed two pruning methods. The first method is called heterogeneous-cost sensitive learning (HCSL) by modifying the average gain split attribute (Mitchell, 1997) which is multiplied by the difference in misclassification (misclassification cost of attributes before being split and after being split). The second pruning method is to use a threshold value. (thresholdpruning). The C4.5 algorithm still has weaknesses in predicting or classifying data if a large number of classes are used which can lead to increased decision-making time. So an approach is needed to improve the performance of the C4.5 algorithm with the selected split attribute that uses the application of the average gain value to help predict the screening test that people with cancer, especially cervical cancer, will pass so that they get the right and fast treatment. Tests that have been carried out using the Cervical Cancer dataser on the C4.5 method have an accuracy rate of 90.37%, with a classification error rate of 9.63%. While the classification model C4.5 Average Gain has an accuracy of 93.90%, with a classification error rate of 6.10%. In the uterine cancer dataset using C4.5 method, it has an accuracy rate of 95.61%, with a classification error rate of 4.38%. While the classification model C4.5 Average Gain has an accuracy of 98.61%, with a classification error rate of 1.4%. The difference in this study is caused by the number of different attributes, the more attributes tested, the lower the accuracy rate of the few attributes, the cervical cancer dataset has a higher accuracy than the Cervical Cancer dataset.
Collections
- Master Theses [621]