Pendeteksi Kemiripan Paragraf pada Dokumen Karya Ilmiah Menggunakan Algoritma Wu Palmer dan Cosine Similarity
View/ Open
Date
2021Author
Nurmansyah, Bayu Aji
Advisor(s)
Sitompul, Opim Salim
Nababan, Erna Budhiarti
Metadata
Show full item recordAbstract
Rapid development of the internet has had a positive impact on technological advances, one of the benefits that can be felt is in collecting reference documents available on the internet. But along with this there is also a problem where many authors quote both in terms of sentences or paragraphs without paraphrasing first, which of course will make the text have similarities which in turn will cause copyright infringement. For this reason, it is necessary to detect text Similarity, especially in paragraphs, automatically. The text detection process, especially in paragraph sections, was carried out in this study using the "Wu Palmer" and "Cosine Similarity" algorithms with the help of the WordNet database. The test document data was taken from the website repository used to test 11 documents with a total of 372 test paragraphs and 40 comparative documents with a total of 891 comparison paragraphs. In testing the best threshold value for checking the Similarity of paragraphs was 0.6 which resulted in 80% precision, 90% recall, and 0.84 F-Measure. Perkembangan internet yang semakin pesat telah membawa dampak positif terhadap kemajuan teknologi informasi, salah satu manfaat yang dapat dirasakan adalah kemudahan dalam mengumpulkan dokumen referensi penelitian yang banyak tersedia di internet. Akan tetapi bersamaan dengan kemudahan ini juga terdapat satu masalah dimana banyak penulis yang melakukan kutipan teks baik itu dari segi kalimat ataupun paragraf tanpa melakukan parafrasa terlebih dahulu yang tentu saja hal ini akan membuat teks tersebut memiliki kemiripan yang selanjutnya akan menimbulkan pelanggaran hak cipta. Untuk itu diperlukan pendeteksian kemiripan teks khususnya pada bagian paragraf secara otomatis. Proses pendeteksian teks khususnya pada bagian paragraf yang dilakukan pada penelitian ini menggunakan algoritma Wu Palmer dan Cosine Similarity dengan bantuan database WordNet. Data dokumen uji diambil dari website repositori usu berjumlah 11 dokumen dengan total paragraf uji sebanyak 372 dan dokumen pembanding sebanyak 40 dokumen dengan total paragraf pembanding sebanyak 891. Pada pengujian didapatkan nilai threshold terbaik untuk mendeteksi kemiripan paragraf adalah 0.6 yang menghasilkan 80% nilai presisi, 90% nilai recall, dan 0.84 nilai F-Measure.
Collections
- Undergraduate Theses [815]