Ekstraksi Informasi Berita Online dengan Named Entity Recognition (NER) dan Rule-Based untuk Visualisasi Penyakit Tropis di Indonesia
View/ Open
Date
2021Author
Atika, Dessy
Advisor(s)
Gunawan, Dani
Rahmat, Romi Fadillah
Metadata
Show full item recordAbstract
Many tropical disease incidents in Indonesia are reported online on various news portals. News portal is an online information or data source in the form of unstructured or unstructured data. To obtain structured information, an alternative approach is needed using Named Entity Recognition (NER). Named Entity Recognition (NER) functions to find and identify named entities that exist in unstructured text into standard categories such as names of people, locations, organizations, time expressions, numbers, etc. In this study, the authors used Named Entity Recognition (NER) with the Spacy Library to extract information on tropical diseases in Indonesia in the form of entities related to tropical disease names, location of events, time of occurrence and number of victims to be visualized using Rules-Bases. The SpaCy library builds an information extraction or Natural Language Processing system to process text for deep learning of entity recognition. After obtaining the information extraction process and producing various entities, a classification process is carried out to classify each entity into the appropriate table. Classification is done automatically through a corpus that has been labeled in the form of a model in the NER process with data divided by 80:20 training data and test data by calculating the Evaluation Scorer, namely 84% Precision, Recall, 73% and 82% F1 Score. Banyak insiden penyakit tropis di Indonesia dilaporkan secara online dalam berbagai portal berita. Portal berita merupakan informasi atau sumber data online yang berbentuk data tidak terstruktur atau unstructured data. Untuk mendapatkan informasi terstruktur maka dibutuhkan suatu pendekatan alternatif menggunakan Named Entity Recognition (NER). Named Entity Recognition (NER) bekerja menemukan dan mengidentifikasi entitas bernama yang ada dalam teks tidak terstruktur ke dalam kategori standar seperti nama orang, lokasi, organisasi, ekspresi waktu, jumlah, dll. Pada penelitian ini penulis memanfaatkan Named Entity Recognition (NER) dengan Library Spacy untuk ekstraksi informasi penyakit tropis di Indonesia berupa entitas terkait nama penyakit tropis, lokasi kejadian, waktu kejadian dan jumlah korban yang akan di visualisasikan dengan memanfaatkan Rules-Bases. Library SpaCy membangun ekstraksi informasi atau sistem Natural Language Processing memproses teks untuk pembelajaran mendalam pada pengenalan entitas. Setelah proses ekstraksi informasi didapatkan dan menghasilkan berbagai entitas, dilakukan proses klasifikasi untuk mengelompokkan setiap entitas kedalam tabel yang sesuai. Klasifikasi dilakukan secara otomatis melalui corpus yang sudah diberi label dalam bentuk model pada proses NER dengan data dibagi 80:20 data training dan data testing dengan melakukan perhitungan Evaluation Scorer yaitu Precision 84%, Recall, 73% dan F1 score 82%.
Collections
- Undergraduate Theses [815]