Normalisasi Mikroteks Berbentuk Kontekstual Berbahasa Indonesia pada Twitter Menggunakan Dictionary-Based dan Algoritma Longest Common Subsequence (LCS)

Afzalurrahmah

Normalisasi Mikroteks Berbentuk Kontekstual Berbahasa Indonesia pada Twitter Menggunakan Dictionary-Based dan Algoritma Longest Common Subsequence (LCS)

dc.contributor.advisor	Gunawan, Dani
dc.contributor.advisor	Rahmat, Romi Fadillah
dc.contributor.author	Afzalurrahmah
dc.date.accessioned	2019-07-24T02:56:12Z
dc.date.available	2019-07-24T02:56:12Z
dc.date.issued	2019
dc.identifier.uri	http://repositori.usu.ac.id/handle/123456789/16147
dc.description.abstract	Twitter adalah salah satu media sosial berbentuk microblogging yang saat ini masih banyak digunakan. Microblogging adalah bentuk media sosial dimana penggunanya dapat berbagi informasi dalam bentuk teks dengan jumlah maksimal karakter yang lebih sedikit (mikroteks). Twitter memungkinkan pengguna untuk lebih sering berbagi informasi menggunakan teks pendek yang disebut tweet. Namun dengan keterbatasan jumlah karakter pada setiap tweet, yakni 280 karakter, membuat pengguna tidak bisa berbagi informasi dengan panjang, sehingga pengguna sering melakukan penyingkatan kata dalam setiap tweet. Pengguna yang menyingkat kata dalam tweet bertujuan agar informasi yang dibaginya dapat tersampaikan sepenuhnya walau dengan keterbatasan jumlah karakter. Penyingkatan kata seperti ini akan menyulitkan peneliti lainnya dalam mengolah data yang berasal dari Twitter. Oleh karena itu, diperlukan kemampuan dalam mengenali dan melakukan normalisasi dari kata-kata yang mengalami penyingkatan serta mengetahui makna kontekstual agar dapat memberikan makna yang tepat terhadap keseluruhan kalimat atau tweet tersebut. Normalisasi mikroteks pada penelitian ini menggunakan penerapan Dictionary-Based dan algoritma Longest Common Subsequence (LCS), serta Term Frequency dalam membantu algoritma LCS menentukan normalisasi yang tepat. Data yang digunakan pada penelitian ini sebanyak 400 tweets. Penelitian ini menghasilkan nilai akurasi normalisasi sebesar 94%, nilai presisi sebesar 95%, nilai recall sebesar 97%, dan nilai f-score sebesar 0.96.	en_US
dc.description.abstract	Twitter is one of the social media in the form of microblogging which is currently still widely used. Microblogging is a form of social media where users can share information in the form of text with a maximum number of characters that are fewer (proxy). Twitter allows users to be more often share information using short text called tweets. But with the limited number of characters in each tweet, which is 280 characters, it makes users unable to share information in length, so users often abbreviate words in each of their tweets. Users who abbreviate words in tweets aim for the information that they share can be conveyed fully even with limited number of characters. Shortening words will make it difficult for other researchers to process data from Twitter. Therefore, it is necessary to have the ability to recognize and normalize words that are shortened and to know contextual meanings so that they can give the correct meaning to the whole sentence or tweet. Normalization of microtext in this study uses the application of Dictionary-Based and Longest Common Subsequence algorithm, and Term Frequency helps LCS algorithm for determine the right normalization. The data used in this study were 400 tweets. This research resulted in normalization accuracy value of 94%, precision value of 95%, recall value of 97%, dan f-score value of 0.96.	en_US
dc.language.iso	id	en_US
dc.publisher	Universitas Sumatera Utara	en_US
dc.subject	Normalisasi Teks	en_US
dc.subject	Twitter	en_US
dc.subject	Longest Common Subsequence	en_US
dc.title	Normalisasi Mikroteks Berbentuk Kontekstual Berbahasa Indonesia pada Twitter Menggunakan Dictionary-Based dan Algoritma Longest Common Subsequence (LCS)	en_US
dc.type	Thesis	en_US
dc.identifier.nim	NIM141402023
dc.description.pages	73 Halaman	en_US
dc.description.type	Skripsi Sarjana	en_US

Files in this item

Name:: 141402023.pdf
Size:: 2.244Mb
Format:: PDF
Description:: Fulltext

View/Open

This item appears in the following Collection(s)

Undergraduate Theses [873]
Skripsi Sarjana

Show simple item record