dc.contributor.advisor | Gunawan, Dani | |
dc.contributor.advisor | Rahmat, Romi Fadillah | |
dc.contributor.author | Afzalurrahmah | |
dc.date.accessioned | 2019-07-24T02:56:12Z | |
dc.date.available | 2019-07-24T02:56:12Z | |
dc.date.issued | 2019 | |
dc.identifier.uri | http://repositori.usu.ac.id/handle/123456789/16147 | |
dc.description.abstract | Twitter adalah salah satu media sosial berbentuk microblogging yang saat ini masih banyak digunakan. Microblogging adalah bentuk media sosial dimana penggunanya dapat berbagi informasi dalam bentuk teks dengan jumlah maksimal karakter yang lebih sedikit (mikroteks). Twitter memungkinkan pengguna untuk lebih sering berbagi informasi menggunakan teks pendek yang disebut tweet. Namun dengan keterbatasan jumlah karakter pada setiap tweet, yakni 280 karakter, membuat pengguna tidak bisa berbagi informasi dengan panjang, sehingga pengguna sering melakukan penyingkatan kata dalam setiap tweet. Pengguna yang menyingkat kata dalam tweet bertujuan agar informasi yang dibaginya dapat tersampaikan sepenuhnya walau dengan keterbatasan jumlah karakter. Penyingkatan kata seperti ini akan menyulitkan peneliti lainnya dalam mengolah data yang berasal dari Twitter. Oleh karena itu, diperlukan kemampuan dalam mengenali dan melakukan normalisasi dari kata-kata yang mengalami penyingkatan serta mengetahui makna kontekstual agar dapat memberikan makna yang tepat terhadap keseluruhan kalimat atau tweet tersebut. Normalisasi mikroteks pada penelitian ini menggunakan penerapan Dictionary-Based dan algoritma Longest Common Subsequence (LCS), serta Term Frequency dalam membantu algoritma LCS menentukan normalisasi yang tepat. Data yang digunakan pada penelitian ini sebanyak 400 tweets. Penelitian ini menghasilkan nilai akurasi normalisasi sebesar 94%, nilai presisi sebesar 95%, nilai recall sebesar 97%, dan nilai f-score sebesar 0.96. | en_US |
dc.description.abstract | Twitter is one of the social media in the form of microblogging which is currently still widely used. Microblogging is a form of social media where users can share information in the form of text with a maximum number of characters that are fewer (proxy). Twitter allows users to be more often share information using short text called tweets. But with the limited number of characters in each tweet, which is 280 characters, it makes users unable to share information in length, so users often abbreviate words in each of their tweets. Users who abbreviate words in tweets aim for the information that they share can be conveyed fully even with limited number of characters. Shortening words will make it difficult for other researchers to process data from Twitter. Therefore, it is necessary to have the ability to recognize and normalize words that are shortened and to know contextual meanings so that they can give the correct meaning to the whole sentence or tweet. Normalization of microtext in this study uses the application of Dictionary-Based and Longest Common Subsequence algorithm, and Term Frequency helps LCS algorithm for determine the right normalization. The data used in this study were 400 tweets. This research resulted in normalization accuracy value of 94%, precision value of 95%, recall value of 97%, dan f-score value of 0.96. | en_US |
dc.language.iso | id | en_US |
dc.publisher | Universitas Sumatera Utara | en_US |
dc.subject | Normalisasi Teks | en_US |
dc.subject | Twitter | en_US |
dc.subject | Longest Common Subsequence | en_US |
dc.title | Normalisasi Mikroteks Berbentuk Kontekstual Berbahasa Indonesia pada Twitter Menggunakan Dictionary-Based dan Algoritma Longest Common Subsequence (LCS) | en_US |
dc.type | Thesis | en_US |
dc.identifier.nim | NIM141402023 | |
dc.description.pages | 73 Halaman | en_US |
dc.description.type | Skripsi Sarjana | en_US |