Pembangkitan Korpus Data Wicara Bahasa Batak Toba Menggunakan Pendekatan Hidden Markov Model
View/ Open
Date
2021Author
Pratama, Muhammad Wahyu
Advisor(s)
Aulia, Indra
Rahmat, Romi Fadillah
Metadata
Show full item recordAbstract
Pada era kemajuan teknologi 4.0, keberlangsungan dalam berkomunikasi antar bahasa tidak sesulit sebelumnya sebab adanya konsep yang berbasis elektronik dimana tidak mengharuskan mencari kamus ataupun buku bahasa untuk dijadikan acuan berbahasa. Dengan kata lain, seseorang dapat dengan mudah menggunakan teknologi kebahasaan tersebut dengan cara cukup melakukan instalasi pada smartphone masing-masing. Salah satu teknologi kebahasaan yang familiar dijumpai yaitu sistem penerjemahan. Namun, dari kemudahan tersebut menghasilkan sebuah permasalahan serius dalam sistem penerjemahan, yaitu kurang kayanya sebuah data bahasa atau biasa disebut dengan corpus. Pada saat ini, corpus yang tersedia dalam Bahasa daerah di Indonesia hanya Bahasa Sunda dan Jawa saja dan tidak ada Bahasa Batak terutama Batak Toba. Oleh karena itu, penulis melakukan pembuatan speech corpus dengan tujuan utama untuk digunakan pada sebuah translasi yang dikhususkan pada bahasa batak toba dengan metode Hidden Markov Model. Metode Hidden Markov Model digunakan untuk memodelkan sekaligus memberikan akurasi kepada kata yang telah dimodelkan sehingga kata yang digunakan untuk proses terjemahan menjadi akurat. Metode ini juga dikombinasikan dengan Gaussian Mixture Model untuk membantu metode ini memodelkan kata yang digunakan menjadi lebih baik. Akurasi tertinggi yang didapatkan dengan kombinasi kedua metode tersebut sebesar 100% dan dengan nilai Mean Absolute Percentage Error sebesar 0% untuk evaluasi model dari data audio yang telah di latih serta untuk percobaan didapatkan 43,33% dari nilai Word Recognition Rate berdasarkan 10 narasumber yang berbeda. In the era of technological advancement 4.0, continuity in communicating between languages is not as difficult as before because there are electronic-based concepts which do not require looking for dictionaries or language books to be used as language references. In other words, one can easily use the language technology by simply installing it on their respective smartphones. One of the familiar language technologies found is the translation system. However, this convenience results in a serious problem in the translation system, namely the lack of rich language data or commonly known as corpus. At this time, the corpus available in regional languages in Indonesia is only Sundanese and Javanese and there is no Batak language, especially Toba Batak. Therefore, the author made a speech corpus with the main aim of being used in a translation that is devoted to the Batak Toba language with the Hidden Markov Model method. The Hidden Markov Model method is used to model as well as provide accuracy to the words that have been modeled so that the words used for the translation process are accurate. This method is also combined with the Gaussian Mixture Model to help this method model the words used to be better. The highest accuracy obtained by the combination of the two methods is 100% and the Mean Absolute Percentage Error value is 0% for the evaluation of the model from the audio data that has been trained and for the experiment, it was obtained 43.33% of the Word Recognition Rate value based on 10 different sources.
Collections
- Undergraduate Theses [797]