Implementasi Stemming Porter KBBI Untuk Klasifikasi Topik Soal Ujian Nasional Bahasa Indonesia Menggunakan Algoritma Naive Bayes

Authors

  • A. Yudi Permana

DOI:

https://doi.org/10.37366/sigma.v8i3.126

Abstract

Abstraksi

Klasifikasi adalah pembagian sesuatu menurut kelas - kelas dan kategori kelasnya sudah ditentukan sebelumnya. Dalam hal ini soal ujian nasional akan diklasifikasikan dan dikelompokkan berdasarkan kategorinya sendiri secara otomatis. Soal ujian nasional bahasa indonesia secara manual dikelompokkan kedalam beberapa kategori topik. Pada penelitian ini akan ditentukan metode untuk preprocessing, stemming KBBI dan klasifikasi menggunakan algoritma Naive Bayes. Pengujian dilakukan menggunakan 805 soal ujian nasional bahasa indonesia yang sudah ditentukan sebelumnya. Dari 805 data set kemudian dibagi 2 bagian 600 soal untuk data set training dan 205 untuk soal testing. Hasil dari pengujian akhir penelitian tesis yang dilakukan menunjukkan bahwa dengan adanya proses case folding, tokenizing, stopword dan stemming porter bahasa indonesia dengan menentukan hasil akhir kata dasar yang sesuai dengan KBBI, sangat membantu dan menentukan proses klasifikasi soal ujian nasional dengan tingkat akurasi yang baik. Hasil training dengan metode preprocessing (case folding, tokenizing, stopword) dan stemming KBBI menghasilkan tingkat akurasi 95,5% dan hasil data testing menghasilkan tingkat akurasi 89,27%.

Kata kunci : Preprocessing, Case Folding, Tokenizing, StopWord, Stemming Porter Indonesia, Naïve Bayes, Klasifikasi.

Downloads

Published

2017-09-30