Analisis Perbandingan Kemiripan Teks Bahasa Daerah di Indonesia Menggunakan Algoritma Random Forest dan Support Vector Machine

Ummami, Fathimah Nur (2024) Analisis Perbandingan Kemiripan Teks Bahasa Daerah di Indonesia Menggunakan Algoritma Random Forest dan Support Vector Machine. Skripsi thesis, Universitas Tanjungpura.

	Text (Cover-Bab1) Cover-Bab1_D1041201063.pdf - Published Version Download (572kB)
	Text (D1041201063_FATHIMAH NUR UMMAMI) D1041201063_FATHIMAH NUR UMMAMI.pdf - Accepted Version Restricted to Repository staff only Download (3MB)

Abstract

Indonesia memiliki keberagaman bahasa daerah, termasuk di Kalimantan Barat yang terdiri dari beberapa bahasa daerah seperti bahasa Dayak Iban, Dayak Pesaguan, Melayu Pontianak, dan Melayu Sambas. Kemiripan bahasa dalam satu rumpun sering kali menyebabkan kesalahan klasifikasi dalam sistem pengenalan bahasa otomatis. Oleh karena itu, penelitian ini dilakukan bertujuan untuk membandingkan performa algoritma Random Forest dan Support Vector Machine (SVM) dalam mengklasifikasikan teks bahasa daerah serta mengidentifikasi tingkat kemiripan antar bahasa yang digunakan dalam penelitian. Metodologi yang diterapkan pada penelitian meliputi pengumpulan data dari korpus Nusantara, bahasa yang digunakan dalam penelitian ini yaitu bahasa Dayak Iban (997 data), bahasa Dayak Pesaguan (1603 data), bahasa Indonesia (9099 data), bahasa Melayu Pontianak ( 1747 data), dan bahasa Melayu Sambas (9099 data). Selanjutnya dilakukan pra-pemrosesan teks (cleaning, case folding, tokenisasi, dan vektorisasi TF-IDF), serta penanganan ketidakseimbangan data menggunakan teknik SMOTE. Model kemudian dikembangkan menggunakan dua pendekatan, yaitu data Non-SMOTE dan data SMOTE, dengan algoritma Random Forest dan SVM. Evaluasi model dilakukan dengan menggunakan heatmap confusion matrix untuk menganalisis kesalahan klasifikasi serta menghitung accuracy model. Hasil penelitian menunjukkan bahwa algoritma SVM (SMOTE) mencapai accuracy tertinggi sebesar 95,36%, sementara Random Forest (SMOTE) memperoleh accuracy sebesar 94,18%. Dari analisis kesalahan klasifikasi, ditemukan bahwa pasangan bahasa Indonesia dan Melayu Sambas memiliki tingkat kemiripan tertinggi sebesar 6,45%. Kesimpulannya, algoritma SVM (SMOTE) lebih baik dibandingkan Random Forest dalam mengklasifikasikan bahasa daerah di Kalimantan Barat.

Item Type:

Thesis (Skripsi)

Creators: