Analisis Pengaruh Penerapan Stopword Removal dan Grid Search (Tuning Hyperparameter) Pada Performa Klasifikasi Sentimen Tweet Bahasa Indonesia

Angelina, Sherren Jessica (2023) Analisis Pengaruh Penerapan Stopword Removal dan Grid Search (Tuning Hyperparameter) Pada Performa Klasifikasi Sentimen Tweet Bahasa Indonesia. Skripsi thesis, Universitas Tanjungpura.

[img] Text (Cover-Bab1)
Cover-Bab1_D1041161003.pdf - Updated Version

Download (651kB)
[img] Text (D1041161003_SHERREN JESSICA ANGELINA)
D1041161003_SHERREN JESSICA ANGELINA.pdf - Accepted Version
Restricted to Repository staff only

Download (9MB)

Abstract

Melalui tweet pada Twitter didapatkanlah berbagai informasi, salah satunya sentimen / pendapat yang bisa dijadikan acuan timbal balik respon masyarakat terkait suatu hal. Sentimen atau pendapat dapat berupakan sentimen bersifat positif, netral dan negatif, yang bisa didapatkan melalui analisis sentimen atau opinion mining, yaitu sebuah metode penganalisa teks berbasis komputasi. Tujuan penelitian ini adalah menghasilkan model klasifikasi yang memiliki performa terbaik dalam mengklasifikasikan sentimen pada tweet Bahasa Indonesia dan mengetahui pengaruh penerapan Stopword Removal, SMOTE dan Grid Search (Tuning Hyperparameter) dalam membangun model klasifikasi sentimen analisis. Algoritma yang digunakan pada penelitian ini adalah Logistic Regression dan Random Forest. Berdasarkan hasil evaluasi yang dilakukan, diketahui bahwa pengimplementasian Tuning Hyperparameter (Grid Search) dan SMOTE pada algoritma Logistic Regression dan Random Forest, menghasilkan nilai f1-score dan peningkatan nilai f1-score setiap skenario terhadap skenario default tertinggi, yaitu sebesar 72.70% dan +1.20% untuk Logistic Regression dan sebesar 75.03% dan +6.77 untuk Random Forest. Oleh karena itu model klasifikasi terbaik pada penelitian ini adalah pada pengimplementasian algoritma Random Forest disertai Tuning Hyperparameter (Grid Search) dan SMOTE dengan nilai f1-score sebsar 75.03%. Kemudian untuk nilai f1-score dan peningkatan nilai f1-score skenario terhadap skenario default terendah, pada algoritma Logistic Regression adalah dengan pengimplementasian Stopword Removal dan SMOTE yaitu sebesar 68.60% dan -2.90% dan pada algoritma Random Forest adalah dengan pengimplementasian Stopword Removal yaitu sebesar 68.09% dan -0.17%. Oleh karena itu model klasifikasi terburuk pada penelitian ini adalah pada pengimplementasian algoritma Random Forest disertai Stopword Removal dengan nilai f1-score sebesar 68.09%. Penerapan Stopword Removal pada kedua algoritma, memberikan pengaruh kurang baik berupa penurunan nilai f1-score yang dihasilkan. Penurunan nilai f1-score ini dikarena Stopword Removal dapat mengurangi informasi dan mengubah makna tweet yang diolah sehingga tweet tersebut kehilangan sentimennya. Selain itu penerapan stoplist NLTK yang digunakan untuk melakukan Stopword Removal pada penelitian ini lebih bekerja optimal pada pengklasifikasian dokumen dibandingkan sentimen. Untuk penerapan Tuning Hyperparameter (Grid Search) dan SMOTE pada kedua algoritma, memberikan pengaruh yang baik berupa peningkatan nilai f1-score yang dihasilkan. Peningkatan nilai f1-score terjadi dikarenakan telah dioptimalkannya hyperparameter yang digunakan dan diseimbangkannya jumlah data antar kelas dalam dataset.

Item Type: Thesis (Skripsi)
Creators:
CreatorsNomor Induk Mahasiswa (NIM)Email
Angelina, Sherren JessicaNIMD1041161003UNSPECIFIED
Subjects: 000 - Komputer, Informasi dan Referensi Umum > 000 Ilmu komputer, ilmu pengetahuan dan sistem-sistem > 005 Pemrograman komputer, program dan data
Divisions: Fakultas Teknik > Teknik Informatika S1
Depositing User: Robiatul Adawiyah
Date Deposited: 31 Jul 2025 08:53
Last Modified: 31 Jul 2025 08:53
URI: http://36.95.239.66/id/eprint/3245

Actions (login required)

View Item View Item