Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon

Jumlah opini di media sosial seperti Twitter tersebar luas sehingga tidak mungkin membaca semua opini untuk mendapatkan seluruh sentimen. Analisis sentimen merupakan salah satu metode untuk mengatasi masalah tersebut. Salah satu pendekatan dalam analisis sentimen adalah berbasis leksikon. Pendekatan...

Full description

Bibliographic Details
Main Authors: Feby Tri Saputra, Yani Nurhadryani, Sony Hartono Wijaya, Defina Defina
Format: Article
Language:Indonesian
Published: University of Brawijaya 2021-02-01
Series:Jurnal Teknologi Informasi dan Ilmu Komputer
Online Access:http://jtiik.ub.ac.id/index.php/jtiik/article/view/4133
id doaj-a049a7957cea4024957a1d08ae02868a
record_format Article
spelling doaj-a049a7957cea4024957a1d08ae02868a2021-02-04T07:18:54ZindUniversity of BrawijayaJurnal Teknologi Informasi dan Ilmu Komputer2355-76992528-65792021-02-018113514610.25126/jtiik.0814133679Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis LeksikonFeby Tri Saputra0Yani Nurhadryani1Sony Hartono Wijaya2Defina Defina3Institut Pertanian BogorInstitut Pertanian BogorInstitut Pertanian BogorInstitut Pertanian BogorJumlah opini di media sosial seperti Twitter tersebar luas sehingga tidak mungkin membaca semua opini untuk mendapatkan seluruh sentimen. Analisis sentimen merupakan salah satu metode untuk mengatasi masalah tersebut. Salah satu pendekatan dalam analisis sentimen adalah berbasis leksikon. Pendekatan berbasis leksikon dapat menghasilkan performa yang baik pada lintas topik pembicaraan tanpa memerlukan pelatihan data. Namun, pendekatan berbasis leksikon sangat bergantung pada kelengkapan dan keragaman sentimen leksikon. Selain itu, hubungan antarkata sangat penting untuk diperhatikan karena dapat mengubah polaritas sentimen pada teks. Hubungan antarkata dapat direpresentasikan dengan baik menggunakan struktur tree. Penelitian ini menggunakan struktur tree sebagai interpretasi hubungan antarkata dalam pembentukan kalimat dengan menambahan kata ke dalam sentimen leksikon. Metode berbasis tree diujikan pada data dengan lintas topik seperti data twit Pilgub Jabar 2018, Pilpres 2019, dan pandemik COVID-19. Ketiga data uji memiliki proporsi kelas yang tidak seimbang, dengan kelas terbanyak merupakan kelas positif. Metode berbasis tree menghasilkan akurasi sebesar 64,97% (meningkat 1,26%) pada data Pilgub Jabar 2018, 64,33% (meningkat 11,41%) pada data Pilpres 2019, dan 66,24% (meningkat 7,61%) pada data pandemik COVID-19. Metode berbasis tree dapat menghasilkan akurasi yang stabil pada beberapa lintas topik dibuktikan dengan standar deviasi akurasi yang kecil (0,97%) bahkan lebih kecil dari metode tanpa tree (5,4%). Metode berbasis tree dapat meningkatkan weighted f1-measure pada data Pilpres 2019 sebesar 10,45% dan data pandemik COVID-19 sebesar 8,1%, sedangkan hasil pada data Pilgub 2018 tidak berbeda secara signifikan. Hasil akurasi dan weighted f1-measure memiliki selisih yang kecil sehingga pengukuran akurasi valid dan tidak bias terhadap data tidak seimbang.   Abstract The number of opinions on social media like Twitter is so widespread that it's impossible to read all those opinions to get all the sentiments. Sentiment analysis is one of the methods that could overcome this problem. The lexicon-based approach is one of the sentiment analysis approaches which perform well across data topics without training. However, the lexicon-based approach relies heavily on the completeness and diversity of sentiment lexicons. The relationship between words is important because it could change the sentiment polarity in the text. The tree structure could represent the relationship between words well. This study uses a tree structure as an interpretation of the relationship between words in a sentence. The tree structure is constructed by adding words to the lexicon sentiment. The tree-based method is tested on cross-topic data such as the tweet data of the 2018 West Java Governor Election, the 2019 Presidential Election, and the COVID-19 pandemic. All data used has an unbalanced class proportion, with the positive class being dominant. The accuracy results of the tree-based method on all data consecutively are 64.97% (increased by 1.26%), 64.33% (increased by 11.41%), and 66.24% (increased by 7.61%). The tree-based method produce stable accuracy on several topics proved by the small accuracies standard deviation (0.97%) that even smaller than the non-tree method (5.4%). The weighted f1-measure increases of the tree-based method on all data consecutively are 0% (equal), 10.45%, and 8.1%. The small difference between the weighted f1-measure and accuracy concludes that the accuracy resulted is valid.http://jtiik.ub.ac.id/index.php/jtiik/article/view/4133
collection DOAJ
language Indonesian
format Article
sources DOAJ
author Feby Tri Saputra
Yani Nurhadryani
Sony Hartono Wijaya
Defina Defina
spellingShingle Feby Tri Saputra
Yani Nurhadryani
Sony Hartono Wijaya
Defina Defina
Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
Jurnal Teknologi Informasi dan Ilmu Komputer
author_facet Feby Tri Saputra
Yani Nurhadryani
Sony Hartono Wijaya
Defina Defina
author_sort Feby Tri Saputra
title Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
title_short Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
title_full Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
title_fullStr Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
title_full_unstemmed Analisis Sentimen Bahasa Indonesia pada Twitter Menggunakan Struktur Tree Berbasis Leksikon
title_sort analisis sentimen bahasa indonesia pada twitter menggunakan struktur tree berbasis leksikon
publisher University of Brawijaya
series Jurnal Teknologi Informasi dan Ilmu Komputer
issn 2355-7699
2528-6579
publishDate 2021-02-01
description Jumlah opini di media sosial seperti Twitter tersebar luas sehingga tidak mungkin membaca semua opini untuk mendapatkan seluruh sentimen. Analisis sentimen merupakan salah satu metode untuk mengatasi masalah tersebut. Salah satu pendekatan dalam analisis sentimen adalah berbasis leksikon. Pendekatan berbasis leksikon dapat menghasilkan performa yang baik pada lintas topik pembicaraan tanpa memerlukan pelatihan data. Namun, pendekatan berbasis leksikon sangat bergantung pada kelengkapan dan keragaman sentimen leksikon. Selain itu, hubungan antarkata sangat penting untuk diperhatikan karena dapat mengubah polaritas sentimen pada teks. Hubungan antarkata dapat direpresentasikan dengan baik menggunakan struktur tree. Penelitian ini menggunakan struktur tree sebagai interpretasi hubungan antarkata dalam pembentukan kalimat dengan menambahan kata ke dalam sentimen leksikon. Metode berbasis tree diujikan pada data dengan lintas topik seperti data twit Pilgub Jabar 2018, Pilpres 2019, dan pandemik COVID-19. Ketiga data uji memiliki proporsi kelas yang tidak seimbang, dengan kelas terbanyak merupakan kelas positif. Metode berbasis tree menghasilkan akurasi sebesar 64,97% (meningkat 1,26%) pada data Pilgub Jabar 2018, 64,33% (meningkat 11,41%) pada data Pilpres 2019, dan 66,24% (meningkat 7,61%) pada data pandemik COVID-19. Metode berbasis tree dapat menghasilkan akurasi yang stabil pada beberapa lintas topik dibuktikan dengan standar deviasi akurasi yang kecil (0,97%) bahkan lebih kecil dari metode tanpa tree (5,4%). Metode berbasis tree dapat meningkatkan weighted f1-measure pada data Pilpres 2019 sebesar 10,45% dan data pandemik COVID-19 sebesar 8,1%, sedangkan hasil pada data Pilgub 2018 tidak berbeda secara signifikan. Hasil akurasi dan weighted f1-measure memiliki selisih yang kecil sehingga pengukuran akurasi valid dan tidak bias terhadap data tidak seimbang.   Abstract The number of opinions on social media like Twitter is so widespread that it's impossible to read all those opinions to get all the sentiments. Sentiment analysis is one of the methods that could overcome this problem. The lexicon-based approach is one of the sentiment analysis approaches which perform well across data topics without training. However, the lexicon-based approach relies heavily on the completeness and diversity of sentiment lexicons. The relationship between words is important because it could change the sentiment polarity in the text. The tree structure could represent the relationship between words well. This study uses a tree structure as an interpretation of the relationship between words in a sentence. The tree structure is constructed by adding words to the lexicon sentiment. The tree-based method is tested on cross-topic data such as the tweet data of the 2018 West Java Governor Election, the 2019 Presidential Election, and the COVID-19 pandemic. All data used has an unbalanced class proportion, with the positive class being dominant. The accuracy results of the tree-based method on all data consecutively are 64.97% (increased by 1.26%), 64.33% (increased by 11.41%), and 66.24% (increased by 7.61%). The tree-based method produce stable accuracy on several topics proved by the small accuracies standard deviation (0.97%) that even smaller than the non-tree method (5.4%). The weighted f1-measure increases of the tree-based method on all data consecutively are 0% (equal), 10.45%, and 8.1%. The small difference between the weighted f1-measure and accuracy concludes that the accuracy resulted is valid.
url http://jtiik.ub.ac.id/index.php/jtiik/article/view/4133
work_keys_str_mv AT febytrisaputra analisissentimenbahasaindonesiapadatwittermenggunakanstrukturtreeberbasisleksikon
AT yaninurhadryani analisissentimenbahasaindonesiapadatwittermenggunakanstrukturtreeberbasisleksikon
AT sonyhartonowijaya analisissentimenbahasaindonesiapadatwittermenggunakanstrukturtreeberbasisleksikon
AT definadefina analisissentimenbahasaindonesiapadatwittermenggunakanstrukturtreeberbasisleksikon
_version_ 1724285396704034816