Text
Prominent Feature Extraction for Sentiment Analysis
Bidang analisis sentimen telah muncul sebagai arah penelitian penting dengan banyak penerapan di dunia nyata. Memahami opini dan sentimen masyarakat terhadap entitas seperti produk dan layanan sangat penting untuk pengambilan keputusan. Dengan menjamurnya situs ulasan online, blog, forum, dan platform media sosial, terdapat banyak sekali data buatan pengguna yang tersedia di web. Menganalisis dan memahami data ini menjadi penting untuk berbagai tujuan, termasuk meningkatkan produk dan layanan berdasarkan masukan pelanggan. Dua pendekatan utama telah digunakan dalam analisis sentimen: pembelajaran mesin dan orientasi semantik. Pendekatan pembelajaran mesin menghadapi tantangan seperti vektor fitur berdimensi tinggi yang berisi fitur-fitur yang berisik dan tidak relevan, serta masalah ketersebaran data. Pendekatan orientasi semantik yang mengandalkan metode berbasis korpus atau berbasis leksikon juga memiliki keterbatasan, antara lain ketergantungan domain dan konteks. Tujuan buku ini adalah untuk meningkatkan model analisis sentimen dengan menggabungkan pengetahuan semantik, sintaksis, dan akal sehat. Ini mengusulkan metode ekstraksi konsep semantik yang memanfaatkan hubungan ketergantungan antar kata untuk mengekstrak fitur dari teks. Dengan menggabungkan pengetahuan semantik dan akal sehat, pendekatan ini bertujuan untuk meningkatkan pemahaman teks. Selain itu, buku ini menyajikan metode untuk mengekstraksi fitur-fitur penting dari teks tidak terstruktur, mengurangi dimensi, dan mengatasi ketersebaran data. Temuan utama buku ini meliputi: 1. Kinerja analisis sentimen dapat ditingkatkan dengan mengurangi redundansi antar fitur menggunakan teknik seperti pemilihan fitur minimum Redundancy-Maximum Relevance (mRMR). 2. Algoritma Boolean Multinomial Naive Bayes (BMNB) dengan pemilihan fitur mRMR mengungguli pengklasifikasi Support Vector Machine (SVM). 3. Pengelompokan fitur semantik membantu meringankan masalah ketersebaran data dan meningkatkan kinerja analisis sentimen. 4. Hubungan semantik antar kata, seperti yang ditangkap oleh pengetahuan akal sehat seperti ontologi ConceptNet, berkontribusi pada pemahaman teks dan kinerja analisis sentimen yang lebih baik. 5. Mempertimbangkan pentingnya fitur sehubungan dengan domain akan meningkatkan kinerja analisis sentimen. 6. Memisahkan fitur multi-kata meningkatkan kinerja analisis sentimen, khususnya untuk domain dengan kumpulan data berlabel terbatas. Buku ini melakukan eksperimen pada empat kumpulan data standar, termasuk kumpulan data ulasan film dan produk dari Cornell University dan Amazon. Hasil percobaan menunjukkan keefektifan metode yang diusulkan dibandingkan dengan pendekatan mutakhir.
No copy data
No other version available