Klasifikasi Keluhan Pelanggan Berdasarkan Tweet Menggunakan Metode SVM

of 7

Please download to get full document.

View again

All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
PDF
7 pages
1 downs
145 views
Share
Description
Pemanfaatan twitter sebagai layanan customer Survei yang dilakukan oleh Aberden Group pada 170 serevice perusahaan sudah mulai banyak digunakan, tak terkecuali Speedy.
Transcript
  • 1. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol. 1, No. 2, (2015) 53 Abstrak—Pemanfaatan twitter sebagai layanan customer serevice perusahaan sudah mulai banyak digunakan, tak terkecuali Speedy. Mekanisme yang ada saat ini untuk proses klasifikasi bentuk dan jenis keluhan serta informasi tentang jumlah keluhan lewat twitter masih dilakukan secara manual. Belum lagi data twitter yang bersifat tidak terstruktur tentunya akan menyulitkan untuk dilakukan analisa dan penggalian informasi dari data tersebut. Berdasarkan permasalahan tersebut, penelitian ini bertujuan untuk memproses data teks dari tweet pengguna twitter yang masuk ke akun @TelkomSpeedy untuk diolah menjadi informasi. Informasi tersebut nantinya digunakan untuk klasifikasi bentuk dan jenis keluhan. Merujuk pada beberapa penelitian terkait, salah satu metode klasifikasi yang paling baik untuk digunakan adalah metode Support Vector Machine (SVM). Konsep dari SVM dapat dijelaskan secara sederhana sebagai usaha mencari hyperplane yang dapat memisahkan dataset sesuai dengan kelasnya. Kelas yang digunakan dalam penelitian kali ini berdasarkan topik keluhan pelanggan yaitu billing, pemasangan/instalasi, putus (disconnect), dan lambat. Faktor penting lainnya dalam hal klasifikasi adalah penentuan feature atau atribut kata yang akan digunakan. Metode feature selection yang digunakan pada penlitian ini adalah term frequency (TF), document frequency (DF), information gain, dan chi-square. Pada penelitian ini juga dilakukan metode penggabungan feature yang telah dihasilkan dari beberapa metode feature selection sebelumnya. Dari hasil penelitian menunjukan bahwa SVM mampu melakukan klasifikasi keluhan dengan baik, hal ini dibuktikan dengan akurasi 82,50% untuk klasifikasi bentuk keluhan dan 86,67% untuk klasifikasi jenis keluhan. Sedangkan untuk kombinasi penggunaan feature dapat meningkatkan akurasi menjadi 83,33% untuk bentuk keluhan dan 89,17% untuk jenis keluhan. Kata Kunci—customer service, klasifikasi topik keluhan, penggabungan feature, support vector machine I. PENDAHULUAN witter dimanfaatkan untuk berbagai hal, dari sekedar berbagi hal pribadi sampai mendapatkan referensi suatu produk yang ingin dibeli. Pada umumnya, follower suatu brand atau produk berharap untuk mendapatkan informasi tentang produk tersebut dan layanan lainnya dari media sosial sebelum mereka memutuskan untuk membelinya. Oleh karena itu, terdapat dua entry point pemanfaatan Twitter yang paling sering digunakan oleh suatu perusahaan, pertama adalah penggunaan media sosial untuk marketing effort (promo, campaign, dan sebagainya) dan yang kedua adalah penggunaan media sosial untuk layanan pelanggan (customer services) [1]. Survei yang dilakukan oleh Aberden Group pada 170 perusahaan menunjukan sekitar 40% perusahaan menggunakan jalur media sosial sebagai layanan customer service dan support bagi konsumen mereka. Masih pada survei yang sama dengan pembahasan tools yang digunakan untuk customer service, hasil survei menunjukan facebook page menjadi tools yang paling banyak digunakan sebesar 73%, kemudian blog atau website sebesar 59%, sedangkan untuk twitter sendiri sekitar 51%. Hal ini menunjukan pemanfaatan twitter sebagai sarana customer service sudah mulai banyak dilirik oleh perusahaan [2]. Saat ini memang sudah banyak tools yang digunakan untuk sosial media analysis. Namun, kebanyakan dari aplikasi tersebut masih berfokus pada marketing tools untuk melihat sejauh mana brand mereka diketahui atau diperbincangkan di media sosial [3]. Pada umumnya perusahaan membuat suatu divisi khusus yang mengurusi media sosial. Disana terdapat beberapa orang yang online untuk membalas satu persatu mention yang masuk ke akun twitter perusahaan [4]. Hal ini tentunya menjadi suatu proses yang tidak efisien terutama dalam hal time respond. Sebuah survei di Amerika Serikat yang dilakukan oleh A. T. Kearney menunjukkan bahwa 55% pelanggan menginginkan komentar atau pertanyaannya dibalas saat itu juga atau setidaknya pada hari yang sama [5]. Belum lagi kesulitan yang dihadapi untuk menghasilkan analisa atau informasi tentang kinerja layanan tersebut. Data yang berasal dari twitter bersifat tidak terstruktur dan mengandung banyak noise. Dibutuhkan suatu tools untuk memproses data tersebut menjadi data terstruktur sehingga nantinya dapat menghasilkan informasi yang berguna. Penelitian kali ini bertujuan untuk menghasilkan tools yang dapat melakukan proses klasifikasi bentuk keluhan dan jenis keluhan secara otomatis dari data twitter. Tools ini nantinya akan mampu melakukan klasifikasi mana yang merupakan bentuk keluhan dan bukan keluhan dari setiap mention yang masuk pada suatu account Twitter. Dari daftar keluhan atau pertanyaan konsumen tersebut, akan dilakukan proses klasifikasi untuk mengelompokan jenis keluhan atau pertanyaan yang disampaikan oleh konsumen. Tools ini juga menampilkan informasi tentang jumlah keluhan dan jumlah konsumen yang menyampaikan keluhan. Penelitian kali ini akan dilakukan pada layanan customer service akun twitter dari @TelkomSpeedy. Mekanisme yang ada saat ini untuk penanganan keluhan lewat sosial media menggunakan notifikasi email untuk melihat setiap mention yang masuk. Proses klasifikasi keluhan, informasi jumlah keluhan, dan jumlah pelanggan yang menyampaikan keluhan masih Klasifikasi Topik Keluhan Pelanggan Berdasarkan Tweet dengan Menggunakan Penggabungan Feature Hasil Ekstraksi pada Metode Support Vector Machine (SVM) Enda Esyudha Pratama1 , Bambang Riyanto Trilaksono2 1,2 Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung e-mail: endaesyudha@gmail.com, briyanto@lssk.ee.itb.ac.id T
  • 2. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol. 1, No. 2, (2015) 54 dilakukan secara manual. Dengan adanya penelitian kali ini diharapkan dapat memberikan informasi tentang keluhan pelanggan secara lebih akurat dan menentukan langkah strategis untuk penanganan keluhan tersebut yang nantinya berdampak pada peningkatan kualitas layanan customer service. Metode klasifikasi yang digunakan pada penelitian kali ini adalah algoritma Support Vector Machine (SVM). Berdasarkan penelitian yang dilakukan oleh Aqsath, algoritma SVM memiliki tingkat akurasi paling tinggi sebesar 87% dalam hal klasifikasi teks. Oleh karena itu, pada penelitian kali ini metode klasifikasi teks menggunakan algoritma SVM [6]. II. DASAR TEORI A. Pemanfaatan Twitter Sebagai Customer Service Media sosial saat ini telah mengubah cara orang melakukan bisnis. Pelanggan dan pemilik bisnis memiliki pilihan lebih dari sebelumnya. Bahkan banyak orang melakukan keluhan lewat media sosial, baik itu di Twitter maupun Facebook. Media sosial menjadi bagian penting dari budaya bisnis, maka menggunakan media sosial untuk layanan pelanggan adalah perpindahan dari sebuah konsep menuju kebutuhan pasar [7]. Saat ini, sebuah keluhan dari pelanggan di media sosial dapat berpengaruh dan memberi efek yang besar pada reputasi perusahaan. Lebih lanjut lagi, percakapan di media sosial juga dapat digunakan sebagai sistem peringatan awal untuk isu yang berkembang sekitar produk dan layanan perusahaan. Survei Avaya Asia Pacific Customer Experience Index menemukan data tentang konsumen di Asia Pasifik semakin menyukai komunikasi multi-saluran dalam layanan pelanggan. Tercatat 75% konsumen lebih menyukai dukungan layanan pelanggan diberikan melalui beberapa saluran, naik dari 60% dibandingkan 2012. Hal ini menunjukkan bahwa perusahaan- perusahan saat ini harus segera memiliki strategi pengalaman pelanggan multi-saluran yang lengkap [8]. B. Support Vector Machine (SVM) Support Vector Machine (SVM) adalah sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi linier dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik. Prinsip dasar SVM adalah pengklasifikasi linier, dan selanjutnya dikembangkan agar dapat bekerja pada permasalahan nonlinier. dengan memasukkan konsep kernel trick pada ruang kerja berdimensi tinggi. Perkembangan ini memberikan minat penelitian di bidang pengenalan pola untuk investigasi potensi kemampuan SVM secara teoritis maupun dari segi aplikasi [9]. Linearly separable data merupakan data yang dapat dipisahkan secara linear. Misalkan xi { xn, …., x1 } adalah dataset dan yi  {+1,-1} adalah label kelas dari data xi. Fungsi yang digunakan untuk memisahkan kelas adalah dengan menggunakan fungsi linear, dimana fungsi tersebut didefenisikan sebagai berikut: g(x) = sign (f(x)) dengan f(x)=(wT x+b) (1) dimana, w = normal bidang b = posisi bidang relatif terhadap pusat koordinat Untuk pencarian bidang pemisah terbaik dengan nilai margin terbesar dapat dirumuskan menjadi masalah optimasi constraint SVM untuk kasus klasifikasi linear dalam primal space, yaitu: (2) dimana, xi = data input yi = output dari xi Pada persamaan optimasi constraint untuk meminimalkan fungsi objektif 1/2||w||2 atau memaksimalkan wT w yaitu dengan memperhatikan pembatas yi(xi· w + b) ≥ 1. Bila output data yi = +1, maka pembatas menjadi (xi.w + b) ≥ 1, sebaliknya yi = - 1, maka pembatas menjadi (xi.w + b) ≤ 1. Dalam beberapa kasus, terdapat beberapa data yang tidak dapat diklasifikasikan secara benar (infeasible), maka dapat dinyatakan melalui persamaan berikut, (3) Nilai C (Complexity) adalah nilai yang dipilih sebelum dilakukan optimasi dengan proses Quadratic Programming. Nilai C memiliki rentang antara nol sampai positif tak hingga (0 < C < ∞). Tujuan adanya nilai C (Complexity) adalah untuk meminimalkan error dan memperkecil nilai slack variabel. Jika nilai C mendekati nol, maka lebar margin pada bidang pembatas menjadi maksimum dan jumlah data yang dilatih yang berada dalam margin atau yang ada posisi yang salah tidak akan dipedulikan. Hal ini berarti akan mengurangi tingkat akurasi pada proses training, sehingga mengakibatkan data uji tidak dapat diklasifikasikan dengan baik. Dalam kasus machine learning, kernel trick merupakan metode yang menggunakan algoritma linier classifier untuk menyelesaikan permasalahan nonlinier dengan cara memetakkan dimensi input ke ruang dimensi yang lebih tinggi, sehingga membuat linier classifier di ruang dimensi yang baru setara dengan non linear classifier di ruang dimensi asli. Dengan kernel, fungsi pemetaan tidak pernah dihitung secara explisit, karena ruang dimensi tinggi yang digunakan memungkinkan pada dimensi yang tak terbatas. Menurut Hsu[10], berikut ini adalah beberapa fungsi kernel yang umum digunakan antara lain:
  • 3. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol. 1, No. 2, (2015) 55 Linear : K(xi , xj) = Polynomial : K(xi , xj) = ( + r)d ,  > 0 RBF : K(xi , xj) = exp > 0 Sigmod : K(xi , xj) = tanh( . ) C. Penelitian Terkait Penelitian tentang pemanfaatan twitter untuk berbagai macam kebutuhan telah banyak dilakukan sebelumnya. Zhichao dalam penelitiannya menunjukan dampak dari pemanfaatan sosial media pada layanan pelanggan terhadap kepuasan pelanggan. Dalam penelitiannya, setiap akun sosial media dari tiap pelanggan di kelompokan (profiling) berdasarkan parameter tertentu seperti jenis kelamin, umur, dan sebagainya [11]. Zhiheng dalam penelitiannya yang berjudul Discovering User Interest on Twitter with a Modified Author-Topic Model mencoba menemukan ketertarikan seseorang (user interest) berdasarkan tweet yang dihasilkan [12]. Hasil dari penelitiannya menunjukan tweet yang dihasilkan dari user memiliki pengaruh yang besar dan sangat berkaitan dengan interest dari user tersebut. Penelitian lainnya yang dilakukan oleh Finin, dimana dia memprediksi tentang suatu kejadian (event) yang sedang terjadi berdasarkan data yang diambil dari twitter. Hal ini menunjukan pula tentang pemanfaatan data dari twitter dapat dijadikan kumpulan dataset yang akurat [13]. Aqsath telah melakukan penelitian untuk sentiment classification dengan menggunakan data twitter untuk tweet yang berbahasa Indonesia. Metode yang digunakan untuk feature selection yaitu kamus kata (dictionary) sedangkan untuk metode klasifikasi yang digunakan Support Vector Machine (SVM). Klasifikasi kelas yang digunakan yaitu netral, positif, dan negatif. Penelitian tersebut menunjukan tingkat akurasi algoritma SVM sebesar 86,66% [6]. Algoritma SVM juga memiliki kinerja yang baik dalam hal kategorisasi teks bahasa Indonesia. Fatimah Wulandini dan Anto Satriyo Nugroho melakukan pengujian terhadap dokumen berbahasa Indonesia dengan menggunakan data latih sebanyak 240 dokumen dan data uji sebanyak 120 dokumen. Metode feature selection yang digunakan yaitu pengindeksan kata (indexing word). Dari hasil penelitian didapat akurasi SVM sebesar 92,5% lebih baik dibandingkan dengan algoritma lainnya yang masing-masing memiliki akurasi NBC(90%), kNN(27,5%), dan C45(77,5%) [14]. Penelitian yang dilakukan oleh Watters menggunakan 600 dokumen untuk dikategorisasi [15]. Metode feature selection yang digunakan yaitu document frequency (DF) dengan mengambil nilai parameter (threshold) secara acak. Di dalam penelitiannya dia mencoba membandingkan antara dua buah algoritma yaitu SVM dengan ANN (Artificial Neural Network). Hasil kinerja menunjukan tingkat akurasi SVM sebesar 82%, jauh lebih baik dibandingkan dengan Algoritma ANN yang hanya 58,53%. Meesad dalam penelitiannya mencoba menunjukan kinerja SVM dalam kasus klasifikasi dokumen untuk digital library [16]. Metode feature selection yang digunakan yaitu chi- square, information gain, dll. Dari penelitiannya didapat kinerja SVM (92,20%) lebih baik dibandingkan dengan NBC(91,70%) dan ID3(86,20%). III. ANALISIS DAN PERANCANGAN A. Dataset Dataset yang digunakan pada penelitian kali ini berasal dari mention tweet yang masuk pada akun Twitter @SpeedyTelkomsel. Proses pengumpulan dataset ini dilakukan dengan menggunakan suatu program crawler berbasis web yang memanfaatkan layanan twitter API. Jumlah dataset yang digunakan berjumlah 600 tweet dengan rincian sebagai berikut: Tabel 1. Rincian Dataset B. Text preprocessing Text preprocessing merupakan sekumpulan tahapan yang harus dilakukan untuk mempersiapkan kumpulan dataset menjadi data masukan (input) pada proses selanjutnya yaitu klasifikasi menggunakan SVM. Adapun beberapa tahapan yang dilakukan pada text preprocessing ini yaitu tokenizing, stopword removal, dan stemming. Proses tokenizing merupakan proses memisahkan setiap kata dalam suatu kalimat sehingga menghasilkan kumpulan kata-kata yang berdiri sendiri. Pemisahan kata dilakukan dengan cara menemukan spasi (space) antar kata. Pada proses ini pula dilakukan penghapusan tanda baca. Langkah selanjutnya adalah melakukan proses filtering. Pada proses ini, setiap kata yang telah berdiri sendiri akan diidentifkasi untuk menentukan kata itu akan digunakan atau dihapus. Kata-kata yang dihapus adalah kata-kata yang termasuk dalam stoplist. Stoplist adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang, dan, di, dari, atau, pada, saat, dan lain sebagainya. Pada penelitian kali ini berfokus pada bentuk keluhan dari tweet text, maka kata-kata yang mengandung makna dari tweet entity seperti mention, retweet, hashtag, dan link url juga akan dihapus. Setiap kata juga akan dibersihkan dari simbol atau kode karakter numeric (noisy text), seperti : (‘~&#([0-9]+);’). Adapun beberapa tahapan yang dilakukan pada proses stemming secara detail yaitu sebagai berikut: Keluhan-Bukan Keluhan Data Training (80%) Data Testing (20%) Tweet Keluhan Tweet Bukan Keluhan 300 300 600 480 120 Jenis Keluhan Data Training (80%) Data Testing (20%) Billing Pemasangan Disconnect Lambat 150 150 150 150 600 480 120
  • 4. Jurnal Edukasi dan Penelitian Informatika (JEPIN) Vol. 1, No. 2, (2015) 56 1) Cek kata apakah ada di kamus, jika ada maka kata ditemukan. Namun jika tidak, maka lanjutkan ke tahap berikutnya. 2) Hapus inflection suffix, yaitu : "-lah", "-kah", "-ku", "- mu", atau "-nya" 3) Cek prefix dan suffix yang tidak diperbolehkan, yaitu : ("be-" dan "-i"), ("di-" dan "-an"), ("ke-" dan "-i, -kan"), ("me- " dan "-an"), ("se-" dan "-i, -kan") 4) Hapus derivation suffix, yaitu : "-i", "-an", "-kan" 5) Hapus derivation prefix, yaitu : "di-", "ke-", "se-", "te-", "be-", "me-", atau "pe" C. Ekstrasi Features Pada penelitian kali ini, untuk mendapatkan nilai threshold parameter yang terbaik maka akan dilakukan pengamatan terhadap distribusi frekuensi kemunculan kata dan jumlah feature. Nilai threshold yang terbaik adalah titik dimana frekuensi kemunculan kata dan jumlah feature mulai konstan. Dari pengamatan terhadap nilai threshold, didapat sejumlah fitur kata yang akan digunakan dari setiap metode ekstraksi. Untuk metode term frequency (TF) dan document frequency (DF), jumlah feature yang dihasilkan mulai konstan pada saat nilai threshold berada pada kisaran 15-20. Hal ini dapat diartikan bahwa feature yang akan digunakan dalam penelitian kali ini adalah kata atau term yang memiliki frekuensi kemunculan kata di atas 15 kali. Berdasarkan parameter tersebut, maka didapat jumlah feature untuk tiap proses klasifikasinya. Untuk proses klasifikasi keluhan-bukan keluhan dengan metode TF menggunakan 51 feature dan metode DF menggunakan 44 feature. Sedangkan untuk proses klasifikasi jenis keluhan dengan metode TF menggunakan 47 feature dan metode DF menggunakan 44 feature. Pada metode information gain (IG), jumlah frekuensi fitur yang dihasilkan mulai konstan pada saat nilai IG berada pada nilai ≥ 0,02 untuk keluhan-bukan keluhan dan ≥ 0,03 untuk jenis keluhan. Berdasarkan parameter tersebut didapat jumlah fitur yang dihasilkan untuk klasifikasi bentuk keluhan sebanyak 25 atribut dan untuk klasifikasi jenis keluhan sebanyak 46 atribut. Untuk metode chi-square, jumlah feature yang dihasilkan mulai konstan pada saat nilai threshold berada pada kisaran 6- 15 untuk bentuk keluhan dan 16-20 untuk jenis keluhan. Berdasarkan parameter tersebut, maka didapat jumlah feature untuk tiap proses klasifikasinya. Untuk proses klasifikasi keluhan-bukan keluhan menggunakan 29 feature. Sedangkan untuk jenis klasifikasi menggunakan 37 feature. Adapun rincian jumlah feature yang digunakan dapat dilihat pada tabel berikut. Tabel 2. Jumlah Feature Tiap Metode Klasifikasi Metode Ekstraksi TF DF Inf.Gain Chisquare Keluhan-Bkn Klhn 51 44 25 29 Jenis Keluhan 47 44 46 37 Setelah didapat beberapa kumpulan kata atau term sebagai kumpulan feature dari beberapa metode ekstraksi, penelitian ini juga menggunakan metode penggabungan feature dengan menggunakan operasi gabungan (union) dari set feature yang telah dihasilkan oleh masing-masing metode. Sebagai contoh untuk metode ekstraski x menggunakan feature kata putus dan wifi. Sedangkan metode ekstraksi y menggunakan feature kata putus dan lambat. Maka gabungan feature yang digunakan yaitu kata putus, wifi, dan lambat. D. Data Text to Vector Model ruang vektor digunakan untuk memberikan setiap feature dalam dokumen sebuah ID (dimensi) dan sebuah bobot berdasarkan seberapa penting keberadaannya dalam dokumen (tweet). Adapun contoh format data input adalah : 0,0,0,0,3,0,8,0,0,0,0,0,2,2,0,0,0,1,1,1,0,0,0,3,billing 1,5,6,0,0,0,2,1,0,7,0,0,2,,0,1,1,1,0,0,0,0,2,0.1putus Angka menunjukan bobot fitur pada setiap tweet. Setiap bobot dipisahkan oleh koma (,). Nilai angka yang muncul sebanyak jumlah fitur yang digunakan. Sedangkan nilai lainnya sesuai dengan perhitungan bobot yang digunakan. Pada bagian akhir dari baris data vektor merupakan nama kelas. E. Fungsi Kernel dan Estimasi Parameter Berdasarkan dataset yang digunakan, maka dalam pada penelitian kali ini akan diterapkan SVM nonliniear. Fungsi k
  • Related Search
    We Need Your Support
    Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

    Thanks to everyone for your continued support.

    No, Thanks