Salah satu aktivitas penting dalam proses analitik adalah menghasilkan model prediktif, yaitu suatu model yang diharapkan dapat memberikan prediksi yang sangat baik terhadap kejadian di masa mendatang.
Model Prediktif
Model prediktif tersebut antara lain diperlukan oleh bank dan perusahaan pembiayaan dalam bentuk credit scoring model. Tujuannya, memperkirakan apakah seseorang yang mengajukan aplikasi pinjaman akan macet kreditnya atau tidak. Tentu saja, prediksi kreditnya tersebut perlu dilakukan jauh hari sebelum diberikan keputusan apakah aplikasinya ditolak atau diterima. Mereka yang diprediksi akan memiliki peluang besar untuk gagal bayar akan memperoleh skor kecil berdasarkan model yang dibangun. Sebaliknya, yang diprediksi akan mampu membayar dengan lancar diberi skor besar oleh model.
Model-model yang serupa juga diperlukan oleh banyak perusahaan berbasis telemarketing yang memerlukan short-tist calon pelanggan untuk dihubungi dan ditawari produk. Short-list tersebut umumnya diperoleh dari list yang sangat panjang dan memuat banyak nama individu. Perusahaan memerlukan model prediktif untuk memisahkan individu yang potensial dan yang tidak. Individu yang potensial adalah mereka yang diprediksi akan menerima tawaran produk yang diajukan oleh petugas telemarketer. Aktivitas ini sangat identik dengan yang dikerjakan dalam campaign via SMS (short message service) oleh berbagai perusahaan retail.
Tersedia banyak pemodelan prediktif untuk melakukan prediksi terjadinya (atau tidak terjadinya) suatu kejadian masa mendatang. Beberapa yang disebut berikut adalah teknik dan algoritma pemodelan yang sering digunakan oleh analis baik yang berbasis pemikiran statistika maupun machins learning, yaitu: regresi logistik, analisis diskriminan, k-nearest-neighbor, Bayssian classifier, classification free, neural network, dan support vector machine. Ada beberapa algoritma lain yang dapat ditemukan dengan mudah di banyak literatur ilmiah maupun praktis.
Berbagai macam algoritma yang disebutkan di atas dapat digunakan untuk menjawab tujuan sama, dan banyak orang berpendapat bahwa satu sama lain dapat dipandang memiliki sifat complementary. Karena itu, kemudian muncul pertanyaan besar: algoritma atau teknik mana yang sebaiknya digunakan? Tidak hanya itu, dengan menerapkan salah satu teknik yang sama, dua orang analis dapat menghasilkan model yang berbeda karena dalam proses pemodelannya dapat saja mereka menggunakan prediktor yang berbeda, menggunakan sampel data yang berbeda, serta menerapkan pre-processing yang berbeda sesuai dengan kreativitas masing-masing. Dengan demikian, sekali lagi kemudian muncul pertanyaan: model mana yang sebaiknya digunakan?
Model Selection
Pertanyaan tersebut kemudian berujung pada penggunaan berbagai kriteria untuk menentukan model terbaik. Diskusi kemudian berkembang dalam ranah model selection (pemilihan model) yang menggunakan berbagai macam kriteria.
Secara umum, penulis memahami bahwa ada dua kriteria besar dalam penentuan model mana yang digunakan. Kriteria pertama terkait dengan kinerja prediksinya. Dalam bahasa lain, orang menggunakan istilah akurasi atau ketepatan prediksi. Model dengan akurasi yang lebih tinggi disebut sebagai model yang sebaiknya digunakan. Kriteria ini dikenal sebagai goodness offit. Ukuran yang termasuk dalam kategori ini antara lain likelihood function, correct classification rate, sensitivity, dan specificity.
Kriteria yang kedua adalah terkait dengan kesederhanaan model. Secara naluriah, model yang disukai adalah model yang lebih ringkas, menggunakan predictor yang lebih sedikit, atau bentuk-bentuk fungsi yang lebih sederhana. Kriteria kedua ini dikenal sebagai complexity cost. Ukuran yang tergolong dalam kriteria ini meliputi banyaknya parameter dalam model, banyaknya simpul pada tree dan neural network, serta derajat polinomial dari variabel predictor. Complexity cost ini penting diperhatikan agar model prediksi tidak mengalami masalah overfit.
Kriteria-kriteria di atas selanjutnya digunakan oleh para analis untuk menentukan model mana yang digunakan. Dua jenis kriteria tersebut banyak digabungkan menjadi satu kriteria gabungan seperti yang dilakukan pada AIC {Akaike’s Information Criterion) dan yang sejenisnya. Model dengan goodness-of-fit besar dan complexity cost kecil merupakan model yang terpilih dalam proses model selection ini.
Pergeseran Paradigma
Kemajuan teknologi komputasi mendorong berbagai perubahan dan perkembangan dalam analitik. Perkembangan tidak hanya terjadi dengan munculnya algoritma dan teknik baru, yang awalnya tidak mudah dan tidak murah dari sisi komputasi. Perkembangan juga terjadi pada paradigma penggunaan model akhir dalam melakukan prediksi.
Pada saat komputasi masih menjadi kendala besar dalam pemodelan, ada pemikiran bahwa algoritma yang diterapkan tinggal menggunakan salah satu saja dari yang tersedia. Pasalnya, untuk memperoleh model dari satu algoritma bisa jadi memerlukan waktu yang tidak sedikit. Dengan teknologi terkini, satu buah algoritma dapat menghasilkan sebuah model prediktif dalam waktu yang singkat apabila data-data yang diperlukan telah tersedia.
Kondisi ini kemudian memunculkan ide untuk melakukan prediksi tidak hanya didasarkan pada satu buah model (yang dianggap paling baik), namun melakukan prediksi dengan cara menggabungkan hasil prediksi dari banyak model. Paradigma ini yang dikenal sebagai ensemble learning. Theodosios Tsiakis (2015) dalam buku yang dieditnya berjudul Trends and Innovations in Marketing Information Systems memuat bagaimana ensemble learning ini bekerja. Gambar 1 menyajikan secara ringkas sistem ensemble ini dipergunakan untuk melakukan prediksi.
Dari satu buah dataset dapat diperoleh banyak model prediksi baik menggunakan berbagai teknik yang berbeda maupun menggunakan algoritma yang sejenis. Setiap model selanjutnya menghasilkan prediksi yang dapat berbeda satu dengan yang lainnya. Pendekatan ensemble learning menggabungkan berbagai macam prediksi tersebut menjadi satu buah prediksi akhir. Teknik penggabungan yang banyak digunakan adalah averaging dan majority vote. Pada penerapan majority vote untuk credit scoring misalnya, keputusan apakah individu yang mengajukan aplikasi pinjaman akan ditolak atau diterima aplikasinya didasarkan pada suara terbanyak dari hasil prediksi macet-lancar dari banyak model.
Secara umum ensemble learning terbagi menjadi dua kelompok yaitu hybrid ensemble dan non-hybrid ensemble. Yang disebut hybrid ensemble adalah jika model-model yang nanti digabungkan prediksinya merupakan model-model yang dihasilkan dari berbagai jenis algoritma berbeda. Sementara non-hybrid ensemble menggabungkan model-model yang diperoleh dari algoritma sejenis.
Ensemble Learning, Pilihan yang Tepat
Kenyataan bahwa pendekatan ensemble learning mampu memberikan solusi prediksi yang lebih akurat daripada model-model tunggal dapat ditemui dari berbagai paper di jurnal ilmiah. Teknik-teknik ensemble yang mengandalkan variasi dari pendekatan random forest dan boosting mampu memberikan prediksi dengan akurasi yang sangat baik. Random forest bekerja dengan membuat model-model penyusun ensemble sedemikian rupa sehingga berbagai kemungkinan dapat terakomodir secara maksimal, sedangkan boosting bekerja secara iterative sehingga kasus-kasus yang tidak mudah diprediksi menjadi bukan masalah lagi.
Kemampuan pendekatan ensemble ini tidak hanya tertuang pada berbagai paper ilmiah, namun juga dapat dilihat pada penyelesaian kasus-kasus aplikatif seperti yang dapat dilihat pada kompetisi data science Kaggle www.kaggle.com. Kompetisi ini terbuka bagi pegiat data science dan data mining untuk memberikan solusi prediktif dari kasus-kasus yang disampaikan oleh banyak perusahaan besar berskala internasional.
Setiap tim atau individu dipersilakan mengembangkan solusi dan menyajikan prediksinya untuk kemudian dinilai. Mereka yang memberikan prediksi dengan akurasi yang paling tinggi yang dinyatakan sebagai pemenang. Peringkat tiga besar dalam lima tahun terakhir dari kompetisi ini didominasi oleh mereka yang menggunakan pendekatan ensemble yang digabungkan dengan berbagai macam algoritma dasar.
Berdasarkan apa yang berkembang saat ini, pendekatan ensemble dalam pemodelan prediktif menjadi pilihan tepat bagi mereka yang berupaya memperoleh prediksi yang memuaskan dengan cara yang sangat mudah untuk dikerjakan. Hal senada juga telah dikemukanan oleh Mu Zhu (University of Waterloo) pada jurnal The American Statistician pada tahun 2008.
Sumber : Info Komputer Desember 2016