PEMBELAJARAN ALGORITMA K-NN UNTUK BIG DATASET MENGGUNAKAN METODE SAMPLE BOOTSTRAP DAN WEIGHTED GINI INDEX

Bijanto Bijanto, Zainal Abidin, Teguh Tamrin

Abstract


Dataset yang mempunyai jumlah record atau atribut dalam jumlah besar bisa disebut juga dengan dataset besar. Ukuran dataset besar memiliki jumlah dalam besaran dari terabyte sampai petabyte. Pengolahan dataset besar tersebut membutuhkan komputer yang memiliki spesifikasi tinggi. Untuk mengklasifikasikan objek baru berdasarkan atribut data training sample tersebut bisa menggunakan algoritma k-NN. Salah satu kelebihan algorotma kNN adalah efektif dan sering digunakan untuk mengatur permasalahan mengenai klasifikasi. Cukup lamanya waktu komputasi menjadi salah satu kelemahan algoritma kNN. Hal ini diakibatkan oleh proses kalkulasi algoritma kNN terhadap dataset yang besar. Dari masalah-masalah yang muncul tersebut, maka peneliti mengusulkan sistem pembelajaran kNN menggunakan boostraping dan Weighted Gini Index sebagai solusi untuk penanganan masalah pengolahan dataset besar. Pembelajaran kNN menggunakan Bootstrap-Weighted Gini Index dipakai untuk memangkas atribut maupun record berlandaskan hasil penyaringan atribut dan record yang mempunyai kuwalitas error sedikit. Penelitian ini membuktikan bahwa, hasil penambahan akurasi yang didapat dari pengolahan pada dataset Landsat (akurasi semula sebesar 91,40% menjadi 94,95%), Thyroid (akurasi semula 89,31% menjadi 96,61%), HTRU (akurasi semula 96,01% menjadi 98,18%) dan EEG Eye (akurasi semula 97,40% menjadi 97,80%).

Keywords


Dataset Besar, Bootstrap, Weighted Gini Index, k-NN

Full Text:

PDF

References


Amores, J Boosting the distance estimation Application to the K-Nearest Neighbord Classifier Pattern Recognation Letters, 27(d),201-209. doi:10.1016/j.patrec.2005.08.019, 2006.

Breiman L., Friedman J. H., et al, Classification and Regression Trees.Monterey, CA: Wadsworth International Group, 1984.

Fayed, H. A., & Atiya, A. F., A Novel Template Reduction Approach for the Nearest Neighbor Method IEEETransaction on Neural Network / a Publication of the IEEE Neural Network Concuil, 20(5), 890-896, 2009).

Han, J., & Kamber, Data mining Concept and Techniques (M. Han, J., & Kamber, Ed) (Thirt Edit) USA: Morgan Kaufmann Publishers, 2012.

Heriyanto, M. Ari dan Wisnu AP. 2008. Pemrograman Bahasa C Untuk Mikrokontroler ATMEGA 8535. Yogyakarta: ANDI

Lin & Dong at all An Adaptive Fuzzy kNN Text Classifier Based on Gini Index Weight Computers and Communications, 2006.

Morimune, K., & Hoshino, Y.Testing homogenity of a large data set by boostrapping Mathematics Ans Computers In Simaulation, 78,292-302. doi:10.1016/j.matcom.2008.01.021, 2008

Neo, T. K. C., & Ventura, D. A direct boosting algoritm for the k-nearest neightbor classifier via local warping of the distance matric Pattern Recoqnation Latters, 33(1), 92-1-2. doi: 10.1016/j.patrec.2011.09.028, 2012.

O’Reilly, Big Data Now Edition (Fisrs Edit, O’Reilly Media ,Inc, 2012.

S. Shankar, G. Karypis, A Feature Weight Adjustment Algorithm for Document Categor ization. http://www.cs.umm.edu/~karypis..

T. Pang-Ning, M. Steinbach and V. Kumar, Introduction to data mining, Libr. Congr., p. 796, 2006.

Wan, C. H., Lee, L. H., Rajkumar, R., & Isa, D. A hybrid text classification approach with low dependency on parameter by intergrating K-nearest neighbord and support vector machine Expert System with Application, 39 (15), 11880-11888. Doi:10.1016/j.eswa.2012.02.068, 2012).

Weidong, Jingyu & Yongmin, Using Gini-Index for Feature Selection in Text Categorization, School of Computer and




DOI: https://doi.org/10.34001/jdpt.v12i2.2091

Article Metrics

Abstract view : 273 times
PDF - 114 times

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Disprotek Indexed by:

1 Google Scholar  2 BASe3 Onsesearch 4 Garuda 5 Sinta 6 Dimensions7 Crossref 8 JurnalStories 9 ROAD 10 ICE11 ORCID  

Visitor Statistics
Web
Analytics Made Easy - StatCounter
Flag Counter

Lisensi Creative Commons

DISPROTEK: Journal of Informatics Engineering, Information Systems, Electrical Engineering, Industrial Engineering, Civil Engineering, and Aquaculture is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.