Text
Pemodelan Machine Learning dengan Algoritma Random Forest dan XGBoost dalam Prediksi Kemungkinan Penyebab Insiden Kebocoran Data Berdasarkan Profil Bisnis Perusahaan
Laporan Data Breach Incident Report (DBIR) yang diterbitkan oleh perusahaan keamanan Verizon pada tahun 2021 mencatat terdapat lebih 70,000 kasus insiden sepanjang tahun 2021, yang sekitar 5,000 insiden di antaranya terkonfirmasi merupakan insiden kebocoran data yang diambil dari 88 negara di seluruh dunia. Maraknya insiden kebocoran data saat ini memungkinkan perlunya upaya pencegahan terhadap kemungkinan terjadinya insiden kebocoran data. Salah satu upaya pencegahan yang dapat dilakukan adalah melalui prediksi kemungkinan terjadinya kebocoran data. Metode yang diusulkan pada penelitian ini adalah klasifikasi penyebab insiden kebocoran data berdasarkan profil bisnis perusahaan dengan pendekatan machine learning. Pada penelitian ini akan menggunakan dataset dari Verizon yang berisi 9133 insiden kebocoran data dengan 2374 variabel atau features, per tanggal 12 Februari 2022. Data tersebut digunakan untuk membuat model prediksi berupa klasifikasi insiden kebocoran data menggunakan algoritma random forest dan XGBoost. Kinerja kedua algoritma ini akan dilakukan validasi model dan diobservasi melalui pendekatan komparatif kuantitatif untuk kemudian diambil model terbaik yang dapat diterapkan pada permasalahan klasifikasi kemungkinan penyebab insiden kebocoran data berdasarkan profil bisnis perusahaan. Hasil dari pengujian menunjukkan bahwa kinerja model dengan algoritma Random Forest lebih baik secara akurasi dan presisi daripada model dengan algoritma XGBoost dengan nilai Precision sebesar 0.906 dan nilai Accuracy sebesar 0.845. --
The Data Breach Incident Report (DBIR) published by security company Verizon in 2021 noted that there were more than 70,000 incident cases throughout 2021, of which about 5,000 incidents were confirmed as data leak incidents taken from 88 countries around the world. The current rise of data leakage incidents allows the need for prevention efforts against possible data leakage incidents. One of the prevention efforts that can be done is by predicting the possibility of data leakage. The method proposed in this study is the classification of the causes of data leakage incidents based on the company's business profile with a machine learning approach. In this study, we will use a dataset from Verizon which contains 9133 incidents of data leakage with 2374 variables or features, as of February 12, 2022. The data is used to create a predictive model in the form of classification of data leakage incidents using random forest and XGBoost algorithms. The performance of these two algorithms will be validated and observed through a quantitative comparative approach to then take the best model that can be applied to the problem of classification of possible causes of data leakage incidents based on the company's business profile. The results of the test show that the performance of the model with the Random Forest algorithm is better in accuracy and precision than the model with the XGBoost algorithm with a Precision value of 0.906 and an Accuracy value of 0.845.
No copy data
No other version available