Text
Implementasi deep learning menggunakan kombinasi fitur teks dan gambar untuk mendeteksi website phishing
Abstrak:
Phishing merupakan serangan untuk mendapatkan informasi kredensial seseorang, salah satunya dilakukan dengan membuat website palsu. Laporan Anti-Phishing Working Group (APWG) menyebutkan adanya kenaikan empat kali lipat serangan phishing sejak tahun 2020, serangan pada kuartal 2 tahun 2022 merupakan serangan dengan catatan terburuk. Badan Siber dan Sandi Negara melalui Pusat Pengkajian dan Pengembangan Teknologi Keamanan Siber dan Sandi melakukan kajian deteksi phishing yang masih berfokus berdasarkan Uniform Resource Locator (URL). Pada penelitian serupa yang telah dilakukan, metode deteksi phishing dapat dilakukan berdasarkan URL, dokumen HTML, gambar hasil tangkapan layar website, maupun gabungan dari metode tersebut. Penelitian lain juga menyatakan bahwa penggabungan fitur teks dan gambar dapat meningkatkan performa model. Penelitian ini melakukan penggabungan fitur teks dan gambar pada algoritma deep learning sebagai validasi bahwa penambahan gambar mampu meningkatkan performa model dalam memprediksi phishing serta melakukan evaluasi terhadap dataset baru yang dikumpulkan. Vectorization dan feature extraction dilakukan untuk mengolah URL dengan LSTM dan GRU, character dan word embedding untuk megolah dokumen HTML dengan CNN, dan transfer learning InceptionV3 untuk mengolah gambar. Hasil penelitian ini menghasilkan bahwa gabungan fitur URL dan gambar mencapai akurasi 98.4% yang belum mengungguli fitur URL saja dengan akurasi 98.8%, serta gabungan fitur dokumen HTML dan gambar mencapai akurasi 92.5% yang belum mengungguli fitur dokumen HTML saja dengan akurasi 92.7%. Dataset baru pada penelitian ini mampu meningkatkan nilai akurasi dan ROC-AUC dibandingkan penelitian sebelumnya. Model yang dihasilkan diimplementasikan kedalam bentuk aplikasi berbasis website yang dibangun dengan framework flask dan memenuhi semua kriteria pada skema black-box testing.
Abstract:
Phishing is an attack to obtain someone's credentials by creating a fake website. The Anti-Phishing Working Group (APWG) report states a fourfold increase in phishing attacks since 2020, with attacks in the second quarter of 2022 being the worst on record. Badan Siber dan Sandi Negara through Pusat Pengkajian dan Pengembangan Teknologi Keamanan Siber dan Sandi conducted a phishing detection study that still focuses on the Uniform Resource Locator (URL). In similar studies that have been conducted, phishing detection methods can be based on URLs, HTML documents, website screenshots, or a combination of these methods. Other research also states that combining text and image features can improve model performance. This research combines text and image features in deep learning algorithms to validate that adding images can improve the model's performance in predicting phishing websites and evaluate the new dataset collected. Vectorization and feature extraction are performed to process URLs with LSTM and GRU, character and word embedding to process HTML documents with CNN, and InceptionV3 transfer learning to process images. The results of this study show that the combined URL and image features achieved an accuracy of 98.4% which does not outperform the URL feature with an accuracy of 98.8%, and the combined HTML document and image features achieved an accuracy of 92.5% which does not outperform the HTML document feature with an accuracy of 92.7%. The new dataset in this study increase the accuracy and ROC-AUC values compared to previous studies. Moreover, the best model which was implemented into a website-based application built with the flask framework and passed the black-box testing.
No other version available