Text
PDFalse : Aplikasi Deteksi Evasive Malicious Portable Document Format Berbasis Machine Learning
Abstrak:
Dalam era digital saat ini, tantangan dalam mengklasifikasikan malware, khususnya yang disematkan dalam berkas PDF semakin meningkat. Berkas PDF telah menjadi standar dalam pertukaran informasi digital, membuatnya menjadi target utama bagi para peretas untuk menyebarkan malware. Salah satu jenis malware yang paling sulit untuk dideteksi adalah evasive malicious PDF. Malware jenis ini dirancang sedemikian rupa sehingga menyerupai aplikasi yang tidak berbahaya, sehingga dapat lolos dari deteksi oleh sistem keamanan konvensional. Meski permasalahan ini semakin serius, penelitian tentang evasive malicious PDF masih sangat terbatas. Kondisi ini menunjukkan bahwa ada celah pengetahuan yang signifikan yang perlu diisi untuk meningkatkan keamanan informasi digital. Penelitian ini bertujuan untuk mengeksplorasi dan menentukan model pengklasifikasi terbaik untuk evasive malicious PDF. Penelitian ini membandingkan berbagai model machine learning dan deep learning dengan berbagai usaha hyperparameter tuning, dengan tujuan menemukan pendekatan yang paling efektif dalam mendeteksi dan mengklasifikasikan evasive malicious PDF. Algoritma machine learning yang diujikan pada penelitian ini salah satunya adalah Deep Learning, Gradient Boost, MLP, dan XGBoost. Didapatkan hasil yang sangat signifikan dari algoritma gradient boost dengan nilai F1-score sebesar 99.67% dan akurasi sebesar 99.62%. Selanjutnya, model terbaik yang terpilih akan diimplementasikan ke dalam sebuah aplikasi berbasis windows yang dapat mengidentifikasi PDF evasive malware dengan nama PDFalse.
Abstract:
In today's digital age, the challenge of classifying malware, especially those embedded in PDF files, continues to increase. PDF files have become the standard in digital information exchange, making them a prime target for hackers to spread malware. One of the most difficult types of malware to detect is evasive malicious PDF. This type of malware is designed in such a way that it resembles a harmless application, allowing it to escape detection by conventional security systems. Despite the seriousness of the problem, research on evasive malicious PDF is still very limited. In the last five years, there are only two publications that specifically address this issue. This suggests that there is a significant knowledge gap that needs to be filled to improve digital information security. This research aims to explore and determine the best classifier model for evasive malicious PDF. This research compares various machine learning and deep learning models, with the aim of finding the most effective approach in detecting and classifying evasive malicious PDFs. Machine learning algorithms tested in this research include Deep Learning, Gradient Boost, MLP, and XGBoost. Very significant results were obtained from the gradient boost algorithm with an F1-score value of 99.67% and an accuracy of 99.62%. Furthermore, the selected best model will be implemented into a Windows-based application that can identify PDF evasive malware called PDFalse.
No copy data
No other version available