tailieunhanh - Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm
Những năm qua, đã có rất nhiều nghiên cứu về học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát hiện xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng các bộ dữ liệu để đánh giá, phân tích. Do sự đa dạng, phức tạp của các bộ dữ liệu nên vấn đề phân cụm, chia nhỏ bộ dữ liệu ra thành các tập con nhưng vẫn giữ được đặc trưng của chúng là rất cần thiết. Trong nghiên cứu này, các tác giả tập trung phân tích đặc điểm của các tập dữ liệu kiểm thử phổ biến. Đồng thời, tiến hành thực nghiệm để đánh giá tính phân cụm, xác định số cụm tối ưu mà một bộ dữ liệu nên được chia ra. | Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm Khoa học Tự nhiên Một số bộ dữ liệu kiểm thử phổ biến cho phát hiện xâm nhập mạng và đặc tính phân cụm Bùi Công Thành1*, Nguyễn Quang Uy2 , Hoàng Minh3 1 Binh chủng Thông tin liên lạc 2 Học viện Kỹ thuật Quân sự 3 Học viện Khoa học, Công nghệ và Đổi mới sáng tạo Ngày nhận bài 24/5/2019; ngày chuyển phản biện 28/5/2019; ngày nhận phản biện 25/6/2019; ngày chấp nhận đăng 28/6/2019 Tóm tắt: Những năm qua, đã có rất nhiều nghiên cứu về học máy (Machine learning), học sâu (Deep learning) cho lĩnh vực phát hiện xâm nhập mạng máy tính (IDS - Intrusion Detection System), sử dụng các bộ dữ liệu để đánh giá, phân tích. Do sự đa dạng, phức tạp của các bộ dữ liệu nên vấn đề phân cụm, chia nhỏ bộ dữ liệu ra thành các tập con nhưng vẫn giữ được đặc trưng của chúng là rất cần thiết. Trong nghiên cứu này, các tác giả tập trung phân tích đặc điểm của các tập dữ liệu kiểm thử phổ biến. Đồng thời, tiến hành thực nghiệm để đánh giá tính phân cụm, xác định số cụm tối ưu mà một bộ dữ liệu nên được chia ra. Thực nghiệm được tiến hành trên 6 tập dữ liệu huấn luyện của NSL-KDD, UNSW-NB15, CTU-13 phiên bản 08, 09, 10 và 13. Kết quả theo phương pháp Elbow, Silhouetee khá đồng nhất và cho thấy một số bộ dữ liệu nên được tách thành 2, 3 cụm, tuy nhiên cũng có những bộ nên để nguyên. Từ khóa: bộ dữ liệu, hệ thống phát hiện xâm nhập, K-Means. Chỉ số phân loại: Đặt vấn đề ứng trong gói tin, tiêu đề gói tin và phiên kết nối mạng [2]. Ngoài thuộc tính, các tham số đặc trưng khác cho bộ dữ Sự phát triển nhanh chóng của mạng máy tính (sau đây liệu như: kiểu dữ liệu, tính sẵn có; kích thước cho tập huấn gọi tắt là mạng) và các dịch vụ mạng đang làm cho hoạt động luyện, kiểm tra; số mẫu tấn công, loại tấn công mạng; các của con người trở nên bị lệ thuộc. Hệ thống IDS là công hạn chế mang tính thời sự cũng cần được quan tâm trước khi nghệ an ninh mạng
đang nạp các trang xem trước