tailieunhanh - Sử dụng mô hình LDA-NWF cho việc tự động dò tìm báo cáo lỗi trùng nhau
Bài viết giới thiệu một phương pháp tự động dò tìm những báo cáo lỗi trùng nhau bằng cách sử dụng mô hình LDA-NWF (Latent Dirichlet Allocation-new weight feature). Mô hình này là sự kết hợp giữa mô hình LDA với đặc điểm trọng số mới. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Nha Trang ngày 8-9 10 2020 DOI SỬ DỤNG MÔ HÌNH LDA-NWF CHO VIỆC TỰ ĐỘNG DÒ TÌM BÁO CÁO LỖI TRÙNG NHAU Nhan Minh Phúc 1 Nguyễn Thừa Phát Tài1 Nguyễn Hoàng Duy Thiện1 Nguyễn Bá Nhiệm1 1 Khoa Kỹ thuật và Công nghệ Trường Đại học Trà Vinh nhanminhphuc@ phattai@ nhdthien@ TÓM TẮT Những báo cáo lỗi được gửi bởi người dùng thường được lưu trữ và quản lý bởi các hệ thống quản lý lỗi trong những dự án phần mềm mã nguồn mở như Open Office Mozilla Firefox Eclipse. Những lập trình viên sẽ dựa vào những báo cáo lỗi này để xử lý lỗi. Tuy nhiên do có quá nhiều báo cáo lỗi gửi đến hệ thống khi đó sẽ có những báo cáo lỗi trùng nhau hay nói cách khác báo cáo lỗi trùng nhau là báo cáo lỗi đã được người dùng gửi trước đó rồi. Do đó việc phải xác định báo cáo lỗi vừa được gửi đến có bị trùng hay không sẽ làm mất nhiều thời gian và công sức của người được phân công xử lý lỗi. Vì vậy việc tự động dò tìm báo cáo lỗi trùng nhau gần đây nhận được nhiều sự quan tâm của các nhà nghiên cứu. Ngoài ra việc báo cáo lỗi thường là tập tin văn bản do đó sẽ có những trường hợp những báo cáo lỗi bị trùng nhau nhưng được diễn tả bằng những từ ngữ khác nhau ở những người dùng khác nhau điều này sẽ là một thách thức cho các nhà nghiên cứu. Trong bài báo này chúng tôi giới thiệu một phương pháp tự động dò tìm những báo cáo lỗi trùng nhau bằng cách sử dụng mô hình LDA-NWF Latent Dirichlet Allocation-new weight feature . Mô hình này là sự kết hợp giữa mô hình LDA với đặc điểm trọng số mới. Kết quả thực nghiệm trên ba hệ thống dữ liệu thật Open Offie Eclipse và Mozilla cho thấy phương pháp được giới thiệu đạt tỉ lệ chính xác cao hơn các phương pháp trước đó từ khoảng 4-9 khi so sánh trên cả ba hệ thống. Từ khóa Báo cáo lỗi mô hình LDA mô hình trọng số lỗi trùng nhau kho báo cáo lỗi. I. GIỚI THIỆU Những dự án mã nguồn mở lớn như Bugzilla thường dùng hệ .
đang nạp các trang xem trước