tailieunhanh - Tự động tìm những báo cáo lỗi trùng nhau sử dụng kỹ thuật N-gram và cluster shrinkage
Bài báo giới thiệu một phương pháp mới sử dụng hai kỹ thuật: n-gram và cluster shrinkage. Phương pháp đã được thực nghiệm trên ba dự án phần mềm mã nguồn mở là Apache, ArgoUML, và SVN. | Khoa hoïc Coâng ngheä 9 TỰ ĐỘNG TÌM NHỮNG BÁO CÁO LỖI TRÙNG NHAU SỬ DỤNG KỸ THUẬT N-GRAM VÀ CLUSTER SHRINKAGE Nhan Minh Phúc * Tóm tắt Đối với nhiều dự án mã nguồn mở, số lỗi báo cáo trùng nhau chiếm một số lượng đáng kể trong kho chứa lỗi. Vì vậy, việc nhận biết tự động những báo cáo lỗi trùng nhau rất quan trọng và cần thiết, giúp tiết kiệm thời gian và công sức cho con người, trong những báo cáo mới được gởi đến. Bài báo giới thiệu một phương pháp mới sử dụng hai kỹ thuật: n-gram và cluster shrinkage. Phương pháp đã được thực nghiệm trên ba dự án phần mềm mã nguồn mở là Apache, ArgoUML, và SVN. Kết quả thực nghiệm chỉ ra rằng phương pháp được giới thiệu có hiệu quả cải tiến việc thực thi dò tìm khi được so sánh với những phương pháp trước đây. Từ khóa: Báo cáo lỗi, dò tìm lỗi trùng nhau, đặc điểm N-gram, phân tích báo cáo lỗi, Cluster Shrinkage. Abstract For many open source projects, the number of reports about duplication occupies a significant percentage of the bug repositor. Therefore, automatic the identification of duplication error reports are very important and necessary and helps saving time and effort in searching for the duplicate bug reports out of any incoming ones. This paper presents a new approach using two techniques: n-gram and cluster shrinkage. Such approach has been experimented on three popular open source projects as Apache, Argo UML, and SVN. The experimental results show that the proposed method can effectively improve the detection performance as compared with the previous methods. Keywords: Bug Reports, Duplicate Bug Detection, N-gram feature, Bug Report Analysis, Cluster Shrinkage. 1. Giới thiệu Trong vấn đề bảo trì phần mềm, việc tìm ra những lỗi cũng như những vấn đề không bình thường là một xử lý quan trọng để tránh những rủi ro. Thông thường, những tình huống này sẽ được miêu tả lại và gởi đến hệ thống quản lý báo cáo lỗi như Bugzilla, Eclipse Sau khi những báo cáo lỗi được gởi, một hoặc nhiều người sẽ được giao nhiệm vụ phân
đang nạp các trang xem trước