tailieunhanh - Tối ưu hóa Join đệ quy trên tập dữ liệu lớn trong môi trường Spark

Bài viết nghiên cứu nhằm đề xuất một số giải pháp hiệu quả cho xử lý Join đệ quy trên nền tảng xử lý dữ liệu lớn thế hệ mới Spark. Đề xuất của chúng tôi đã loại bỏ một lượng lớn dữ liệu dư thừa được tạo ra trong các xử lý lặp của Join đệ quy, tận dụng những lợi thế của việc xử lý trong bộ nhớ và cơ chế bộ nhớ đệm để giảm thiểu các chi phí có liên quan. Thông qua mô hình chi phí và các thực nghiệm, nghiên cứu này chỉ ra rằng các giải pháp của chúng tôi đã cải tiến đáng kể hiệu suất thực thi của Join đệ quy trong môi trường MapReduce. | Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR 9 Cần Thơ ngày 4-5 8 2016 DOI TỐI ƯU HÓA JOIN ĐỆ QUY TRÊN TẬP DỮ LIỆU LỚN TRONG MÔI TRƯỜNG SPARK Phan Thượng Cang1 Trần Thị Tố Quyên1 Phan Anh Cang2 1 Khoa Công nghệ thông tin và Truyền thông Đại học Cần Thơ 2 Khoa Công nghệ thông tin Trường Đại học Sư phạm Kỹ thuật Vĩnh Long ptcang@ tranthitoquyen@ cangpa@ TÓM TẮT MapReduce đã trở thành một mô hình lập trình chính cho phân tích và xử lý dữ liệu lớn trong những năm gần đây. Tuy nhiên mô hình này vẫn còn tồn tại một số mặt hạn chế như chưa hỗ trợ đầy đủ cho các tính toán lặp cơ chế bộ nhớ đệm cache và các hoạt động với đa đầu vào multiple inputs . Ngoài ra các chi phí cho việc đọc viết và truyền thông dữ liệu của mô hình còn quá tốn kém. Một trong những hoạt động phức tạp đáng chú ý và thường được sử dụng trong MapReduce đó là Join đệ quy. Nó đòi hỏi những đặc trưng xử lý mà cũng chính là những hạn chế của MapReduce. Vì vậy trong nghiên cứu này chúng tôi đề xuất một số giải pháp hiệu quả cho xử lý Join đệ quy trên nền tảng xử lý dữ liệu lớn thế hệ mới Spark. Đề xuất của chúng tôi đã loại bỏ một lượng lớn dữ liệu dư thừa được tạo ra trong các xử lý lặp của Join đệ quy tận dụng những lợi thế của việc xử lý trong bộ nhớ và cơ chế bộ nhớ đệm để giảm thiểu các chi phí có liên quan. Thông qua mô hình chi phí và các thực nghiệm nghiên cứu này chỉ ra rằng các giải pháp của chúng tôi đã cải tiến đáng kể hiệu suất thực thi của Join đệ quy trong môi trường MapReduce. Từ khóa Big data analytics recusrsive join map reduce spark. I. GIỚI THIỆU Trong thời đại bùng nổ thông tin như hiện nay thuật ngữ Big Data dần trở nên quen thuộc và đặt ra nhiều thách thức trong các nghiên cứu như công nghệ tìm kiếm search-engines phân tích mạng xã hội social network analysis phân tích dữ liệu Web Web-data analysis phân tích giám sát mạng network-monitoring analysis các mô phỏng lớn .

TÀI LIỆU LIÊN QUAN