tailieunhanh - Sử dụng các ngôn ngữ như-SQL với khung công tác MapReduce
Giới thiệu Trong hai thập kỷ vừa qua, sự gia tăng ổn định về công suất tính toán đã tạo ra một luồng dữ liệu rộng lớn, mà dần dần đã dẫn đến một sự thay đổi hình mẫu trong kiến trúc điện toán và các cơ chế xử lý dữ liệu quy mô lớn. Ví dụ, các kính viễn vọng mạnh mẽ trong thiên văn học, các máy gia tốc hạt trong vật lý và các bộ gen trong sinh học trao khối dữ liệu khổng lồ vào tay các nhà khoa học. Facebook thu thập 15 terabyte dữ. | Sử dụng các ngôn ngữ như-SQL với khung công tác MapReduce Giới thiệu Trong hai thập kỷ vừa qua sự gia tăng ổn định về công suất tính toán đã tạo ra một luồng dữ liệu rộng lớn mà dần dần đã dẫn đến một sự thay đổi hình mẫu trong kiến trúc điện toán và các cơ chế xử lý dữ liệu quy mô lớn. Ví dụ các kính viễn vọng mạnh mẽ trong thiên văn học các máy gia tốc hạt trong vật lý và các bộ gen trong sinh học trao khối dữ liệu khổng lồ vào tay các nhà khoa học. Facebook thu thập 15 terabyte dữ liệu mỗi ngày vào một kho dữ liệu quy mô Petabyte. Nhu cầu về khai phá dữ liệu quy mô lớn và các ứng dụng phân tích dữ liệu ngày càng tăng trong cả ngành công nghiệp phần mềm ví dụ phân tích dữ liệu web phân tích luồng nhấn chuột và phân tích bản ghi nhật ký giám sát-mạng lẫn các ngành khoa học ví dụ phân tích dữ liệu do các bộ mô phỏng quy mô rất lớn tạo ra triển khai bộ cảm biến và thiết bị phòng thí nghiệm có thông lượng cao . Mặc dù các hệ thống cơ sở dữ liệu song song có lợi cho một số các ứng dụng phân tích dữ liệu này nhưng chúng rất đắt tiền khó quản lý và thiếu khả năng chịu lỗi với các truy vấn chạy lâu dài. MapReduce là một khung công tác được Google giới thiệu cho việc lập trình các cụm máy tính thương mại để thực hiện xử lý dữ liệu quy mô lớn trong một lần chạy. Khung công tác này được thiết kế theo cách mà một cụm MapReduce có thể mở rộng đến hàng ngàn các nút về mặt khả năng chịu lỗi. Nhưng mô hình lập trình MapReduce có những hạn chế riêng của mình. Luồng dữ liệu một đầu vào và hai tầng của nó vô cùng cứng nhắc ngoài thực tế là nó ở bậc rất thấp. Ví dụ bạn phải viết mã tùy chỉnh cho ngay cả những hoạt động phổ biến nhất. Do đó nhiều nhà lập trình cảm thấy khó chịu với khung công tác MapReduce và thích sử dụng SQL như một ngôn ngữ khai báo bậc cao. Một số dự án Apache Pig Apache Hive và HadoopDB đã được phát triển để giảm bớt nhiệm vụ của các nhà lập trình và cung cấp các giao diện khai báo mức cao trên đỉnh của khung công tác MapReduce. Trước hết hay xem xét khung công
đang nạp các trang xem trước