tailieunhanh - Tìm hiểu lý thuyết về Data WareHouse, Olap và BI ( Bussiness Intelligene)

DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. | Báo Cáo Đề Tài 5/29/2012 1 Nhóm 9 gồm các thành viên : Phạm Văn Đồng – 1042026 Phùng Siêu Diên – 1042018 Nguyễn Duy Khanh – 1042051 Phan Quốc Trung – 1041442 1 Nội dung 5/29/2012 2 Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 5/29/2012 3 Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 5/29/2012 4 5/29/2012 5 DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. Đặc trưng Hướng chủ thể Tính tích hợp Tính bền vững Gắn với thời gian Có tính lịch sử 5/29/2012 6 Chỉ đọc Không biến động Dữ liệu tổng hợp và chi tiết. Kiến trúc. 5/29/2012 7 Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau. Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường . | Báo Cáo Đề Tài 5/29/2012 1 Nhóm 9 gồm các thành viên : Phạm Văn Đồng – 1042026 Phùng Siêu Diên – 1042018 Nguyễn Duy Khanh – 1042051 Phan Quốc Trung – 1041442 1 Nội dung 5/29/2012 2 Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 5/29/2012 3 Định nghĩa Đặc trưng Kiến trúc Mô hình Xu hướng tương lai của data warehouse. 5/29/2012 4 5/29/2012 5 DWH là tập hợp dữ liệu tương đối ổn định (không hay thay đổi),cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý. Đặc trưng Hướng chủ thể Tính tích hợp Tính bền vững Gắn với thời gian Có tính lịch sử 5/29/2012 6 Chỉ đọc Không biến động Dữ liệu tổng hợp và chi tiết. Kiến trúc. 5/29/2012 7 Nguồn dữ liệu : Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau. Khu vực xử lý : Dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL). Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu , tải dữ liệu vào kho dữ liệu. 5/29/2012 8 Nhiệm vụ : kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi. Các bước tiến trình ETL gồm 3 bước: Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý. Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Các kiểu kiến trúc ETL : Có 3 kiểu kiến trúc ETL chính : 5/29/2012 9 Kiểu push: Trong kiến trúc này tiến trình ETL sẽ được chạy tại server chứa nguồn dữ liệu . Mỗi khi cập nhật dữ liệu mới tiến trình ETL sẽ xử lý tại nguồn dữ liệu sau đó đẩy dữ liệu mới đã được xử lý cho kho dữ liệu. Mô hình này thường được