Data Warehouse là gì? Tổng quan kiến thức
Data Warehouse là gì? Tổng quan kiến thức
Mỗi ngày, các các nhân hoặc doanh nghiệp thuộc lĩnh vực công nghệ đều tiếp nhận và xử lý một lượng dữ liệu nhất định. Theo thời gian thì lượng dữ liệu sẽ trở nên khổng lồ và đòi hỏi có một nơi để có thể lưu trữ được hết số lượng lớn dữ liệu nói trên, đảm bảo dữ liệu được lưu trữ một cách tối ưu, dễ tìm kiếm, hiệu quả cho quá trình phân tích, nâng cao tốc độ cho hệ thống thì được gọi là một kho dữ liệu. Data Warehouse sẽ trực tiếp đảm nhận nhiệm vụ này. Vậy Data Warehouse là như thế nào? Đặc điểm của kho dữ liệu và sự khác biệt giữa Data Warehouse với Database? Cùng R2S tìm hiểu ở bài viết dưới đây nhé.
Data Warehouse là gì?
Data warehouse là một dạng kho dữ liệu giúp quản lý dữ liệu hệ thống cho phép hỗ trợ các hoạt động kinh doanh một cách thông minh, đặc biệt là hoạt động phân tích dữ liệu. Data Warehouse chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu. Dữ liệu trong Data Warehouse thường được lấy từ nhiều nguồn như tệp nhật ký ứng dụng và ứng dụng giao dịch như: phần mềm bán hàng, kế toán, nhân sự hay hệ thống lõi ngân hàng,….
Data Warehouse là cốt lõi của hệ thống BI được xây dựng để phân tích và báo cáo dữ liệu. Bạn có biết rằng một cơ sở dữ liệu được thiết kế 3NF cho một hệ thống kiểm kê, nhiều cơ sở có các bảng liên quan với nhau.
Với khả năng phân tích của Data Warehouse, các tổ chức được phép thu thập những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để tiến hành cải thiện và đưa ra các quy định. Từ đó theo thời gian, một doanh nghiệp có thể xây dựng được một hồ sơ lịch sử có giá trị đối với các nhà Data Science và nhà phân tích kinh doanh.
#Hệ thống Data Warehouse còn được gọi bằng những tên sau:
- Hệ thống hỗ trợ quyết định – Decision Support System.
- Hệ thống điều hành thông tin – Executive Information System.
- Hệ thống thông tin quản lý – Management Information System.
- Giải pháp kinh doanh thông minh – Business Intelligence Solution.
- Ứng dụng phân tích – Analytic Application.
#Một Data Warehouse điển hình thường bao gồm các yếu tố sau:
- Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.
- Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.
- Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.
- Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
- Các ứng dụng phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
- Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.
Data Warehouse có những đặc tính như thế nào?
Sau khi tìm hiểu Data Warehouse là gì? Các yếu tố mà Data warehouse có được thì R2S sẽ cùng bạn tiếp tục tìm hiểu về những đặc tính của Data warehouse là như thế nào nhé.
#Hướng chủ đề (Subject-oriented)
Hướng chủ đề tức thông tin trong Data Warehouse sẽ được tổ chức và sắp xếp theo một chủ đề nhất định. Ví dụ, chủ đề phân tích bệnh án bệnh nhân, bệnh liên quan đến tim, thì bác sỹ cần quan tâm không chỉ một mà còn phải có các chỉ số liên quan đến máu, chỉ số về huyết áp, nhịp tim, điện tâm đồ. Ngoài ra còn cần theo dõi theo thời gian để xem xét sự thay đổi mà có phương pháp điều trị kịp thời. Trong trường hợp này thời gian được gọi là chiều phân tích.
Mục đích của Kho dữ liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể được gọi là chủ đề.
#Được tích hợp (Integrated)
Dữ liệu cần phân tích nằm rải rác tại những phòng ban khác nhau và cần tích hợp lại. Từ đó, tổng hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu cho phép chúng ta có thể xem đồng thời nhiều nhóm chỉ tiêu khác nhau. Quá trình tích hợp này sẽ được thực hiện trong quá trình ETL.
#Có gán nhãn thời gian (Time Variant)
Vì dữ liệu thay đổi liên tục nên chúng sẽ được gán 1 nhãn thời gian tương ứng tại thời điểm nhập liệu. Việc gắn thời gian này giúp ta dễ dàng so sánh dữ liệu với nhau để biết được các thay đổi đang đi theo chiều hướng tích cực hay tiêu cực.
Ví dụ, so sánh độ đo doanh thu của một mặt hàng của tháng hiện tại với tháng trước, tháng này năm trước thì sẽ có nhiều thông tin hơn để đánh giá doanh thu của mặt hàng đó là tốt hay không, trên cơ sở đó sẽ có các quyết định phù hợp. Ngoài ra, dữ liệu lịch sử còn cho phép dự báo được tương lai khi ứng dụng khai phá dữ liệu.
#Bất biến (Non-Volatile)
Dữ liệu trong Kho dữ liệu có chức năng báo cáo lại các chỉ số về hoạt động kinh doanh thực tế đã xảy ra do đó không thể cập nhật, thay đổi vì nó sẽ không phản ánh đúng thực tế. Vì vậy, với kho dữ liệu chỉ có 2 thao tác chính là tải dữ liệu vào kho và truy cập dữ liệu từ kho.
Những lợi ích mà Data Warehouse mang lại
Data Warehouse mang lại lợi ích bao trùm và duy nhất là cho phép các tổ chức phân tích một lượng lớn dữ liệu biến thể và trích xuất giá trị đáng kể từ nó, cũng như lưu giữ hồ sơ lịch sử.
Bốn đặc điểm độc đáo (được mô tả bởi nhà khoa học máy tính William Inmon, người được coi là cha đẻ của kho dữ liệu) cho phép các kho dữ liệu mang lại lợi ích bao trùm này là:
- Theo định hướng chủ đề – Họ có thể phân tích dữ liệu về một chủ đề hoặc lĩnh vực chức năng cụ thể chẳng hạn như bán hàng.
- Tích hợp – Kho dữ liệu tạo ra sự nhất quán giữa các kiểu dữ liệu khác nhau từ các nguồn khác nhau.
- Cố định dữ liệu – Khi dữ liệu nằm trong kho dữ liệu, nó ổn định và không thay đổi.
- Biến thể thời gian – Phân tích kho dữ liệu xem xét sự thay đổi theo thời gian.
Một Data Warehouse được thiết kế tốt sẽ thực hiện các truy vấn rất nhanh chóng, cung cấp thông tin lượng dữ liệu cao và cung cấp đủ tính linh hoạt cho người dùng cuối hoặc giảm khối lượng dữ liệu để kiểm tra kỹ hơn nhằm đáp ứng nhiều nhu cầu khác nhau cho dù ở mức độ rất tốt, chi tiết. Kho dữ liệu đóng vai trò là nền tảng chức năng cho môi trường phần mềm BI trung gian cung cấp cho người dùng cuối các báo cáo, trang tổng quan và các giao diện khác.
Data Warehouse có những điểm khác biệt nào so với Database
Để có thể giúp các bạn dễ hiểu hơn khi tiến hành so sánh giữa Data warehouse với Database, R2S tham khảo và tổng hợp 1 bảng so sánh sau đây:
Bảng so sánh giữa Database và Data warehouse
Tham số | Database | Data Warehouse |
Mục đích | Được thiết kế để lưu lại bản ghi. | Được thiết kế để phân tích. |
Xử lý | Online Transactional Processing (OLTP). | Online Analytical Processing (OLAP). |
Bảng và Joins | Bảng và joins các bảng phức tạp, mối quan hệ, chuẩn hóa. | Không được chuẩn hóa. |
Định hướng | Phục vụ định hướng cho ứng dụng, sản phẩm. | Định hướng cho các loại mục đích khác nhau. |
Giới hạn lưu trữ | Thường giới hạn trong 1 ứng dụng. | Lưu trữ dữ liệu từ nhiều nguồn khác nhau. |
Độ khả dụng | Dữ liệu có sẵn từ thời gian thực, cần là có. | Được làm mới khi cần thiết từ nhiều nguồn khác nhau, cần thì phải đợi hệ thống chạy tạo lại dữ liệu định kỳ cần thiết. |
Sử dụng | Kỹ thuật mô hình ER được sử dụng | Kỹ thuật mô hình dữ liệu được sử dụng |
Kỹ thuật | Capture dữ liệu | Analyze dữ liệu |
Loại dữ liệu | Dữ liệu được lưu trữ trong Cơ sở dữ liệu được cập nhật. | Dữ liệu hiện tại và lịch sử được lưu trữ. Có thể không được cập nhật. |
Lưu trữ dữ liệu | Phương pháp tiếp cận quan hệ phẳng được sử dụng để lưu trữ dữ liệu. | Sử dụng phương pháp tiếp cận đa chiều và chuẩn hóa cho cấu trúc dữ liệu. Ví dụ: Lược đồ sao và bông tuyết. |
Loại truy vấn | Các truy vấn giao dịch đơn giản được sử dụng. | Các truy vấn phức tạp được sử dụng cho mục đích phân tích. |
Tóm tắt dữ liệu | Lưu dữ liệu chi tiết. | Lưu trữ dữ liệu tóm tắt. |
Lời kết
Bài viết lần này R2S mang lại đã phần nào giới thiệu tổng quan sơ lược về kiến thức của Data Warehouse. Với thời đại dữ liệu về nền tảng công nghệ ngày càng lớn thì Data Warehouse là một giải pháp tối ưu giúp lưu trữ dữ liệu một cách đầy đủ nhằm đảm bảo hiệu quả cho các hoạt động kinh doanh và cả một hệ thống. Để hiểu sâu hơn nữa về Data Warehouse bạn có thể tìm hiểu thêm về cách thức hoạt động chuyên sâu cũng như cấu trúc và các khái niệm có liên quan đến như OLTP, OLAP,…
R2S Academy cung cấp các khóa học lập trình CNTT, nếu bạn quan tâm và mong muốn học hỏi, trải nghiệm cũng như được thực hành các kiến thức đã học bạn có thể tham khảo TẠI ĐÂY nhé. R2S xin chân thành cảm ơn.