Power BI là công cụ phân tích và trực quan hóa dữ liệu dành cho lĩnh vực Business Intelligence (BI) của Microsoft. Power BI có thể kết nối với nhiều nguồn dữ liệu với nhau và tạo ra mô hình dữ liệu bao gồm các biểu đồ và con số được tự động tính toán chi tiết. Với nhu cầu xem báo cáo với lượng dữ liệu lớn, PBI sẽ tối ưu hơn Excel hay Google Sheet.
Mình sẽ hướng dẫn mọi người cách tạo báo cáo một cách đơn giản nhất trên PBI, để mọi người đều có thể xây dựng báo cáo đơn giản nhất. Đơn giản là dữ liệu ko có lỗi, ko phải mất thời gian xử lý, dùng luôn data có sẵn, chỉ dùng dữ liệu để visualize, chưa dùng measurement tính toán gì cả.
Nguồn dữ liệu kết nối với PBI rất đa dạng: có thể kết nối trực tiếp với database rồi dùng MySQL, hay Google Bigquery, hay Google Sheet, đơn giản hơn là file xlsx hoặc csv. Trong bài này, mình sẽ dùng kết nối file xlsv.
Cấu trúc để làm báo cáo trên PBI có bảng Fact và bảng Dimension. Bảng Fact gồm các cột chứa dữ liệu của các quan sát, các sự kiện tùy vào lĩnh vực đang làm và các cột measurement (cột tính toán được). Ví dụ bạn trong lĩnh vực kinh doanh, bảng fact có thểm gồm cột Ngày, Khách Hàng, Sản phẩm, Giá tiền; hay trong lĩnh vực affiliate, bạn muốn xem Total Commision của từng campaign theo ngày thì sẽ có các cột Ngày, Campaign Name, Commission. Lưu ý bảng Fact sẽ luôn cần có cột measurement. Có thể có nhiều hơn một bảng Fact, tùy vào cách lưu trữ và mục đích làm report. Dữ liệu mà ko liên quan đến nhau thì cũng không có trong một bảng Fact, mà cần 2-3 bảng.
Bảng Dimension chứa các giá trị là duy nhất, chẳng hạn, mỗi dòng trong bảng Product thể hiện một sản phẩm duy nhất và mỗi dòng riêng biệt trong bảng Customer thể hiện một khách hàng duy nhất. Đối với biểu đồ tổng sales, bạn có thể nhóm dữ liệu để quan sát tổng sales chia theo sản phẩm, trong đó cột sản phẩm (product) nằm trong bảng dim.
Bảng Fact thường lớn hơn bảng Dim vì bảng Fact chứa rất nhiều sự kiện, ví dụ như chứa rất nhiều đơn hàng riêng biệt. Bảng Dim thì thường nhỏ hơn bởi vì thông thường bạn cần giới hạn số lượng các mục mà bạn có thể filter (lọc) và group (nhóm lại).
Cách thực hiện:
1. Kết nối data
Trước tiên, các bạn hãy tải PBI Desktop qua đường link: https://powerbi.microsoft.com/en-us/downloads/
Sau đó sẽ chọn “Get Data” để chọn nguồn kết nối trên PBI.
2. Load data:
3. Xử lý data:
Sau khi “Get Data”, các bạn chọn “Transform Data” cùng hàng với “Get Data”. Bảng nào mình cũng cần click vào “Use First Row as Headers” để lấy đúng tên cột.
Bên dưới là toàn cảnh màn hình xử lý data. Cột Query Settings sẽ lưu lại các bước các bạn xử lý. Bảng ở giữa là dữ liệu mình tải lên. Còn bên trái “Queries” hiện danh sách các bảng mà các bạn load.
4. Dim Date:
Cột Dim Date thường là cột được tạo trên PBI luôn vì tiện và nhanh, thay vì xử lý để có các bảng Dim còn lại. Các bạn chọn New Table để tạo 1 bảng mới, rồi điền công thức như ảnh, nôm na là tạo ra một cột có Start_Date từ 1/1/2024 đến End_Date 31/12/2024. Thời gian do bạn chọn, thường sẽ chọn thời gian cả một năm.
5. Kết nối các bảng Dim và bảng Fact:
Các bảng Dim cần kết nối với các cột thông tin ở bảng Fact, để khi filter, hay có 2 bảng Fact mà cần xem số liệu theo một chiều Dim thì cột đó dùng bảng Dim. Ảnh bên dưới, các bảng Dim kết nối với bảng Fact theo quan hệ 1-nhiều. Phần này sẽ ko đi chi tiết ở bài viết này.
6. Visualize:
Tùy theo mục đích muốn xem dữ liệu chiều nào, xem như thế nào thì chọn biểu đồ phù hợp. Giá trị mình chọn ở bảng Fact, còn cột xem theo Dimension nào thì dùng bảng Dimension đó.
Biểu đồ hình tròn bên dưới: Cột Commission lấy ở bảng Fact, còn Publisher Type lấy theo bảng Dimension Publisher Type. Thực ra với một bảng Fact, ta có thể dùng bảng Publisher Type ở bảng Fact, vì ko có dữ liệu của bảng Fact khác ảnh hưởng. Tuy nhiên để tạo thói quen và làm chuẩn từ đầu, ta nên dùng dữ liệu bảng Dim trong visualization.
Trên đây là chia sẻ và cách hướng dẫn cơ bản và đơn giản nhất để mọi người có thể tạo visualize trên PBI. Để chi tiết và dùng nhiều chức năng hơn, mình sẽ chia sẻ nếu nhiều bạn quan tâm!