Data Lakehouse là gì? Vì sao Hà Nội cần xây "bộ não dữ liệu" cho toàn thành phố

UBND thành phố Hà Nội vừa ban hành Kế hoạch số 220/KH-UBND ngày 09/6/2026 về việc tổ chức tích hợp, di trú và chuẩn hóa dữ liệu vào Kho dữ liệu dùng chung (Data Lakehouse) của Thành phố.

Theo kế hoạch, Hà Nội đặt mục tiêu tích hợp tối thiểu 80% dữ liệu ưu tiên của các sở, ngành; cung cấp ít nhất 50 dịch vụ API dùng chung; giảm tối thiểu 30% thành phần hồ sơ người dân phải cung cấp lại và giảm 30% thời gian tra cứu, xác minh trong giải quyết thủ tục hành chính.

Đến ngày 30/10/2026, hệ thống Kho dữ liệu dùng chung sẽ chính thức vận hành trên phạm vi toàn thành phố.

Đây là một bước đi quan trọng trong lộ trình chuyển đổi số của Thủ đô, khi Hà Nội đặt mục tiêu đưa dữ liệu trở thành nền tảng cho công tác quản trị, điều hành và ra quyết định. Vậy, Data Lakehouse thực chất là gì và vì sao Hà Nội lại cần xây dựng một “bộ não dữ liệu” cho toàn thành phố?

Data Lakehouse là gì?

Có thể hình dung Data Lakehouse giống như một hồ chứa nước khổng lồ của thành phố.

Thay vì mỗi cơ quan giữ một "bể nước" riêng, tất cả dữ liệu sẽ được kết nối về một kho trung tâm.

Nhưng Data Lakehouse không đơn thuần là nơi lưu trữ.

Nó vừa là:

Kho chứa dữ liệu quy mô lớn (Data Lake) và Trung tâm xử lý và phân tích dữ liệu (Data Warehouse)

Hai mô hình này được kết hợp thành một hệ thống duy nhất.

Đó chính là lý do xuất hiện tên gọi:

Data + Lake + Warehouse = Data Lakehouse.

Nếu dữ liệu được ví như dầu mỏ của thời đại số thì Data Lakehouse chính là nhà máy lọc dầu.

Nơi dữ liệu thô được làm sạch, chuẩn hóa, liên kết và chuyển hóa thành thông tin hữu ích phục vụ quản lý.

Vì sao Hà Nội phải xây Data Lakehouse?

Trong nhiều năm qua, dữ liệu của chính quyền thường nằm rải rác ở các sở, ngành khác nhau.

Sở Quy hoạch có dữ liệu quy hoạch. Sở Nông nghiệp và Môi trường quản lý dữ liệu đất đai. Sở Tài chính quản lý ngân sách. Sở Y tế quản lý hồ sơ y tế.

Sở Giáo dục quản lý dữ liệu trường học.

Mỗi cơ quan xây dựng một hệ thống riêng.

Mỗi hệ thống có cấu trúc riêng.

Mỗi nơi lưu trữ theo cách riêng.

Kết quả là dữ liệu tồn tại rất nhiều nhưng lại khó kết nối với nhau.

Một cán bộ muốn phân tích tác động của một dự án đầu tư mới có thể phải lấy dữ liệu từ nhiều hệ thống khác nhau.

Người dân nhiều khi vẫn phải nộp đi nộp lại những thông tin mà cơ quan nhà nước thực tế đã có.

Vấn đề không phải thiếu dữ liệu.

Vấn đề là dữ liệu chưa được kết nối.

Nhiều người nghĩ Data Lakehouse đơn giản là nơi lưu trữ dữ liệu. Thực tế không phải vậy.

Thứ Hà Nội đang xây dựng là năng lực ra quyết định dựa trên dữ liệu. Một đô thị hiện đại không thể quản lý bằng cảm tính. Không thể dựa vào các báo cáo rời rạc được tổng hợp thủ công.

Các thành phố hàng đầu thế giới đang vận hành dựa trên dữ liệu thời gian thực.

Khi ùn tắc giao thông tăng lên, hệ thống biết.

Khi nguồn thu ngân sách thay đổi, hệ thống biết.

Khi giá đất biến động bất thường, hệ thống biết.

Khi dịch bệnh xuất hiện, hệ thống phát hiện sớm. Dữ liệu không còn là hồ sơ lưu trữ. Dữ liệu trở thành công cụ dự báo tương lai.

AI chỉ mạnh khi có Data Lakehouse?

Một chi tiết rất đáng chú ý trong kế hoạch của Hà Nội là việc thí điểm ứng dụng AI vào 5 bài toán ưu tiên của thành phố.

Nhiều nơi thường nghĩ rằng muốn có AI thì chỉ cần mua phần mềm AI. Thực tế hoàn toàn ngược lại.

AI mạnh hay yếu phụ thuộc vào chất lượng dữ liệu.

Nguyên tắc nổi tiếng trong giới công nghệ là:

"Garbage In, Garbage Out."

Dữ liệu đầu vào kém thì AI cũng cho ra kết quả kém.

Muốn AI dự báo kinh tế tốt hơn, cần dữ liệu kinh tế chuẩn hóa.

Muốn AI hỗ trợ xử lý phản ánh của người dân, cần dữ liệu phản ánh được chuẩn hóa.

Muốn AI hỗ trợ thẩm định đầu tư hay xây dựng, cần dữ liệu quy hoạch, đất đai, ngân sách và hồ sơ dự án được kết nối với nhau.

Nói cách khác: Data Lakehouse chính là nền móng. AI chỉ là tầng trên của tòa nhà.

Có thể nói, kế hoạch xây Data Lakehouse không chỉ là dự án công nghệ. Đây là bước chuyển từ số hóa hồ sơ sang số hóa năng lực quản trị. Từ việc lưu trữ dữ liệu sang khai thác dữ liệu.

Từ chính quyền điện tử sang chính quyền thông minh. Khi Data Lakehouse hoàn thiện, Hà Nội sẽ không chỉ sở hữu một kho dữ liệu lớn hơn.

Điều quan trọng hơn là thành phố sẽ sở hữu khả năng nhìn thấy các mối liên hệ mà trước đây bị chia cắt giữa các ngành, các lĩnh vực và các cấp quản lý.

Và trong kỷ nguyên AI, đó mới chính là tài sản chiến lược có giá trị nhất./.