
1) 【一句话结论】数据湖适合存储多源异构原始数据并支持灵活探索性分析,数据仓库适合对结构化数据进行主题化建模以支撑复杂OLAP分析;在政府机构需求下,需根据业务场景(如多源数据整合、灵活分析 vs 结构化报表)选择架构,通常采用“数据湖+数据仓库”混合模式。
2) 【原理/概念讲解】老师口吻,解释数据湖(Data Lake)是存储原始数据的集中式存储层,类似“水库”,包含结构化(如CSV)、半结构化(如JSON)、非结构化(如日志、文档)数据,不预先定义模式,通过工具(如Spark、Hive)进行计算;数据仓库(Data Warehouse)是面向主题、集成、时变、非易失性的结构化数据集合,用于支持决策支持系统(DSS)的OLAP分析,需经过ETL(抽取、转换、加载)处理,预先定义模式(如星型/雪花模型)。
类比:数据湖像“原始食材仓库”,食材未加工,可灵活烹饪;数据仓库像“加工好的成品菜”,按菜系分类,方便直接食用。
3) 【对比与适用场景】
| 特性/维度 | 数据湖 | 数据仓库 |
|---|---|---|
| 定义 | 存储原始多源数据(结构化/半/非结构化)的集中存储层 | 面向主题、集成、时变的结构化数据集合 |
| 核心特性 | 原始数据、无模式、灵活计算、成本较低 | 结构化、预建模、OLAP分析、数据一致性 |
| 使用场景 | 多源异构数据整合(如政务系统、传感器)、探索性分析、机器学习 | 结构化报表、复杂查询、实时/准实时分析(如BI报表) |
| 注意点 | 需要数据治理(元数据、数据质量)、避免数据冗余 | ETL成本高、模式变更难、适合稳定业务场景 |
4) 【示例】假设政府机构有“政务系统数据”(结构化表:用户信息、办事记录)、“传感器数据”(JSON格式:环境监测)、“文档数据”(PDF:政策文件)。
5) 【面试口播版答案】
“面试官您好,针对数据湖与数据仓库的差异及选择,核心结论是:数据湖适合存储多源异构原始数据并支持灵活探索性分析,数据仓库适合对结构化数据进行主题化建模以支撑复杂OLAP分析。在政府机构需求下,比如多源政务数据整合或灵活分析场景,优先选数据湖;若需结构化报表、复杂查询(如跨部门业务分析),则选数据仓库。通常采用混合架构,比如用数据湖存储原始数据,通过ETL构建数据仓库主题模型,满足不同业务需求。”
6) 【追问清单】
7) 【常见坑/雷区】