设计一个实时数据仓库（数仓），用于分析交易数据（如成交额、换手率），请说明数据采集、ETL流程、数据模型（星型/雪花模型）和查询性能优化。

上海证券交易所A03难度：困难

答案

1) 【一句话结论】设计一个以流式处理为核心的实时数据仓库，采用星型模型为主，通过实时ETL（如Flink）采集交易数据，结合列式存储和索引优化查询性能，满足成交额、换手率等指标的实时分析需求。

2) 【原理/概念讲解】
实时数据仓库的核心是“实时性”，区别于传统数仓的批量处理（如每日凌晨加载）。数据采集需适配高频流数据（如交易系统每秒数千笔数据），因此采用流式采集（如Kafka消息队列），将数据实时推送到处理层。
ETL流程分为“实时ETL”和“加载”两步：实时ETL（如Flink）负责数据清洗（过滤无效数据）、转换（计算换手率=成交量/总股本）、格式化，先写入中间层（如HDFS或Kafka）；再通过批量加载工具（如Sqoop）将数据加载到数据仓库。
数据模型方面，星型模型是经典选择：由“事实表”（核心业务数据，如交易事实表，包含交易ID、成交额、时间戳等）和“维度表”（描述事实的维度，如股票维度表、时间维度表）组成，结构简单，查询效率高；雪花模型是星型的扩展（维度表进一步拆分），适合维度复杂但查询简单的情况。
查询性能优化需从存储和索引入手：使用列式存储（如Parquet）减少I/O（只读取查询需要的列）；对事实表按时间戳、股票代码创建索引；针对高频查询（如按日聚合成交额），生成预聚合表，减少实时查询的计算量。

3) 【对比与适用场景】

模型类型	定义	特性	使用场景	注意点
星型模型	事实表+维度表（无嵌套）	维度少，结构简单，查询效率高	交易数据（成交额、换手率）分析，维度较少	维度扩展需重新建模
雪花模型	星型维度表进一步拆分	维度多，结构复杂，查询可能冗余	维度复杂（如多级市场、多级时间）分析	查询性能稍低，维护复杂

4) 【示例】

数据采集：交易系统将每笔交易数据（股票代码、成交价格、成交量、时间戳）推送到Kafka主题“trade_stream”。
ETL流程：Flink消费Kafka数据，过滤无效数据，计算换手率后写入中间表“trade_realtime”，再通过Flink加载到数据仓库事实表“trade_fact”。
数据模型：
- 事实表“trade_fact”：字段包括trade_id（主键）、stock_code（外键，关联“stock_dim”）、trade_amount（成交额）、trade_volume（成交量）、trade_time（时间戳）、trade_timestamp（外键，关联“time_dim”）。
- 维度表“stock_dim”：字段包括stock_code、stock_name、market_type等；“time_dim”：字段包括timestamp、day、month、year等。
查询性能优化：对“trade_fact”按trade_time创建时间索引，对stock_code创建哈希索引，按日聚合成交额生成预聚合表“trade_amount_daily”。

5) 【面试口播版答案】
面试官您好，针对实时交易数据分析，我设计如下方案：首先，数据采集采用流式架构，用Kafka接收交易系统推送的实时数据流，确保低延迟。然后，ETL流程用Flink处理，完成数据清洗、计算（如换手率）后，先写入中间层，再加载到数据仓库。数据模型采用星型模型，事实表存储核心交易数据（成交额、成交量），维度表包括股票和时间维度，结构清晰，查询效率高。查询性能优化方面，使用列式存储（如Parquet）减少I/O，对事实表按时间戳创建索引，并按日预聚合生成预聚合表，提升常用查询速度。这样能实现成交额、换手率的实时分析，满足业务需求。

6) 【追问清单】

问题1：如何保证数据采集的实时性和可靠性？
回答要点：使用Kafka的持久化机制和Flink的Exactly-Once状态管理，确保数据不丢失且无重复。
问题2：如果数据量激增（如交易量从百万级到千万级），如何优化？
回答要点：扩展Kafka分区，增加Flink并行度，使用列式存储和预聚合表，提升处理和查询能力。
问题3：星型模型中维度表如何扩展（如新增“用户维度”）？
回答要点：在维度表中增加新字段，更新事实表的外键关联，无需重建整个模型。
问题4：实时ETL的容错机制是什么？
回答要点：Flink的Checkpoint机制，确保故障后数据不丢失且可恢复。
问题5：查询性能优化中，预聚合表的设计原则是什么？
回答要点：针对高频查询的维度组合（如按日、按月聚合），减少实时查询的计算量。

7) 【常见坑/雷区】

坑1：混淆实时与批量数据采集，用传统数据库批量导入，导致延迟过高。
坑2：未考虑数据模型的选择，直接用雪花模型，导致维度复杂，查询性能下降。
坑3：未提及列式存储和索引，导致查询性能优化不足。
坑4：忽略数据量增长的处理，未设计扩展方案。
坑5：未说明实时ETL的容错机制，被问及故障恢复时无准备。