构建销售数据实时看板，展示销量、市场份额等指标。请设计数据采集、处理、展示流程，并解释实时性和一致性保障。

长安汽车生态产品难度：中等

答案

1) 【一句话结论】采用“流式数据采集-实时计算处理-实时数据库存储-可视化工具展示”的链路，通过消息队列保障数据传输可靠性，流计算保障低延迟实时性，结合最终一致性或分布式事务保障数据一致性。

2) 【原理/概念讲解】老师口吻，解释核心环节：

数据采集：从销售系统、CRM等多源系统，通过API或消息队列（如Kafka）实时推送销量数据（类比“快递员”从各仓库取数据，确保数据不丢失）。
数据处理：用流计算框架（如Flink）消费数据，实时计算销量、市场份额等指标（类比“分拣中心”实时处理包裹，低延迟响应）。
数据存储：写入实时数据库（如ClickHouse），支持秒级查询（类比“快递柜”存储处理后的数据，快速检索）。
数据展示：用可视化工具（如Superset）连接实时数据库，生成包含销量、市场份额的实时看板（类比“展示柜”实时展示包裹状态）。

3) 【对比与适用场景】

方案	定义	特性	使用场景	注意点
流式计算（Flink）	实时处理持续数据流	低延迟（秒级）、状态管理、容错	需要实时指标（如销量、市场份额）	需要熟练开发，资源消耗较高
批处理（Spark批）	定期处理历史数据	高吞吐、适合离线分析	历史报表、数据挖掘	无法满足实时性要求
消息队列（Kafka）	分布式消息系统	高吞吐、持久化、顺序保证	数据采集中作为缓冲	需要管理集群，消息积压风险

4) 【示例】
假设销售系统通过Kafka生产者推送销量数据（JSON格式：{"product_id": "A001", "sales": 100, "timestamp": "2024-01-01T10:00:00Z"}），Flink作业消费该主题，计算每个产品的实时销量和市场份额（市场份额=该产品销量/总销量），然后写入ClickHouse的sales_table表。伪代码示例（Flink SQL）：

-- Kafka输入
CREATE TABLE sales_kafka (
    product_id STRING,
    sales BIGINT,
    ts TIMESTAMP(3)
) WITH (
    'connector' = 'kafka',
    'topic' = 'sales_topic',
    'properties.bootstrap.servers' = 'kafka:9092',
    'format' = 'json'
);

-- 计算总销量和市场份额
CREATE TABLE sales_metrics (
    product_id STRING,
    sales BIGINT,
    market_share DOUBLE
) WITH (
    'connector' = 'clickhouse',
    'url' = 'jdbc:clickhouse://clickhouse:8123',
    'table' = 'sales_metrics'
);

INSERT INTO sales_metrics
SELECT
    product_id,
    SUM(sales) AS sales,
    SUM(sales) / SUM(SUM(sales)) OVER () AS market_share
FROM sales_kafka
GROUP BY product_id, ts;

展示部分：用Superset连接ClickHouse，创建仪表盘，包含“实时销量”“市场份额”等卡片。

5) 【面试口播版答案】
“面试官您好，针对构建销售数据实时看板的需求，我设计了一套‘流式采集-实时计算-实时存储-可视化展示’的方案。首先，数据采集阶段，从销售系统、CRM等多源系统通过API或消息队列（如Kafka）实时推送销量数据；然后，数据处理阶段，用流计算框架（如Flink）消费数据，实时计算销量、市场份额等指标；接着，数据存储阶段，写入实时数据库（如ClickHouse），支持秒级查询；最后，展示阶段，用可视化工具（如Superset）连接实时数据库，生成包含销量、市场份额的实时看板。保障实时性方面，消息队列确保数据传输低延迟，流计算处理延迟控制在秒级；一致性保障通过消息队列的持久化保证数据不丢失，结合最终一致性（如事件溯源）确保数据一致性，避免强一致性带来的性能损失。”

6) 【追问清单】

问题：如何处理数据源不一致的情况？
回答要点：通过数据校验规则（如格式、值范围校验），确保数据质量；异常数据记录日志并告警，后续人工干预或自动修复。
问题：实时性要求具体到多少秒？如何保证？
回答要点：假设要求秒级实时，通过消息队列批量发送+流计算的并行处理，结合多节点Flink集群降低延迟；同时监控延迟指标，超阈值时触发告警。
问题：数据安全方面如何保障？
回答要点：数据采集用HTTPS加密传输，存储时对敏感字段脱敏/加密，可视化工具设置权限，仅授权人员可查看数据。

7) 【常见坑/雷区】

只讲传统ETL（批处理）方案，忽略实时性需求；
未提及一致性保障措施，被追问“数据源更新延迟时，看板数据是否准确？”；
展示工具选错（如用静态报表工具代替实时可视化工具）；
数据采集方案单一，未考虑多源系统数据整合；
未考虑容错性，流计算作业失败时数据丢失如何处理。