Global Operations需要实时监控全球业务指标（如交易量、客户流失率），请设计一个实时数仓架构，包括数据采集、处理、存储和查询层，并说明如何保证数据的实时性和一致性。

三菱日联银行Global Operations难度：中等

答案

1) 【一句话结论】：采用流式实时数仓架构，以Kafka作为数据采集缓冲层，Flink作为实时计算引擎（支持事件时间与状态计算），ClickHouse作为列式存储（按地域+时间分区），通过Kafka事务+ Flink Exactly-Once（ATLE）保证数据一致性，统一UTC时区处理全球数据，实现交易量、客户流失率等指标的实时监控与查询。

2) 【原理/概念讲解】：老师口吻解释各层核心逻辑：

数据采集层：以Kafka为分布式消息队列，类似“数据中转站”，接收各业务系统（交易、CRM、用户行为）的实时数据流。生产者将数据写入Kafka主题，消费者（如Flink）订阅，实现数据源与处理层的解耦，支持高吞吐、高容错。配置分区数时，考虑吞吐量与消费组并行度，如1000万TPS，每个分区处理1000TPS，分区数=1000，副本数3防故障。
数据处理层：用Flink作为流处理引擎，支持状态计算（如用户行为序列）、窗口聚合（如小时窗口），处理事件时间（如交易时间转UTC）。加入数据清洗（过滤无效交易、填充缺失客户ID），减少存储量。设置watermark（延迟容忍窗口10秒），处理迟到数据，避免丢失。
数据存储层：选ClickHouse列式数据库，按地域（Asia/Europe）或业务线（交易/流失）分区，存储处理后的数据。列式存储（按列存储）适合聚合查询（如查询某区域1小时客户流失率），表结构按customer_id、hour、region分区，ORDER BY (customer_id, hour, region)，TTL 1小时删除旧数据。
数据查询层：通过ClickHouse SQL接口，业务系统实时查询指标（如“SELECT region, SUM(volume) FROM real_time_transactions WHERE hour >= now() - interval 1 hour GROUP BY region”）。列式存储加速聚合。
客户流失率计算逻辑：基于用户行为序列，定义活跃用户（连续7天有交易/登录），计算流失率（当前活跃用户数/历史总用户数 - 当前活跃用户数）。具体步骤：1. 生成用户行为事件（交易、登录）；2. 按用户ID聚合事件，计算最近7天活跃天数；3. 标记活跃用户（活跃天数≥1）；4. 计算流失率（1 - 当前活跃用户数/历史总用户数）。

3) 【对比与适用场景】：

层级	方案	定义	特性	使用场景	注意点
数据采集	Kafka	分布式消息队列，基于日志持久化	高吞吐（百万级TPS）、高容错（副本）、支持事务（0.11+）	业务系统实时数据流（交易、日志）	分区数=ceil(TPS/（目标吞吐量/分区数）)，副本数=3，避免积压
数据处理	Flink	分布式流处理引擎	低延迟（亚秒）、状态计算、窗口聚合、事件时间	实时计算指标（聚合、过滤）	状态管理：本地磁盘（小状态）或分布式存储（大状态）；watermark延迟容忍窗口（如10秒）
数据存储	ClickHouse	列式数据库	高效分析查询（聚合）、实时写入、表分区	实时指标存储与查询	列式存储适合聚合，按地域/时区分区优化查询；不适合随机写（插入单条慢）
数据查询	ClickHouse SQL	SQL接口	实时查询（亚秒）、复杂聚合	业务系统查询指标	分区策略影响性能（按区域分区后，聚合查询更快）

4) 【示例】：

Kafka生产者（Python，处理时区）：

from kafka import KafkaProducer
import json
from datetime import datetime, timezone

producer = KafkaProducer(bootstrap_servers='kafka:9092', value_serializer=lambda v: json.dumps(v).encode('utf-8'))

def process_data(data):
    local_dt = datetime.strptime(data['timestamp'], "%Y-%m-%d %H:%M:%S")
    utc_dt = local_dt.replace(tzinfo=timezone.utc)
    data['timestamp'] = utc_dt.isoformat()
    return data

data = {"transaction_id": 1, "amount": 100, "customer_id": 101, "timestamp": "2024-01-01 10:00:00", "region": "Asia", "user_event": "login"}
processed = process_data(data)
producer.send('global_events', value=processed)

Flink作业（伪代码，处理交易与用户行为，计算流失率）：

DataStream<Transaction> transactionStream = env
    .socketTextStream("localhost", 9999)
    .map(new SimpleStringToTransactionMapper());

DataStream<UserEvent> userEventStream = env
    .socketTextStream("localhost", 9998)
    .map(new SimpleStringToUserEventMapper());

DataStream<User> activeUsers = transactionStream
    .keyBy(t -> t.customer_id)
    .flatMap(new UserActivityMapper())
    .union(userEventStream
        .keyBy(e -> e.customer_id)
        .flatMap(new UserActivityMapper()));

DataStream<User> activeCount = activeUsers
    .keyBy(u -> u.customer_id)
    .window(TumblingEventTimeWindow.of(Time.days(7)))
    .reduce(new ActiveDaysReducer());

DataStream<User> activeUsersStream = activeCount
    .filter(u -> u.active_days >= 1)
    .map(new ActiveUserMapper());

DataStream<ChurnRate> churnRate = activeUsersStream
    .keyBy(u -> u.region)
    .window(TumblingEventTimeWindow.of(Time.hours(1)))
    .reduce(new ChurnRateReducer());

churnRate.addSink(new ClickHouseSink("clickhouse:8123", "real_time_churn_rate", "region"));

ClickHouse表创建与查询（流失率表）：

CREATE TABLE real_time_churn_rate (
    region String,
    hour UInt32,
    churn_rate Float64,
    PRIMARY KEY (region, hour) WITH TTL (1 hour)
) ENGINE = MergeTree
    ORDER BY (region, hour);

SELECT region, hour, churn_rate
FROM real_time_churn_rate
WHERE hour >= now() - interval 1 hour;

5) 【面试口播版答案】：面试官您好，针对实时监控全球业务指标的需求，我设计的实时数仓架构分为四层：数据采集、处理、存储和查询。首先，数据采集层采用Kafka作为消息队列，接收各业务系统的实时数据流（如交易、用户行为、CRM数据），通过生产者写入Kafka主题，消费者（Flink）订阅。处理层用Flink计算指标，比如按小时窗口聚合交易量，同时处理数据清洗（过滤无效交易、填充缺失客户ID），并统一时区为UTC（将本地时区数据转换为UTC时间）。存储层用ClickHouse列式数据库，按地域（如Asia、Europe）或业务线分区存储数据，优化查询性能。为保证实时性和一致性，Kafka通过0.11+事务机制确保生产者写入不丢失，Flink结合Exactly-Once语义（ATLE）保证数据不重复，针对客户流失率等复杂指标，基于用户行为序列计算（如连续7天活跃的用户为活跃用户，流失率=1-当前活跃用户数/历史总用户数），最终实现全球业务指标的实时监控与查询。

6) 【追问清单】：

问题1：如何处理全球业务数据的多时区问题？
回答要点：统一将各业务系统的本地时区数据转换为UTC时间（如交易时间本地时区为Asia/Shanghai，转换为UTC），确保指标计算基于统一时间基准，避免时区差异影响聚合结果。
问题2：如果业务数据存在延迟，如何通过Flink的watermark机制处理？
回答要点：设置Flink的watermark延迟容忍窗口（如10秒），当数据延迟超过该窗口时，Flink会处理迟到数据，避免数据丢失，同时业务系统可查询历史数据（如延迟数据补全）。
问题3：ClickHouse的表分区策略如何支持全球指标的高效查询？
回答要点：按地域（如Asia、Europe）或业务线（如交易、流失）分区，将数据分散存储，查询时仅扫描对应分区，减少I/O开销，提升聚合查询性能（如查询某区域1小时内的客户流失率）。
问题4：客户流失率等复杂指标的计算逻辑具体如何实现？
回答要点：基于用户行为序列，定义活跃用户（连续7天有交易/登录），计算活跃用户数，再计算流失率（1-当前活跃用户数/历史总用户数），通过Flink的窗口聚合和状态管理实现。
问题5：数据一致性如何保证？具体流程是怎样的？
回答要点：通过Kafka事务机制（生产者写入确认）和Flink的Exactly-Once语义（ATLE），事务提交时，生产者确认写入，消费者确认处理，确保数据从生产者到消费者的传输和计算过程中无丢失、无重复，最终实现最终一致性。

7) 【常见坑/雷区】：

坑1：忽略全球业务数据的多时区处理，未统一时区（如直接使用本地时区）。
雷区：时区差异会导致指标计算错误（如交易量、客户流失率），被问“如何保证全球数据的时间一致性？”。
坑2：Flink watermark配置不合理（如延迟容忍窗口设置过小）。
雷区：数据延迟时，Flink无法处理迟到数据，导致数据丢失或查询结果不准确，被问“如何处理数据延迟？”。
坑3：ClickHouse表设计未按地域分区，导致全球指标查询性能下降。
雷区：聚合查询需要扫描全表，I/O开销大，被问“为什么选择按地域分区？”。
坑4：客户流失率等复杂指标的计算逻辑描述不深入，仅说“计算流失率”但未说明具体步骤（如活跃用户定义、时间窗口）。
雷区：被追问“如何计算客户流失率？”，无法解释具体实现。
坑5：数据一致性机制描述不深入，仅说“保证一致性”但未说明具体技术（如Exactly-Once、Kafka事务）。
雷区：被追问“如何避免数据重复或丢失？”，无法解释具体流程。