假设360安全卫士的用户量从百万级增长到千万级，AI模型在线推理服务的请求量会大幅增加。请设计一个可扩展的架构方案，包括如何水平扩展服务节点、如何优化数据库查询、如何利用消息队列解耦服务，并说明如何监控扩展效果。

360Web服务端开发工程师-AI方向难度：困难

答案

1) 【一句话结论】

针对用户量从百万级增长到千万级带来的AI推理请求激增，设计基于水平扩展的服务集群、数据库分库分表+缓存优化、消息队列解耦的架构，并通过监控关键指标动态调整资源，实现系统可扩展性。

2) 【原理/概念讲解】

水平扩展是通过增加服务实例数量来分担请求压力，类比“增加工人数处理订单”；数据库优化需解决单库压力，分库分表将数据分散，缓存减少数据库查询，应对缓存雪崩需随机过期时间；消息队列（如Kafka）解耦服务，异步处理请求，削峰填谷，类比“快递中转站缓冲请求”。

3) 【对比与适用场景】

方案	定义	特性	使用场景	注意点
水平扩展（负载均衡+集群）	通过负载均衡器分发请求至多台服务实例	支持自动扩容，负载均衡算法（轮询、权重），服务注册发现	高并发请求，需水平扩展	需服务注册发现（如Consul），避免服务间通信问题
数据库优化（分库分表+缓存）	分库分表分散数据，缓存热点数据	分散压力，减少数据库查询，缓存雪崩应对（随机过期）	数据库压力大的场景	分库分表需处理数据倾斜（哈希分片），缓存需设置TTL随机化
消息队列（Kafka）	异步通信中间件，持久化消息	高吞吐、持久化、解耦	服务间异步调用，削峰	配置分区数、副本因子，消费者批量处理

4) 【示例】

服务注册发现（Consul）伪代码：

def register_service():
    consul_client = Consul()
    consul_client.register(service="ai_inference", address="ai-node-1:8080", port=8080)

数据库分库分表（哈希分片SQL）：

CREATE TABLE user_features (
    user_id BIGINT PRIMARY KEY,
    features JSON,
    model_version VARCHAR(20),
    created_at TIMESTAMP
) ENGINE=InnoDB
SHARDING_KEY(user_id) SHARDING_COUNT(8)  -- 8个分片，哈希分片

Kafka生产者请求示例：

{
  "user_id": "user_001",
  "action": "infer",
  "model": "gpt-3.5",
  "text": "分析用户行为",
  "timestamp": 1678886400
}

5) 【面试口播版答案】

（约90秒）
“面试官您好，针对用户量从百万级到千万级，AI推理请求量激增的场景，我设计的可扩展架构方案核心是通过水平扩展服务节点、优化数据库查询、利用消息队列解耦，并监控关键指标。首先，水平扩展方面，采用负载均衡器（如Nginx）分发请求至多台服务实例，通过Consul实现服务注册发现，动态发现新节点并负载均衡，支持自动扩容。数据库优化上，对热点数据（如用户特征、模型参数）使用Redis缓存，设置随机过期时间（TTL随机化）应对缓存雪崩；对用户表按ID哈希分片（分库分表），避免单库数据量过大，结合ShardingSphere插件处理跨库查询。消息队列方面，引入Kafka作为异步通信中间件，配置3个分区、2个副本因子，生产者批量发送（批量大小1MB），消费者批量处理（每批10条），解耦服务并削峰填谷。监控方面，通过Prometheus监控QPS、P95延迟、CPU/内存利用率，Grafana可视化，当QPS超过阈值时触发告警，动态调整服务实例和数据库分片数量。这样，系统可以随着请求量增长，通过增加服务节点、扩容数据库分片、增加消息队列分区来扩展，保证服务稳定性和性能。”

6) 【追问清单】

问：负载均衡器选Nginx还是HAProxy？
答：Nginx适合高并发，配置灵活，支持多种负载均衡算法（如轮询、权重），且与Consul结合实现动态服务发现；HAProxy更轻量，但Nginx在功能扩展性和配置复杂度上更优，适合大规模集群。
问：分库分表后如何处理数据倾斜问题？
答：采用哈希分片（如按user_id哈希）或结合范围分片与哈希分片，避免热点数据集中在一个分片；通过ShardingSphere的动态分片策略，根据数据分布调整分片规则，确保每个分片负载均衡。
问：消息队列Kafka的分区数和副本因子如何选择？
答：分区数根据并发消费者数量和吞吐量需求设定（如3-5个分区），副本因子设为2保证消息持久化；批量发送大小设为1MB减少网络开销。
问：监控哪些具体指标能反映扩展效果？
答：关注QPS、P95/P99延迟、CPU/内存利用率、数据库连接池等待时间、消息队列延迟（生产者/消费者延迟）、服务实例健康状态等。
问：如何保证分库分表后的数据一致性？
答：强一致性场景用分布式事务（如两阶段提交），最终一致性场景用事件溯源+消息队列；关键操作（如用户数据更新）通过Redis分布式锁确保一致性。

7) 【常见坑/雷区】

忽略缓存雪崩应对，导致缓存失效时大量请求冲击数据库，需设置随机过期时间或预加载热点数据。
水平扩展时未考虑服务注册发现，导致新节点无法被负载均衡器发现。
数据库分库分表未处理数据倾斜，导致部分分片负载过高。
消息队列未配置合适的分区数和副本因子，导致消息积压或丢失。
监控指标不全面，仅关注QPS而忽略延迟和资源利用率。