设计一个为360安全产品（如360安全卫士、360浏览器）提供实时恶意广告/恶意软件图标检测的图像处理系统，需要支持百万级图片/秒的请求，并保证低延迟（<100ms），请描述系统架构、关键组件、数据流以及如何保证高可用性和可扩展性。

360视觉算法工程师难度：困难

答案

1) 【一句话结论】

采用“前端负载均衡+多级缓存+分布式实时流处理+轻量化模型服务集群”架构，通过模型量化/剪枝降低推理延迟，结合流式处理和缓存减少重复计算，实现百万级请求/秒且延迟<100ms的恶意图标实时检测。

2) 【原理/概念讲解】

老师口吻解释系统核心组件：

前端负载均衡：用Nginx+LVS分发请求到多个检测节点，避免单点压力。
多级缓存：内存缓存（Redis）存储高频图片的检测结果，分布式缓存（如Memcached）扩展容量，优先查缓存减少模型调用。
模型服务：部署轻量化模型（如MobileNetV2+INT8量化），推理延迟控制在30ms内，通过MLOps平台（如Serving）管理模型版本。
实时流处理：用Kafka接收图片数据流，Flink进行特征提取（如CNN提取恶意图标特征）和模型推理，支持百万级吞吐。
后端存储：Elasticsearch存储检测日志，支持快速查询和告警。

类比：缓存就像超市货架，先查货架有没有商品（已检测结果），没有再加工（检测图片）；流处理就像生产线，图片进来后快速处理，不积压。

3) 【对比与适用场景】

方案	定义	特性	使用场景	注意点
传统批处理	定期批量处理图片	延迟高（分钟级），适合离线分析	离线报告、历史数据挖掘	不适合实时检测
实时流处理（Kafka+Flink）	每条图片请求实时处理	延迟低（毫秒级），支持实时响应	实时恶意检测、实时告警	需高吞吐处理，资源消耗大
多级缓存（内存+分布式）	分层缓存，先查内存，再查分布式	内存缓存速度快，分布式缓存扩展性好	高频请求的图片结果	需防缓存击穿/雪崩
轻量化模型（量化/剪枝）	降低模型参数量，减少推理时间	推理延迟<50ms，适合实时场景	恶意图标检测、轻量级识别	可能牺牲部分精度，需平衡精度与速度

4) 【示例】

HTTP请求示例（前端调用）：

POST /detect
Content-Type: image/jpeg
{
  "image": "base64编码的图片数据"
}

流处理消息示例（Kafka消息）：

{
  "image_id": "img_12345",
  "image_data": "base64编码",
  "timestamp": 1672531200
}

5) 【面试口播版答案】

面试官您好，针对360安全产品的实时恶意图标检测需求，我设计的系统核心是采用前端负载均衡+多级缓存+分布式实时流处理+轻量化模型服务的架构。具体来说，前端通过Nginx分发请求到多个检测节点，缓存层用Redis存储高频图片的检测结果，减少重复计算；模型服务部署了量化后的MobileNetV2模型，推理延迟控制在30ms以内；实时流处理用Kafka接收图片数据，Flink进行特征提取和模型推理，确保百万级请求/秒的吞吐。同时，通过模型异步更新（如K8s滚动更新）保证高可用，通过水平扩展检测节点实现可扩展性，最终满足<100ms的延迟要求。

6) 【追问清单】

模型更新如何保证服务不中断？
- 回答要点：采用K8s滚动更新，更新时新旧版本并行，旧版本处理新请求，新版本处理旧请求，避免服务中断。
如何解决缓存击穿问题？
- 回答要点：设置分布式锁（如Redis分布式锁），或者使用互斥锁，或者预加载热门数据。
模型轻量化的具体方法？
- 回答要点：量化（如INT8量化）、剪枝（去除冗余权重），或使用MobileNetV2等轻量网络结构。
系统如何实现高可用？
- 回答要点：检测节点部署在多可用区，负载均衡器冗余，缓存集群高可用，模型服务集群（多个实例）。
如何处理不同分辨率的图片？
- 回答要点：模型输入统一缩放（如固定尺寸224x224），或使用自适应输入的模型（如EfficientNet的动态缩放）。

7) 【常见坑/雷区】

忽略模型推理延迟：若模型本身推理时间长（如秒级），即使缓存和流处理优化，也无法满足延迟要求，需选择轻量模型。
缓存策略不当：只使用内存缓存导致缓存失效后频繁查询模型，反而增加延迟；或分布式缓存未考虑一致性，导致结果不一致。
扩展性设计不足：仅水平扩展检测节点，未考虑模型服务的扩展，或流处理框架的吞吐限制，高负载时性能下降。
未考虑异步更新：模型更新时直接重启服务，导致检测服务中断，需设计平滑更新机制。
忽略数据预处理：不同图片分辨率、格式导致模型输入不一致，影响推理效率和准确性，需统一预处理。