为360的AI安全系统设计可观测性方案，需要监控哪些关键指标？如何通过日志、监控、链路追踪来定位AI模型故障？请举例说明。

360AI算法安全研究员难度：中等

答案

1) 【一句话结论】为360 AI安全系统设计可观测性方案，需监控模型性能（推理延迟、错误率、资源消耗）、系统资源（CPU/内存/网络），结合结构化日志（记录输入/输出/错误）、链路追踪（调用链回溯），通过指标告警、日志关联、链路回溯快速定位模型或系统故障。

2) 【原理/概念讲解】可观测性是理解系统状态的核心能力，分为三个维度：

指标（Metrics）：量化系统状态的时间序列数据（如数值、计数），实时反映系统“健康”状态。类比：人的体温、心率，直观反映系统是否异常。
日志（Logs）：系统事件的文本记录（如请求参数、错误堆栈、模型输出），提供上下文细节。类比：系统日记，记录每一步操作和异常。
链路追踪（Tracing）：追踪请求在系统中的调用链（如服务间跳转、时间戳），关联不同服务间的请求。类比：GPS轨迹，记录请求的每一步路径。

指标用于实时监控趋势（如延迟上升），日志用于分析具体故障（如错误堆栈），链路追踪用于定位调用链中的瓶颈或错误。

3) 【对比与适用场景】

维度	定义	特性	使用场景	注意点
指标	量化系统状态的时间序列数据（如数值、计数）	实时、可聚合、可告警	监控模型性能（如延迟、错误率）、资源使用（CPU/内存）	需合理设置阈值，避免告警泛滥
日志	系统事件的文本记录（如请求参数、错误堆栈）	上下文丰富、可搜索、可关联	分析具体故障（如模型输出错误）、调试问题	需结构化日志，便于分析
链路追踪	请求在系统中的调用链（如服务间跳转、时间戳）	跨服务关联、可回溯、可聚合	定位调用链中的瓶颈或错误（如模型服务调用失败）	需分布式追踪技术（如Jaeger）

4) 【示例】
假设模型推理服务，监控指标：推理耗时（毫秒）、错误率（%）、CPU使用率（%）；日志：记录输入数据（如文本特征向量）、模型输出（如分类结果）、错误信息（如“输入数据格式错误”）；链路追踪：用户请求→预处理服务（清洗文本）→模型服务（调用AI模型）→后处理服务（格式化结果）。
当指标显示推理延迟超过200ms时，日志可能记录“模型加载失败”，链路追踪显示模型服务调用失败，快速定位到模型服务中的模型文件加载异常。

5) 【面试口播版答案】
面试官您好，为360的AI安全系统设计可观测性方案，核心是监控模型性能、系统资源，结合日志和链路追踪定位故障。具体来说，需监控的关键指标包括：模型推理延迟（如毫秒级）、错误率（如分类错误率）、资源消耗（CPU/内存使用率）；系统资源指标如服务器CPU、内存、网络带宽。通过日志记录输入数据、模型输出、错误堆栈，比如当模型输出错误时，日志能显示具体错误信息；链路追踪追踪请求调用链，比如用户请求→预处理→模型推理→后处理，若模型推理延迟过高，链路追踪能定位到模型服务中的模型加载或推理步骤。例如，当指标显示推理延迟超过200ms时，日志可能记录“模型加载失败”，链路追踪显示模型服务调用失败，快速定位到模型服务中的模型文件加载异常，从而及时修复。

6) 【追问清单】

问：如何定义模型性能指标中的“错误率”？比如分类任务的错误率如何计算？
回答要点：错误率=错误样本数/总样本数，对于分类任务，错误样本是预测标签与真实标签不匹配的样本，通过模型推理后的输出结果与真实标签对比计算。
问：链路追踪如何实现？比如使用哪些技术？
回答要点：使用分布式追踪技术，如Jaeger（基于OpenTracing标准），通过在服务间注入追踪上下文（如TraceID、SpanID），记录每个服务的调用时间和事件，构建调用链。
问：日志如何与指标、链路追踪关联？比如如何将日志中的错误信息与指标中的错误率关联？
回答要点：通过结构化日志（如JSON格式），包含指标中的关键字段（如错误率、延迟），并嵌入链路追踪的TraceID，实现日志与指标、链路的关联，便于统一分析。
问：如何设置指标告警阈值？比如推理延迟的阈值如何确定？
回答要点：通过历史数据统计，计算延迟的95%分位数或均值+标准差，作为告警阈值，避免误报或漏报。

7) 【常见坑/雷区】

坑1：只关注指标，忽略日志和链路追踪。例如，指标显示错误率升高，但无法通过日志或链路追踪定位具体原因（如错误发生在预处理还是模型推理阶段）。
坑2：日志非结构化，导致分析困难。例如，日志中只有文本信息，无法快速提取关键字段（如输入数据、模型输出），影响故障定位效率。
坑3：链路追踪仅关注模型内部调用，忽略上下游服务。例如，模型服务调用失败，但未检查预处理服务或后处理服务的状态，导致定位不全面。
坑4：指标阈值设置不合理。例如，设置过低的阈值导致告警泛滥，影响运维人员判断；设置过高的阈值导致漏报关键故障。
坑5：未考虑AI模型的特殊性。例如，模型推理的延迟可能受输入数据长度、模型复杂度影响，需区分系统延迟（如网络、服务器）和模型本身延迟，避免误判。