
1) 【一句话结论】为360 AI安全系统设计可观测性方案,需监控模型性能(推理延迟、错误率、资源消耗)、系统资源(CPU/内存/网络),结合结构化日志(记录输入/输出/错误)、链路追踪(调用链回溯),通过指标告警、日志关联、链路回溯快速定位模型或系统故障。
2) 【原理/概念讲解】可观测性是理解系统状态的核心能力,分为三个维度:
指标用于实时监控趋势(如延迟上升),日志用于分析具体故障(如错误堆栈),链路追踪用于定位调用链中的瓶颈或错误。
3) 【对比与适用场景】
| 维度 | 定义 | 特性 | 使用场景 | 注意点 |
|---|---|---|---|---|
| 指标 | 量化系统状态的时间序列数据(如数值、计数) | 实时、可聚合、可告警 | 监控模型性能(如延迟、错误率)、资源使用(CPU/内存) | 需合理设置阈值,避免告警泛滥 |
| 日志 | 系统事件的文本记录(如请求参数、错误堆栈) | 上下文丰富、可搜索、可关联 | 分析具体故障(如模型输出错误)、调试问题 | 需结构化日志,便于分析 |
| 链路追踪 | 请求在系统中的调用链(如服务间跳转、时间戳) | 跨服务关联、可回溯、可聚合 | 定位调用链中的瓶颈或错误(如模型服务调用失败) | 需分布式追踪技术(如Jaeger) |
4) 【示例】
假设模型推理服务,监控指标:推理耗时(毫秒)、错误率(%)、CPU使用率(%);日志:记录输入数据(如文本特征向量)、模型输出(如分类结果)、错误信息(如“输入数据格式错误”);链路追踪:用户请求→预处理服务(清洗文本)→模型服务(调用AI模型)→后处理服务(格式化结果)。
当指标显示推理延迟超过200ms时,日志可能记录“模型加载失败”,链路追踪显示模型服务调用失败,快速定位到模型服务中的模型文件加载异常。
5) 【面试口播版答案】
面试官您好,为360的AI安全系统设计可观测性方案,核心是监控模型性能、系统资源,结合日志和链路追踪定位故障。具体来说,需监控的关键指标包括:模型推理延迟(如毫秒级)、错误率(如分类错误率)、资源消耗(CPU/内存使用率);系统资源指标如服务器CPU、内存、网络带宽。通过日志记录输入数据、模型输出、错误堆栈,比如当模型输出错误时,日志能显示具体错误信息;链路追踪追踪请求调用链,比如用户请求→预处理→模型推理→后处理,若模型推理延迟过高,链路追踪能定位到模型服务中的模型加载或推理步骤。例如,当指标显示推理延迟超过200ms时,日志可能记录“模型加载失败”,链路追踪显示模型服务调用失败,快速定位到模型服务中的模型文件加载异常,从而及时修复。
6) 【追问清单】
7) 【常见坑/雷区】