请列举至少3种常见的AI模型安全攻击类型，并分别说明其原理和典型应用场景。例如对抗样本攻击、模型窃取、数据注入等。

360AI算法安全研究员难度：中等

答案

1) 【一句话结论】常见的AI模型安全攻击包括对抗样本攻击、模型窃取攻击、数据注入攻击等，分别通过干扰输入、窃取模型参数、污染训练数据等方式破坏模型安全，需从输入、模型、训练数据三个维度理解其原理与场景。

2) 【原理/概念讲解】老师口吻，解释关键概念：

对抗样本攻击：核心是通过在输入样本上添加微小、不可察觉的扰动（通常用梯度上升法计算，即ε = sign(∇_x L(f(x), y))），使模型输出错误结果。类比：给一张猫的图片加一点噪声，人看不出变化，但模型识别为狗。
模型窃取攻击：核心是通过与被保护模型交互（如API调用），通过少量查询（如10-100次）获取模型的关键信息（如权重、决策边界），用于训练自己的模型。类比：偷看别人的解题思路，用少量题目就能复现。
数据注入攻击：核心是通过向训练数据中注入恶意样本（如错误标签、异常数据），使模型在测试时出现错误或被攻击者控制。类比：在训练猫的模型时，故意把猫的图片标为“狗”，导致模型学会错误关联。

3) 【对比与适用场景】

攻击类型	定义	特性	使用场景	注意点
对抗样本攻击	在输入样本上添加微小扰动，诱导模型输出错误结果	输入扰动不可察觉，模型决策错误	误导模型预测（如恶意输入导致系统错误）、攻击安全系统（如人脸识别绕过）	需对抗生成器或手动设计扰动，针对特定模型
模型窃取攻击	通过少量查询或数据，从被保护模型中提取参数或决策逻辑，用于训练攻击模型	需要访问模型接口（如API），查询次数有限	窃取商业模型的核心能力（如医疗诊断模型）、规避模型版权	查询次数受限制，需设计高效窃取方法（如梯度攻击）
数据注入攻击	向训练数据中注入恶意样本（错误标签、异常数据），使模型在测试时出错	污染训练数据，导致模型泛化能力下降或被攻击者控制	攻击模型泛化（如恶意数据导致模型预测错误）、诱导模型输出特定结果（如生成有害内容）	注入数据需符合数据分布，避免被检测；需大量恶意数据，成本较高

4) 【示例】

对抗样本攻击：用MNIST数据集，输入图片x（数字“3”），模型f(x)预测为“3”，计算扰动ε = sign(∇_x (f(x) - y))，得到x_adv = x + ε，此时f(x_adv)预测为“5”。
模型窃取攻击：攻击者调用医疗诊断模型的API，输入10个样本，记录输入和输出，用这些数据训练自己的模型。
数据注入攻击：在训练数据集中，添加100个“猫”图片标注为“狗”的样本，重新训练模型，测试时输入真实猫图片，模型输出“狗”。

5) 【面试口播版答案】
面试官您好，常见的AI模型安全攻击有三种：首先是对抗样本攻击，原理是在输入样本上添加微小不可察觉的扰动，诱导模型输出错误结果，比如给图片加噪声让猫变狗，典型应用场景是绕过人脸识别、图像分类等安全系统；其次是模型窃取攻击，通过少量API查询从被保护模型中提取参数，用于训练自己的模型，比如窃取商业医疗诊断模型的核心能力以规避版权；最后是数据注入攻击，向训练数据中注入错误标签的恶意样本，导致模型在测试时泛化错误，比如污染训练数据让模型将猫识别为狗。这些攻击分别从输入、模型参数、训练数据三个层面破坏模型安全，需要针对性防御。

6) 【追问清单】

对抗样本攻击中，如何设计高效的对抗生成器以提升攻击成功率？
- 回答要点：利用生成对抗网络（GAN）或自编码器生成对抗样本，减少人工设计扰动的工作量。
模型窃取攻击中，如何应对查询次数限制（如API调用次数有限）？
- 回答要点：采用梯度攻击（如PGD）或查询效率高的方法（如基于梯度的模型提取算法），减少查询次数。
数据注入攻击中，如何检测恶意注入的数据？
- 回答要点：通过统计特征（如数据分布、标签相关性）或机器学习检测模型（如异常检测算法）识别注入的恶意样本。
不同攻击的防御方法有哪些？
- 回答要点：对抗样本攻击用对抗训练（如PGD训练），模型窃取用模型水印或查询限制，数据注入用数据验证（如数据清洗、标签校验）。
这些攻击在工业场景中的实际案例？
- 回答要点：对抗样本攻击如2017年Google的图像分类模型被对抗样本绕过，模型窃取攻击如某公司窃取竞争对手的推荐模型，数据注入攻击如恶意用户向训练数据注入错误标签导致模型预测错误。

7) 【常见坑/雷区】

对抗样本攻击的原理描述不清晰，误以为对抗样本是明显修改输入（如大幅扭曲图片），实际是微小扰动。
模型窃取攻击中混淆“模型提取”和“模型对抗训练”，错误认为对抗训练是窃取攻击。
数据注入攻击中忽略注入数据的分布要求，认为只要注入错误标签即可，实际需符合数据分布避免被检测。
应用场景描述不具体，如对抗样本攻击只说“绕过系统”而不举例具体场景（如人脸识别绕过）。
忘记说明攻击的后果，如对抗样本攻击导致模型输出错误，而不仅仅是干扰，实际是导致系统错误决策。