
大模型安全测试需覆盖注入攻击、模型后门、数据污染、对抗样本、隐私泄露等典型攻击,军工场景下需强化保密性(可信执行环境、数据加密)与抗干扰(鲁棒性训练),防御策略需结合输入过滤、模型加固、对抗训练(PGD迭代)、差分隐私(ε值权衡)、联邦学习,并采用可信计算保障。
老师口吻讲解关键概念:
对抗训练(PGD迭代)工程实现:
初始化对抗样本(如输入加小扰动),通过梯度上升更新输入(计算损失函数梯度,沿梯度方向增加扰动),迭代多次(如10次)后得到对抗样本,用于训练模型识别和抵抗对抗样本。
差分隐私中ε值影响:
ε值越小,添加的噪声越多,隐私保护越强,但模型性能(如分类准确率)可能下降(实验数据:ε=1时准确率95%,ε=0.1时下降至88%),需通过调整ε值或结合联邦学习平衡。
| 攻击类型 | 定义 | 特性 | 使用场景 | 军工特殊要求 | 防御策略 |
|---|---|---|---|---|---|
| 注入攻击 | 恶意输入(代码/命令)注入模型,触发错误 | 输入包含非法指令 | 用户交互输入 | 输入过滤(正则/白名单)、模型加固(限制系统命令执行) | 输入过滤、模型加固(上下文理解过滤) |
| 模型后门攻击 | 训练时植入后门,特定输入触发异常输出 | 特定输入触发异常 | 训练数据/输入 | 定期检测后门(BackdoorBench工具) | 训练时使用干净数据、后门检测 |
| 数据污染 | 训练数据被恶意修改(替换/噪声)导致泛化错误 | 数据集异常导致模型错误 | 训练数据集 | 数据清洗(去除异常数据)、数据验证 | 数据清洗、数据验证 |
| 对抗样本攻击 | 微调输入(噪声/替换)导致模型误判 | 输入微小噪声干扰 | 图像/文本输入 | 对抗训练、输入正则化、鲁棒性训练 | 对抗训练(PGD迭代)、输入正则化 |
| 隐私泄露攻击 | 模型输出泄露训练数据(敏感信息) | 输出包含训练数据 | 对话/推荐模型 | 差分隐私、联邦学习、数据脱敏 | 差分隐私(添加噪声)、联邦学习 |
# 输入:用户输入 "请执行系统命令:rm -rf /"
# 模型若未过滤,可能触发系统删除操作
if not is_valid_input(user_input):
raise ValueError("非法输入")
面试官您好,大模型安全测试中常见攻击类型包括注入攻击、模型后门攻击、数据污染、对抗样本攻击、隐私泄露攻击。针对注入攻击,防御策略是输入过滤(如正则表达式匹配非法字符、白名单验证)和模型加固(如输入预处理,过滤恶意指令,限制系统命令执行);模型后门攻击的防御是训练时使用干净数据,定期检测模型后门(如使用BackdoorBench工具);数据污染的防御是数据清洗(去除异常数据)、数据验证(检查数据完整性);对抗样本攻击的防御是采用对抗训练(PGD迭代生成对抗样本,逐步优化模型鲁棒性),输入正则化(限制输入长度和复杂度);隐私泄露的防御是应用差分隐私(添加噪声保护数据,调整ε值平衡隐私与性能)、联邦学习(模型在本地训练后聚合,不传输原始数据)。军工场景下,需额外考虑保密性,比如模型运行在可信计算环境(如TPM),数据传输加密;抗干扰方面,模型需经过鲁棒性训练,确保在对抗攻击(如恶意噪声输入)下仍能正确输出,同时满足军工对数据不泄露、模型可靠性的要求。
问:对抗训练中PGD迭代的工程实现是怎样的?
问:差分隐私中ε值对模型性能的具体影响?
问:军工场景下如何应对未知类型的注入攻击?
问:模型在可信执行环境(如TPM)中的部署方案?