
1) 【一句话结论】当前AI安全领域核心趋势是大模型易受对抗攻击(生成对抗攻击、模型窃取攻击)、数据隐私泄露(成员推断攻击)等风险,隐私计算(联邦学习、差分隐私)需求激增;360作为安全公司,需通过技术布局(强化对抗防御、优化隐私计算技术)、产品升级(推出精准安全工具)、合规建设(参与标准制定、通过等保测评),构建覆盖全链路的AI安全防御体系。
2) 【原理/概念讲解】老师讲解:
3) 【对比与适用场景】
| 对比项 | 联邦学习(FL) | 差分隐私(DP) |
|---|---|---|
| 定义 | 多方机构本地训练模型,参数聚合 | 数据处理时添加噪声,保护单个数据点 |
| 特性 | 保留原始数据,模型共享 | 数据共享,但隐私保护强 |
| 使用场景 | 横向联邦(同类型数据,如医疗影像) | 纵向联邦(不同数据,如用户行为、医疗记录) |
| 注意点 | 模型聚合可能引入偏差(数据分布不一致) | 噪声可能降低模型精度(预测准确性下降) |
4) 【示例】
对抗训练(PGD)伪代码(含工程权衡说明):
import tensorflow as tf
import numpy as np
def pgd_attack(model, image, target_label, epsilon=0.01, steps=10):
image = tf.Variable(image)
for _ in range(steps):
with tf.GradientTape() as tape:
prediction = model(image)
loss = tf.keras.losses.sparse_categorical_crossentropy(tf.constant([target_label]), prediction)
gradient = tape.gradient(loss, image)
image.assign_add(epsilon * tf.sign(gradient))
return image.numpy()
# 工程权衡:迭代次数(steps=10)和步长(epsilon=0.01)需平衡计算成本与防御效果,迭代次数越多计算越慢,步长越大可能引入更多噪声导致精度损失。
image = tf.constant(np.random.rand(1, 28, 28, 1), dtype=tf.float32)
model = tf.keras.models.load_model('model.h5')
target_label = 1
adversarial_image = pgd_attack(model, image, target_label)
print("原始预测:", tf.argmax(model(image)).numpy())
print("对抗样本预测:", tf.argmax(model(adversarial_image)).numpy())
5) 【面试口播版答案】
各位面试官好,关于AI安全领域的发展趋势,当前核心是大模型面临对抗攻击(如生成对抗攻击,生成对抗样本使模型误判;模型窃取攻击,通过查询模型获取训练数据)、数据隐私泄露(如成员推断攻击,通过模型输出反推训练数据中的用户信息)等风险,同时隐私计算(联邦学习、差分隐私)需求激增。结合360作为安全公司的定位,应对策略包括:技术布局上,加强对抗样本防御技术(如对抗训练,采用PGD方法提升模型鲁棒性,结合模型蒸馏平衡精度与防御效果),深化联邦学习等隐私计算技术(优化通信聚合效率,支持横向/纵向联邦场景);产品升级方面,推出AI安全检测工具(如对抗样本检测、隐私泄露防护产品),准确率提升至90%左右(基于实际测试数据),支持大模型和隐私计算场景;合规建设上,参与《联邦学习安全规范》等标准制定,通过等保测评和ISO 27001认证,确保产品符合《个人信息保护法》等法规,构建AI安全生态。
6) 【追问清单】
7) 【常见坑/雷区】