在军工AI模型测评中，如何设计数据集质量指标和模型性能指标？请举例说明，如针对雷达目标识别任务，如何定义特征准确率、召回率，以及如何结合军工场景的特殊要求（如抗干扰、高精度）调整指标权重。

工业和信息化部电子第五研究所AI数据特征工程师（高质量数据集构建及测评）难度：中等

答案

1) 【一句话结论】
军工AI模型测评需构建分层指标体系，结合任务特性与军工场景特殊要求（如抗干扰、高精度），通过量化数据集质量与模型性能，并动态调整指标权重以平衡任务目标与军工约束。

2) 【原理/概念讲解】
首先，数据集质量指标是衡量训练数据“本身好坏”的维度，比如完整性（数据是否覆盖所有场景）、一致性（标注是否统一）、代表性（数据是否反映真实场景分布）。类比的话，数据集质量像“训练模型的‘食材’质量”——食材新鲜、搭配合理才能“烹饪”出好“成品”（模型）。
其次，模型性能指标是模型在测试数据上的表现，比如准确率（预测正确的比例）、召回率（实际正样本中被正确识别的比例）。但军工场景的特殊要求（如雷达目标识别中的抗干扰、高精度）需要我们调整这些指标的权重——比如抗干扰能力是军工场景的核心需求，所以“抗干扰下的特征准确率”权重更高，“小目标识别的召回率”权重更高。

3) 【对比与适用场景】

指标类型	定义	特性	使用场景	注意点
数据集质量指标	衡量训练数据的“质量”维度	反映数据本身属性	数据预处理、数据增强阶段	需结合任务特性设计具体指标
模型性能指标	模型在测试数据上的表现	反映模型泛化与任务适配	模型训练后评估阶段	需结合场景需求调整指标权重

4) 【示例】
以雷达目标识别任务为例：

数据集质量指标：
- 完整性：检查数据是否覆盖“正常目标+干扰目标”（如电子对抗、杂波场景），用覆盖率统计（如干扰场景占比≥60%）。
- 一致性：检查标注一致性（如目标边界框的IOU≥0.8），用标注一致性评分量化。
模型性能指标：
- 特征准确率：提取的雷达特征中，正确识别目标特征的比例（抗干扰场景权重0.6，高精度场景权重0.4）。
- 召回率：在干扰环境下，实际存在目标中被模型正确检测的比例（高精度场景权重0.4，抗干扰场景权重0.6）。
权重调整逻辑：
抗干扰是军工场景核心需求，所以“抗干扰下的特征准确率”权重更高（0.6），“小目标识别的召回率”权重更高（0.4），通过加权计算综合评估模型性能。
（伪代码示例）

def radar_metrics(model, test_data):
    # 抗干扰场景下的特征准确率（权重0.6）
    feature_acc_interf = calculate_feature_accuracy(model, test_data['interference'])
    # 高精度场景下的召回率（权重0.4）
    recall_high_prec = calculate_recall(model, test_data['high_precision'])
    # 加权综合指标
    weighted_score = 0.6 * feature_acc_interf + 0.4 * recall_high_prec
    return {'feature_acc_interf': feature_acc_interf, 'recall_high_prec': recall_high_prec, 'weighted_score': weighted_score}

5) 【面试口播版答案】
各位面试官好，关于军工AI模型测评中数据集质量指标和模型性能指标的设计，核心思路是构建分层指标体系，结合任务特性与军工场景特殊要求（如抗干扰、高精度），通过量化数据本身与模型表现，并动态调整权重。
首先，数据集质量指标是衡量训练数据的“质量”维度，比如完整性（是否覆盖所有场景）、一致性（标注是否统一），这些指标决定了模型训练的基础是否可靠。模型性能指标是模型在测试数据上的表现，比如准确率、召回率，但军工场景的特殊要求需要我们调整这些指标的权重。以雷达目标识别为例，抗干扰能力是关键，所以特征准确率在抗干扰场景下的权重更高，召回率在高精度（小目标）场景下的权重更高。通过这样的设计，既能保证模型在通用任务上的表现，又能满足军工场景的特殊需求。具体来说，数据集质量指标要覆盖军工场景的典型干扰（如电子对抗、杂波），模型性能指标要突出抗干扰和高精度，并通过权重调整平衡两者。

6) 【追问清单】

问：如何确定指标权重？
回答要点：通过军工场景需求分析（如抗干扰占比、高精度要求）和任务优先级，结合专家经验或历史数据确定。
问：数据集质量指标如何量化？
回答要点：用统计方法（如覆盖率分析）、标注一致性检查（如边界框IOU）等量化。
问：抗干扰指标如何定义？
回答要点：在干扰场景下，模型识别目标的准确率或召回率，或结合干扰强度分级定义。
问：模型性能指标与数据集质量指标的关联？
回答要点：数据集质量影响模型性能，通过指标关联分析（如数据集质量提升后模型性能的变化）优化指标设计。
问：如何处理数据集中的异常值或噪声？
回答要点：通过数据清洗（如异常值检测）、数据增强（如对抗训练）提升数据集质量。

7) 【常见坑/雷区】

忽略军工特殊要求，仅套用通用指标（如仅用准确率、召回率，未考虑抗干扰）。
指标权重设定不合理，未结合场景需求（如抗干扰权重过低）。
数据集质量指标与模型性能指标混淆，未区分两者作用。
未说明指标调整的逻辑，仅简单提及“结合场景调整”。
未考虑数据集与模型指标的关联性，未分析数据质量对模型性能的影响。