请分享一个你在军工项目中构建高质量数据集的具体经验。描述项目背景（如雷达目标识别）、数据集构建过程（数据来源、清洗、标注）、遇到的挑战（如数据稀缺、标注偏差）及解决方案，以及最终数据集对模型性能的影响。

工业和信息化部电子第五研究所AI数据特征工程师（高质量数据集构建及测评）难度：中等

答案

1) 【一句话结论】

在军工雷达新型目标识别项目中，通过多源数据筛选（真实+模拟）、严格清洗（信噪比+异常检测）、标注一致性校准（Kappa>0.85）及弱监督预标注（小波特征+DBSCAN，参数优化后），构建的500条均衡数据集（类别样本数差异≤30%）使模型测试集准确率从68%提升至85%，验证了高质量数据集对模型性能的重要贡献（是关键因素之一，而非唯一驱动）。

2) 【原理/概念讲解】

数据集构建是模型性能的基础，核心流程包括数据采集、清洗、标注与验证。以军工雷达目标识别为例，数据来源为某型号雷达在地面测试的回波数据（含环境噪声）及基于物理模型的模拟数据（覆盖不同目标姿态、距离、天气）。

数据清洗：需去除无效样本（如空回波、异常噪声），通过统计实际数据SNR分布确定阈值（如取95%分位数的12dB，并检测信号有效性的异常点，Z-score过滤）；
标注阶段：由3名专家制定规范（如“战斗机”需包含机翼、尾翼特征），多标注员独立标注后，计算Kappa系数（公式：( \text{Kappa} = \frac{P_o - P_e}{1 - P_e} )，其中( P_o )为观察一致性，( P_e )为期望一致性）评估偏差，修正不一致样本；
弱监督预标注：数据稀缺时（如新型目标样本<50条），基于回波特征的小波变换提取时频特征，用DBSCAN聚类生成初步标签（DBSCAN的eps=0.5、min_samples=5通过实验优化，小波变换采用db4小波，level=3，对比不同参数的聚类效果选择最优），再人工校准关键样本。

3) 【对比与适用场景】

方法	定义	特性	使用场景	注意点
人工标注	专家手动标注数据类别	精度高（>95%），但成本高（每人/小时费率）、效率低（标注1条需5-10分钟）	核心类别标注（如关键目标识别）	需严格培训，避免主观偏差
弱监督预标注	利用未标注数据或少量标注数据，通过特征匹配生成初步标签	成本低（效率高，标注1条需1分钟）、速度快	数据稀缺场景（如新型目标样本<50条）	精度有限（约70-80%），需结合人工校准

4) 【示例】

雷达回波数据清洗与异常检测伪代码（含参数依据）：

import numpy as np
from scipy.ndimage import gaussian_filter
from scipy.stats import zscore

def clean_radar_data(raw_data):
    valid_data = []
    for d in raw_data:
        # 信噪比阈值（12dB，95%分位数）+信号有效性检测（Z-score过滤异常点）
        if d['snr'] > 12 and np.any(d['signal']):
            signal_z = zscore(d['signal'])
            if np.all(np.abs(signal_z) <= 3):
                valid_data.append(d)
    # 高斯滤波去除噪声（sigma=1.8，实验优化）
    cleaned_data = []
    for d in valid_data:
        filtered_signal = gaussian_filter(d['signal'], sigma=1.8)
        cleaned_data.append({
            'id': d['id'],
            'signal': filtered_signal,
            'snr': d['snr']
        })
    return cleaned_data

# 示例调用
raw_radar = load_raw_radar()  # 加载原始雷达数据（假设函数）
cleaned_radar = clean_radar_data(raw_radar)

5) 【面试口播版答案】

在军工雷达新型目标识别项目中，我负责构建高质量数据集。项目背景是提升雷达对新型目标的识别精度，数据来源包括某型号雷达在地面测试的回波数据（含环境噪声）及基于物理模型的模拟数据（覆盖不同目标姿态、距离、天气）。构建过程：首先，通过信噪比（SNR）阈值（>12dB）和信号有效性检测（Z-score过滤异常点），过滤无效样本（如空回波、严重噪声）；然后，由3名专家制定标注规范（如“战斗机”需包含机翼、尾翼特征），多标注员独立标注后，计算Kappa系数（>0.85）评估一致性，修正不一致样本；遇到数据稀缺（新型目标样本仅20条）和标注偏差（不同标注员对“小型飞机”尺寸判断差异），引入弱监督模型（基于回波特征的小波变换提取时频特征，用DBSCAN（eps=0.5，min_samples=5）聚类生成初步标签，再人工校准关键样本）；最终数据集包含500条有效样本，类别分布均衡（各目标类别样本数差异≤30%，通过重采样平衡），模型在测试集（200条样本，覆盖不同场景）上的识别准确率从基线的68%提升至85%，验证了高质量数据集对模型性能的重要贡献（是关键因素之一，而非唯一驱动）。

6) 【追问清单】

问：如何解决数据稀缺问题？
答：通过弱监督预标注（小波特征提取+DBSCAN聚类，参数优化后）初步筛选，再人工校准关键样本。
问：如何验证标注偏差？
答：通过多标注员标注的一致性分析（Kappa系数>0.85），以及专家复核修正。
问：数据集的类别分布是否均衡？
答：通过类别统计，确保各目标类别样本数差异不超过30%，采用重采样平衡。
问：是否考虑过数据隐私？
答：军工数据属于敏感信息，采用脱敏处理（如匿名化回波特征），符合保密要求。
问：构建数据集的周期？
答：从数据采集到最终验证，约3个月，其中标注阶段占60%时间。

7) 【常见坑/雷区】

忽略数据分布不均：若某类别样本过少，模型可能过拟合，需平衡样本。
标注标准不统一：不同标注员对“目标尺寸”的理解差异，导致偏差，需制定详细规范并培训。
未验证数据集的代表性：仅用测试集验证，未考虑不同场景（如不同天气、距离）的泛化能力，需多场景数据。
忽视数据清洗的细节：如噪声过滤不彻底，导致模型学习噪声特征，降低泛化能力。
未记录数据集构建过程：缺乏版本控制，影响可复现性，需文档化每个步骤（如清洗规则、标注规范）。