在AI模型推理服务中，如何处理特征工程？请举例说明如何从原始数据（如用户行为日志）中提取有效特征，并说明特征选择和特征工程的技术方法（如PCA、特征交叉、时序特征提取）。

360Web服务端开发工程师-AI方向难度：困难

答案

1) 【一句话结论】在AI模型推理服务中，特征工程需通过系统化流程（数据预处理、特征构造、选择与降维），结合业务逻辑与模型特性，从用户行为日志等原始数据中提取有效特征，同时优化计算效率，平衡模型性能与实时推理成本。

2) 【原理/概念讲解】特征工程是将原始数据转化为模型可理解特征的关键步骤。原始数据（如用户行为日志）包含大量原始信息（如点击、停留时间），这些信息对模型直接可用性低，需通过特征工程处理。核心是挖掘数据中的模式（如用户偏好、行为习惯），类比“食材烹饪”：预处理（清洗食材，去除杂质）、特征构造（切配、调味，生成新特征）、特征选择（选优质食材，去除冗余）、降维（减少食材种类，提升效率）。具体步骤包括：数据清洗（处理缺失/异常值）、特征构造（生成交互特征、时序特征）、特征选择（筛选有效特征）、降维（减少特征维度）。

3) 【对比与适用场景】

方法	定义	特性	使用场景	注意点
特征选择方法	筛选对模型预测有用的特征，减少冗余	根据特征与标签的关系或模型训练结果筛选	所有特征工程环节	需结合数据规模与模型类型，避免过度简化
- 过滤法（方差选择法、卡方检验）	基于统计检验，不依赖模型，计算快	简单高效，适用于高维数据	分类问题，特征与标签相关性高	可能遗漏交互信息，如“设备类型+操作类型”的组合
- 嵌入法（L1正则化、随机森林重要性）	将特征选择与模型训练结合	特征稀疏化（L1），或模型内部分特征重要性	线性模型（如逻辑回归）、树模型（如随机森林）	计算成本较高，可能过拟合
- Wrappers（递归特征消除）	结合模型训练结果，迭代选择	评估特征子集对模型性能的影响	树模型（如XGBoost）	计算成本高，适用于特征数量适中
特征交叉	将两个或多个特征组合成新特征，捕捉交互信息	生成组合特征，如“设备类型+操作类型”	需要捕捉特征间交互（如用户在手机上点击视频 vs 电脑上点击文章）	可能导致特征爆炸，需筛选
时序特征提取	从时间序列数据中提取特征，捕捉动态变化	处理时间依赖，如滑动窗口统计、自回归	用户行为日志按时间顺序记录	需确定时间窗口大小，避免信息泄露或丢失关键信息

4) 【示例】：假设用户行为日志包含字段：用户ID、时间戳、操作类型（点击/浏览/购买）、页面ID、设备类型（手机/电脑）、停留时间。提取特征步骤：

预处理：
- 缺失值处理：停留时间缺失，用中位数填充（避免均值受极端值影响）。
- 异常值处理：停留时间超过1.5倍IQR的值，用中位数替换（如极长停留时间视为异常）。
基础特征：
- 操作类型（one-hot编码，如点击=1，否则0）。
- 设备类型（one-hot，手机/电脑）。
- 标准化停留时间（z-score，使特征均值为0，方差为1）。
时序特征：
- 滑动窗口（延迟窗口，避免信息泄露）：过去7天点击次数（计算当前操作前7天点击次数），最近一次操作时间间隔（当前操作与前一次操作的时间差）。
特征交叉：
- 设备类型 + 操作类型（如“手机_点击”特征，表示用户在手机上点击操作）。
特征选择：
- 用随机森林的feature_importance筛选，保留重要性前20%的特征。
降维：
- 对高维特征（如用户行为特征超过100维），用PCA降维，保留90%方差的主成分。

伪代码示例（简化）：

def extract_features(log_data):
    # 预处理
    log_data['stay_time'].fillna(log_data['stay_time'].median(), inplace=True)
    q1 = log_data['stay_time'].quantile(0.25)
    q3 = log_data['stay_time'].quantile(0.75)
    iqr = q3 - q1
    upper_bound = q3 + 1.5 * iqr
    log_data['stay_time'] = log_data['stay_time'].clip(upper=upper_bound)
    
    # 基础特征
    features = {
        'is_click': (log_data['操作类型'] == '点击').astype(int),
        'device_type': log_data['设备类型'],
        'stay_time_std': (log_data['stay_time'] - log_data['stay_time'].mean()) / log_data['stay_time'].std()
    }
    
    # 时序特征（延迟窗口，避免信息泄露）
    recent_clicks = (log_data['操作类型'] == '点击').rolling(window=7).sum().shift(1).fillna(0)
    features['recent_clicks'] = recent_clicks
    
    # 特征交叉
    features['device_click'] = f"{features['device_type']}_{features['is_click']}"
    
    # 特征选择（嵌入法，随机森林重要性）
    # 假设训练后得到重要性，筛选前20%
    selected_features = ['is_click', 'device_type', 'stay_time_std', 'recent_clicks', 'device_click']
    
    return features[selected_features]

5) 【面试口播版答案】：在AI模型推理服务中，处理特征工程的核心是从原始数据中提取有效特征并优化效率。比如用户行为日志这类数据，首先做预处理，比如处理缺失值（用中位数填充停留时间缺失）和异常值（用IQR方法过滤极长停留时间），然后提取基础特征（如点击标识、设备类型、标准化停留时间），接着处理时序特征（比如滑动窗口计算过去7天点击次数，捕捉用户行为的动态变化），再进行特征交叉（比如设备类型和操作类型组合，生成“手机点击”特征，捕捉交互作用），接着用特征选择方法（如随机森林的feature_importance）筛选有效特征，最后用PCA降维（如果特征维度过高），保留主要方差的特征。整个过程通过系统化流程（预处理→构造→选择→降维），结合业务逻辑与模型特性，平衡模型性能与实时推理成本，提升AI模型推理的准确性和效率。

6) 【追问清单】：

问题1：如何选择特征工程方法（如过滤法、嵌入法、wrappers）？
回答要点：根据数据规模（高维数据用过滤法，特征数量适中用嵌入法，树模型用wrappers）、模型类型（线性模型用PCA，树模型用特征交叉）和计算资源（过滤法计算快，wrappers计算成本高），结合实验确定最优方法。
问题2：特征交叉后如何避免特征爆炸？
回答要点：结合业务逻辑筛选关键交叉特征（如仅保留设备类型与操作类型的组合），或使用统计检验（如卡方检验、互信息）筛选相关性高的交叉特征，控制特征数量（如保留相关性最高的10个交叉特征）。
问题3：时序特征提取中时间窗口大小如何确定？
回答要点：根据业务周期或数据规律选择（如用户购买周期为1周，选7天窗口），通过交叉验证比较不同窗口大小（如7天、14天、30天）对模型性能的影响，避免信息泄露（如使用延迟窗口，而非滚动窗口）。
问题4：实时推理中如何优化特征工程以减少计算时间？
回答要点：预计算特征（如滑动窗口统计特征提前计算并存储），使用向量化操作（如NumPy数组操作），降维后使用低维特征（如PCA降维后的主成分），减少在线计算复杂度。
问题5：特征工程是否需要与模型训练迭代？
回答要点：是的，通过模型训练后的特征重要性分析（如随机森林的feature_importance），调整特征工程策略（如增加新特征、删除冗余特征），形成“特征工程→模型训练→优化”的闭环。

7) 【常见坑/雷区】：

坑1：忽略特征预处理导致数据质量问题。比如未处理缺失值或异常值，模型训练时可能因数据不完整或异常值导致过拟合或性能下降。
坑2：实时推理中特征工程效率不足。比如在线计算特征时使用循环而非向量化操作，导致响应延迟，影响服务性能。
坑3：特征交叉导致特征冗余。比如同时使用“设备类型+操作类型”和“设备类型+点击次数”两个高度相关的交叉特征，导致模型过拟合，应通过特征选择方法筛选。
坑4：时序特征提取时窗口大小选择不当。比如窗口过大导致信息泄露（如使用未来数据计算当前特征），或窗口过小丢失关键信息（如用户长期行为模式），影响模型对用户行为的预测准确性。
坑5：特征工程与业务脱节。比如构造的特征与业务逻辑无关（如用户行为日志中未考虑用户画像信息），导致特征无法有效捕捉用户特征，模型性能不佳。