精算中常需处理非结构化文本（如保险合同、理赔报告），如何设计流程提取关键信息（如保单金额、索赔类型、时间节点），并清洗数据（如缺失值、异常值处理），用于构建预测模型？请说明数据预处理步骤、NLP技术选型（如分词、实体识别）以及数据清洗策略。

德勤中国项目实习生-精算-技术与转型难度：中等

答案

1) 【一句话结论】
处理非结构化文本时，通过NLP技术（分词、实体识别）提取结构化关键信息，结合数据清洗（缺失值、异常值处理）提升数据质量，为预测模型提供高质量特征。

2) 【原理/概念讲解】
精算中处理非结构化文本（如保险合同、理赔报告）需分步骤：

文本预处理：将文本拆解为可处理单元（如分词、去停用词），类比“把杂乱合同拆成书页”；
实体识别（NER）：识别保单金额、索赔类型等关键信息（如用模型定位“100万”为金额，“意外伤害”为索赔类型）；
数据清洗：处理缺失值（如用均值填充）、异常值（如金额过大标记为异常），确保数据质量。核心是“从杂乱文本到结构化特征”的转化。

3) 【对比与适用场景】

方法/模型	定义	特性	使用场景	注意点
分词方法	文本拆解工具	速度、上下文敏感度	Jieba分词：日常文本（速度快）；BERT分词：复杂句式（上下文敏感）	Jieba：复杂句式分词错误；BERT：训练成本高
实体识别模型	识别关键信息模型	实时性、准确率	规则引擎：简单实体（如金额、日期）；深度学习（BiLSTM-CRF）：复杂实体（如索赔类型）	规则引擎：语义歧义处理差；深度学习：需标注数据，训练成本高

4) 【示例】
伪代码示例（处理保险合同文本提取关键信息）：

def process_insurance_contract(text):
    # 1. 文本预处理：分词
    tokens = jieba.cut(text)  # 中文分词
    # 2. 实体识别：命名实体识别（NER）
    ner_model = load_ner_model()  # BERT-based NER模型
    entities = ner_model.predict(tokens)  # 识别实体列表
    # 3. 提取关键信息
    policy_amount = extract_amount(entities)  # 正则匹配金额（如"100万" -> 1000000）
    claim_type = extract_claim_type(entities)  # 从实体中提取（如"意外伤害"）
    # 4. 数据清洗：处理缺失值
    if policy_amount is None:
        policy_amount = np.nan  # 用NaN表示缺失
    # 处理异常值：金额过大（假设合理上限为100万）
    if policy_amount > 1e6:
        policy_amount = np.nan  # 标记为异常
    # 处理时间节点：提取索赔日期
    claim_date = extract_date(entities)  # 正则匹配日期（如"2023-05-10"）
    return {
        "policy_amount": policy_amount,
        "claim_type": claim_type,
        "claim_date": claim_date
    }

5) 【面试口播版答案】
处理非结构化文本时，我会设计一个分步流程：首先通过分词和实体识别技术提取关键信息，比如保单金额用正则表达式匹配，索赔类型用BERT-based的NER模型识别；然后进行数据清洗，处理缺失值（比如用均值或中位数填充），异常值（比如金额超过合理范围则标记为异常）；最后将清洗后的结构化特征输入预测模型。具体来说，分词用jieba分词，实体识别用预训练的NER模型，清洗时对缺失值用均值填充，异常值用边界值法处理，确保数据质量。

6) 【追问清单】

问：如何选择分词工具？答：根据文本语言和复杂度，中文用jieba（速度快），复杂文本用BERT分词（上下文敏感）。
问：实体识别模型如何训练？答：用标注好的数据集（如CoNLL数据集），用BiLSTM-CRF模型训练，结合预训练语言模型提升效果。
问：时间节点如何提取？答：用正则表达式匹配日期格式（如“\d{4}-\d{2}-\d{2}”），或用dateutil库解析复杂日期。
问：缺失值处理中为什么用均值填充？答：当数据缺失是随机时，均值填充能保持数据分布，减少偏差对模型的影响。
问：异常值处理中边界值法是什么？答：计算数据的最小值和最大值，超出范围的值标记为异常或用中位数替换，避免极端值影响模型。

7) 【常见坑/雷区】

忽略文本预处理中的噪声（如标点、特殊字符），导致实体识别错误（比如“100,000”被分词为“100”“,”“000”，影响金额提取）；
未验证实体识别的准确性（比如用准确率、召回率评估），导致特征错误（比如将“医疗费用”识别为“保单金额”）；
数据清洗时未考虑业务逻辑（比如保单金额不能为负），导致模型训练错误（比如模型学习到负金额，影响预测结果）；
未处理文本中的歧义（如“100万”可能指保单金额或理赔金额），导致信息提取错误（比如将理赔金额误认为保单金额）；
未考虑数据量，小样本时用复杂模型（如BERT NER）可能过拟合，导致泛化能力差。