在处理海量文本数据时，如何解决数据倾斜问题？请以计算文本中某个关键词的频率为例，说明数据倾斜的原因、影响及解决方案。

科大讯飞大数据类难度：中等

答案

1) 【一句话结论】在计算文本关键词频率时，数据倾斜会导致部分计算节点负载过高（如某关键词集中在一个分区），需通过哈希分区+抽样+并行计算优化，确保任务均衡，提升效率。

2) 【原理/概念讲解】数据倾斜是指海量数据在分布式计算中，因某些分区的数据量或计算复杂度远高于其他分区，导致计算资源不均衡。以关键词频率计算为例，假设文本中“讯飞”一词在A分区出现100万次，其他分区仅1万次，A分区的Map任务会消耗大量时间，而其他分区空闲，整体计算时间由最慢的A分区决定。类比：班级分组做数学题，若某组题目数量远多于其他组（数据倾斜），该组会拖慢全班进度（计算效率低）。

3) 【对比与适用场景】

方法	定义	特性	使用场景	注意点
哈希分区	按关键字哈希值映射到固定分区	数据均匀分布，但倾斜关键词会集中	关键词统计、计数	需预知关键词分布，否则倾斜严重
抽样	随机抽取部分数据预处理	降低倾斜影响，但损失精度	大规模数据初步统计	抽样比例需合理，避免偏差
动态分区	运行时根据数据分布调整分区	自适应，无需预知	高动态数据流	增加计算开销，需动态调度
范围分区	按数据范围（如时间、数值）分区	适合有序数据	时间序列分析	需数据有序

4) 【示例】以MapReduce为例，步骤：

输入文本按关键词“讯飞”哈希分区（假设分区数=10），A分区包含大部分“讯飞”文本。
Map阶段：每个Map处理自己分区数据，统计“讯飞”出现次数（如A分区统计100万，其他分区1万）。
Reduce阶段：合并各分区统计结果，得到总频率。
解决方案：增加抽样步骤（如随机抽取1%数据预处理，统计“讯飞”分布，调整分区权重），或使用动态分区（运行时检测A分区负载高，增加其Map任务数）。

5) 【面试口播版答案】
“面试官您好，针对计算文本关键词频率的数据倾斜问题，核心是部分分区数据量远大于其他分区，导致计算资源不均衡。比如文本中‘讯飞’一词集中在A分区，A分区的Map任务会消耗大量时间，而其他分区空闲，整体计算时间由A分区决定。解决方案方面，首先用哈希分区将数据分散，但需结合抽样：随机抽取1%数据预处理，统计‘讯飞’分布，调整分区权重；其次，动态调整Map任务数，让负载高的分区多分配任务，确保任务均衡。这样就能避免数据倾斜导致的效率问题。”

6) 【追问清单】

问1：如何检测数据倾斜？
回答要点：通过抽样统计各分区数据量/关键词出现次数，对比均值，若某分区远高于均值则存在倾斜。
问2：动态分区如何实现？
回答要点：运行时监控各分区计算进度，负载高的分区增加Map任务数，负载低的减少，需框架支持动态调度（如Spark的dynamic allocation）。
问3：不同框架（Hadoop vs Spark）处理倾斜的差异？
回答要点：Hadoop MapReduce需预知倾斜（如调整分区数），而Spark支持动态分区和抽样，更灵活。
问4：抽样会影响精度吗？
回答要点：抽样会降低精度，但适合大规模数据初步统计，需控制抽样比例（如1%），平衡精度与效率。
问5：如果关键词分布未知，如何处理？
回答要点：采用动态分区+增量计算，逐步调整分区，或结合机器学习预测关键词分布，优化分区策略。

7) 【常见坑/雷区】

坑1：只说哈希分区，忽略抽样和动态调整，导致未解决核心问题。
坑2：混淆数据倾斜与数据不均衡，认为所有不均衡都是倾斜，其实倾斜是极端不均衡。
坑3：未提并行度调整，比如未增加负载高分区的任务数，导致解决方案不完整。
坑4：假设所有关键词分布已知，实际中关键词分布未知，需动态处理。
坑5：忽略框架限制，比如Hadoop MapReduce的分区数固定，无法动态调整，需说明适用场景。