请分享一个你在之前项目中解决数据倾斜或系统故障的经历，详细说明问题现象、分析过程、解决方案以及结果。

快手数据研发工程师 📦 工程类难度：中等

答案

1) 【一句话结论】

在处理用户行为日志的分布式计算任务时，因特定用户ID数据量异常导致数据倾斜，通过调整分区策略（哈希函数优化）和分批处理，将任务延迟从30分钟降至5分钟，系统资源利用率提升40%。

2) 【原理/概念讲解】

数据倾斜是分布式计算中的核心问题，本质是数据在分区或节点上的分布不均，导致部分计算资源（节点）负载远高于其他节点。例如，在用户行为日志分析中，若某个用户（如“超级用户”）的日志量远超其他用户（100万条 vs 平均1万条），按用户ID分区的计算任务中，处理“超级用户”数据的节点会承担远超平均的负载，导致任务延迟或失败。类比：班级批改作业时，某位同学（数据倾斜的key）的作业量（数据量）远大于其他同学，老师（计算节点）批改该同学作业的时间（处理时间）远长于其他人，影响整体批改效率（任务延迟）。

3) 【对比与适用场景】

解决方法/排查方法	定义	特性	使用场景	注意点
重分区（Hash Partition）	按key的哈希值重新分配数据到不同分区	数据均匀分布，避免单点过载	数据量极大且key分布不均（如用户ID、商品ID）	需确保key唯一且哈希函数均匀，可能增加计算开销
采样（Sampling）	从数据中随机抽取部分样本进行分析	轻量级，快速定位问题	初步排查倾斜原因，快速验证假设	可能丢失关键信息，适用于非关键任务
动态调整（Dynamic Rescaling）	根据实时负载动态调整分区或资源	适应性强，实时优化	长期运行系统，负载波动大	需实时监控和调度机制，可能增加系统复杂度
监控指标分析	通过系统监控（如任务时间、CPU利用率）排查故障	轻量级，实时感知	系统故障初步定位	需建立完善的监控体系，指标需有阈值
日志分析	查看系统/任务日志（如错误日志、队列日志）	逐层排查具体原因	系统故障深入分析	需结构化日志，便于检索，可能涉及隐私数据

4) 【示例】

假设项目是计算用户活跃天数，原始数据按用户ID分区，发现用户ID为“U001”的日志量约100万条（远超平均1万条）。

问题现象：监控显示“U001”分区任务执行时间（30分钟）远高于其他分区（5分钟），任务延迟。
分析过程：
1. 通过系统监控（如任务执行时长、CPU利用率）发现特定分区的负载异常；
2. 查看该分区的任务日志，确认数据量过大（100万条 vs 平均1万条），属于数据倾斜。
解决方案：
1. 调整分区策略：将用户ID的哈希函数从MD5改为更均匀的算法（如MurmurHash3），减少冲突；
2. 增加节点资源：为“U001”分区增加2个计算节点，分散负载；
3. 优化计算逻辑：将聚合操作改为分批处理（每批10万条数据），避免单次处理过大内存。
结果：任务延迟从30分钟缩短至5分钟，系统CPU利用率从80%降至60%，资源利用率提升约40%，任务稳定运行。

（注：若重分区后仍存在倾斜，可进一步增加分区数量或采用混合分区策略。）

5) 【面试口播版答案】

之前在处理用户行为日志的分布式计算项目中，遇到了数据倾斜问题。具体来说，计算用户活跃天数时，某个用户ID（比如U001）的日志量异常庞大（约100万条，远超平均1万条），导致该分区任务处理时间长达30分钟，最终整个任务延迟。分析过程：先通过监控发现特定分区的任务执行时间远高于其他分区，再查看日志确认数据量过大。解决方案：调整用户ID的哈希函数（从MD5改为更均匀的算法），增加该分区的计算节点数量，同时将计算逻辑改为分批处理（每批10万条数据）。结果：任务延迟从30分钟缩短到5分钟，系统CPU利用率从80%降至60%，资源利用率提升约40%，任务稳定运行。

6) 【追问清单】

问：你如何确定是数据倾斜导致的问题？
答：通过监控任务执行时间和CPU利用率，发现特定分区的任务时间远超其他分区，结合日志分析确认数据量异常。
问：如果重分区后仍然存在倾斜，怎么办？
答：可能需要增加分区数量（如将分区从100个增加到200个），或采用混合分区策略（范围+哈希），或对数据做预处理（如去重、过滤）。
问：系统故障时，除了监控，还用了什么方法排查？
答：除了监控，还查看了系统日志（如任务队列日志、错误日志），以及压力测试数据，结合这些信息定位故障点。
问：解决方案中，增加节点资源是否有效？
答：是的，增加节点后，负载分散，每个节点处理的数据量减少，处理时间缩短，资源利用率也得到优化。
问：如果数据倾斜是由于数据本身的问题（比如某个key的值重复），如何处理？
答：可能需要清洗数据（如去重），或调整计算逻辑（如对倾斜key的数据做特殊处理，如聚合前过滤）。

7) 【常见坑/雷区】

雷区1：只说现象，不分析原因。例如，只说“任务慢了”，没解释是数据倾斜还是系统资源不足。
雷区2：解决方案不具体。例如，只说“调整分区”，没说明具体怎么调（如哈希函数、分区数量）。
雷区3：结果不量化。例如，只说“任务变快了”，没给出具体指标（如时间从30分钟到5分钟，资源利用率提升40%）。
雷区4：没说明分析过程。例如，没提监控、日志分析等步骤。
雷区5：假设解决方案是唯一的。例如，只说“重分区”，没考虑其他方法或可能的局限性（如重分区后是否影响其他任务，或增加资源是否成本高）。