在分布式存储中，如何设计数据分片策略？举例说明一致性哈希算法的应用，以及如何处理节点增删时的数据迁移。

360大数据开发工程师-分布式存储难度：中等

答案

1) 【一句话结论】：在分布式存储中，数据分片策略需通过一致性哈希等机制实现负载均衡与高可用，通过虚拟节点解决单点问题，节点增删时通过重新映射数据（如基于虚拟节点的就近原则）实现平滑迁移，核心是保证数据分布均匀且增删节点时影响最小。

2) 【原理/概念讲解】：数据分片是将海量数据按规则分配到不同存储节点，目的是分散负载、提高吞吐。一致性哈希的核心是环形结构：将0-2^32-1（或更大范围）的哈希值映射到环上，每个节点（物理节点）对应多个虚拟节点（虚拟节点是哈希值在环上的连续区间），数据通过哈希函数（如MD5）计算哈希值，定位到环上，再按顺时针找到第一个虚拟节点对应的物理节点。类比：超市货架（节点）上贴多个标签（虚拟节点），商品（数据）按条形码（哈希）找到标签，再找最近的货架（节点）。

3) 【对比与适用场景】：

策略	定义	特性	使用场景	注意点
轮询	按顺序分配请求到节点	负载均衡，但节点故障时数据迁移复杂	小规模、节点数少	节点增删时需手动调整
哈希取模	数据哈希取模分配	负载均衡，但节点故障时数据迁移需全量迁移	数据量小、节点数固定	节点增删时数据分布变化大
一致性哈希	节点映射到环上，数据按哈希就近分配	负载均衡，节点增删时数据迁移量小	大规模、动态节点	虚拟节点数量影响均匀性

4) 【示例】：假设节点列表：N1, N2, N3，虚拟节点为V1-N1, V2-N1, V1-N2, V2-N2, V1-N3, V2-N3（每个节点2个虚拟节点）。数据D1哈希为H(D1)=12345，环上位置在V1-N1和V2-N1之间，顺时针找第一个虚拟节点是V1-N1，所以D1存N1。节点N4加入，新增虚拟节点V1-N4, V2-N4，数据迁移：环上每个数据对应的虚拟节点顺时针移动，找到新节点。伪代码：

# 节点列表
nodes = ['N1', 'N2', 'N3']
# 虚拟节点，每个节点2个
virtual_nodes = {node: [f"{node}-{i}" for i in range(2)] for node in nodes}
# 数据哈希
def hash(key):
    return int(md5(key.encode()).hexdigest(), 16) % (2**32)
# 分配数据
data = {'k1': 'v1', 'k2': 'v2'}
for k, v in data.items():
    h = hash(k)
    # 找到顺时针第一个虚拟节点
    for node, vns in virtual_nodes.items():
        for vn in vns:
            if h <= hash(vn):
                print(f"{k} -> {node}")
                break
# 节点增删：加入N4
nodes.append('N4')
virtual_nodes['N4'] = [f"N4-{i}" for i in range(2)]
# 重新映射数据
for k, v in data.items():
    h = hash(k)
    # 重新找节点
    for node, vns in virtual_nodes.items():
        for vn in vns:
            if h <= hash(vn):
                print(f"{k} -> {node}")
                break

5) 【面试口播版答案】：
“在分布式存储中，数据分片策略的核心是通过一致性哈希实现负载均衡和高可用。一致性哈希用环形结构，节点对应多个虚拟节点，数据哈希后按顺时针找最近节点，这样节点增删时只需迁移少量数据。比如，假设节点N1、N2，数据D1哈希后定位到N1，当加入N3，数据迁移量小，因为只有部分数据需要重新分配。具体来说，虚拟节点解决了单点问题，节点增删时通过重新映射数据，保证系统稳定。”

6) 【追问清单】：

问：虚拟节点数量如何选择？
回：通常为节点数的10-100倍，平衡均匀性和计算开销。
问：负载不均衡怎么办？
回：结合虚拟节点和加权策略，或动态调整虚拟节点权重。
问：节点故障时如何处理？
回：故障节点下线，数据自动迁移到顺时针下一个节点。
问：一致性哈希的哈希函数选择？
回：推荐MD5等均匀分布的哈希函数，避免哈希冲突。
问：大规模数据分片时，如何保证数据分布均匀？
回：增加虚拟节点数量，或结合哈希取模与一致性哈希混合策略。

7) 【常见坑/雷区】：

忽略单点问题：直接用哈希取模，节点故障时数据迁移全量。
虚拟节点数量过少：导致数据集中，负载不均衡。
节点增删时数据迁移复杂：未考虑虚拟节点，迁移量过大。
哈希函数选择不当：导致哈希冲突，数据分布不均。
忽略负载均衡算法：仅用一致性哈希，未结合动态调整策略。