假设360安全卫士在安全检测服务（如实时威胁扫描）面临高并发请求，设计一套移动端限流与熔断机制，说明核心组件（如限流器、熔断器）的设计思路及如何避免服务雪崩。

360移动开发工程师(跨端)-AI应用方向难度：困难

答案

1) 【一句话结论】
采用“分布式令牌桶限流+动态阈值熔断”双机制，通过Redis原子操作保证限流状态一致性，基于系统负载指数衰减调整阈值；熔断器用ZooKeeper临时节点同步状态，状态机实现故障隔离，有效避免服务雪崩，确保实时威胁扫描在高并发下的稳定性与快速恢复。

2) 【原理/概念讲解】
首先解释限流的核心是控制请求进入系统的速率，防止服务器因突发流量过载。分布式限流器用Redis存储令牌桶状态，通过INCR原子操作确保多个实例状态一致。令牌桶模型：桶有固定容量（如1000令牌/秒），请求消耗令牌才能通过，桶以固定速率补充，允许一定突发（桶容量+填充速率×时间）。动态阈值依据系统监控指标（CPU>80%时降低容量、内存>70%时减少填充速率），采用指数衰减公式（new_threshold = old_threshold × (1 - decay_rate)，decay_rate=0.1-0.5），避免负载波动时阈值调整过激。

然后解释熔断：当下游服务（如威胁扫描API）错误率超过阈值（如50%）时，上游服务暂时停止调用，避免级联失败。熔断器状态机（关闭/半开/打开），半开状态下每隔固定时间（如5秒）允许少量请求（1-2个），若成功则恢复关闭，失败则继续打开。类比：限流器像“流量阀门”，熔断器像“保险丝”，共同保护系统。

3) 【对比与适用场景】

组件	定义	核心特性	使用场景	注意点
限流器	控制请求进入系统的速率	限制流量，平滑突发	实时威胁扫描（短请求）、登录验证	设计突发容量（令牌桶容量+填充速率×时间），避免合法请求被拒绝
熔断器	下游故障率过高时暂时停止调用	故障隔离，避免级联	依赖威胁扫描API的下游服务（如病毒库更新）	恢复策略需平衡恢复速度与误判风险（半开状态调用频率和成功标准）

4) 【示例】

分布式限流器（Redis原子操作+过期时间）

def check_rate_limit(user_id, request_type, redis_client):
    key = f"rate_limit:{user_id}:{request_type}"
    current_tokens = redis_client.get(key)
    if current_tokens is None:
        current_tokens = 1000  # 初始容量
    now = time.time()
    refill = (now - last_refill) * refill_rate  # 补充令牌
    new_tokens = min(1000, int(current_tokens) + int(refill))
    redis_client.set(key, new_tokens, ex=60)  # 设置过期时间避免内存泄漏
    if new_tokens >= 1:
        redis_client.decr(key)  # 消耗令牌
        return True
    return False

熔断器（ZooKeeper临时节点）

class DistributedCircuitBreaker:
    def __init__(self, zk_path, error_threshold=0.5, recovery_time=5):
        self.state = "CLOSED"
        self.error_count = 0
        self.last_check = time.time()
        self.error_threshold = error_threshold
        self.recovery_time = recovery_time
        self.zk = ZooKeeper()
        self.state_node = f"{zk_path}/state"  # 临时节点，客户端断开连接后自动删除
        self.zk.create(self.state_node, b"CLOSED", flags=ZooKeeper.EPHEMERAL)
    
    def check(self, is_success, call_interval=1):
        now = time.time()
        if now - self.last_check < call_interval:
            return self.state
        self.last_check = now
        state = self.zk.get(self.state_node)  # 同步状态
        if state == b"OPEN":
            if now - self.last_check > self.recovery_time:
                self.state = "HALF_OPEN"
                self.zk.set(self.state_node, b"HALF_OPEN")
        elif state == b"HALF_OPEN":
            if is_success:
                self.state = "CLOSED"
                self.zk.set(self.state_node, b"CLOSED")
            else:
                self.state = "OPEN"
                self.zk.set(self.state_node, b"OPEN")
        else:
            self.state = state
        return self.state

5) 【面试口播版答案】
“面试官您好，针对360安全卫士实时威胁扫描的高并发问题，我设计了一套‘分布式限流+动态阈值熔断’的机制。首先，限流器采用Redis原子操作实现分布式令牌桶，每个服务实例共享令牌状态，通过INCR保证一致性，令牌容量和填充速率根据系统负载（如CPU、内存）动态调整，比如负载高时降低容量，避免服务器过载。然后熔断器用ZooKeeper临时节点同步状态，状态机包含关闭、半开、打开三种状态，当错误率超过50%时切换到打开状态，暂时停止调用下游服务，避免级联失败。半开状态下，每隔5秒允许1-2个请求，若成功则恢复关闭，失败则继续打开。这样既控制了入口流量，又隔离了故障链路，有效避免服务雪崩，确保在高并发下系统稳定，同时快速恢复服务。”

6) 【追问清单】

分布式限流如何保证多个实例状态一致？
回答：通过Redis的原子操作（如INCR）更新令牌数，所有实例读取同一Redis key，确保状态同步，避免限流效果不一致。
动态阈值调整的依据是什么？
回答：基于系统监控指标，如CPU使用率（>80%时降低令牌桶容量）、内存占用（>70%时减少填充速率），实时计算并更新限流参数，采用指数衰减公式避免波动。
限流器可能导致合法请求被拒绝吗？如何缓解？
回答：是的，若突发流量超过令牌桶容量，会拒绝请求。缓解措施：设计突发容量（令牌桶容量+填充速率×时间），允许短时间内处理更多请求，减少饥饿问题。
熔断器恢复策略的延迟影响如何？如何优化？
回答：半开状态下的调用延迟可能导致服务恢复变慢。优化方法：缩短恢复时间（如从5秒降低到3秒），或增加半开状态下的调用频率（每秒允许更多请求），同时提高成功标准（连续2次成功才恢复）。
如何结合威胁扫描的短请求（实时扫描）和长请求（全盘扫描）？
回答：短请求（实时扫描）采用高容量令牌桶（每秒5000令牌），快速响应；长请求（全盘扫描）单独设置限流策略（如降低容量，增加等待时间），避免影响实时功能。

7) 【常见坑/雷区】

分布式限流一致性：若多个实例状态不同步，会导致限流效果不一致，部分实例可能被过度限流。
熔断器恢复策略延迟：若恢复时间过长，下游服务长时间不可用，影响用户体验。
限流器参数设置不合理：容量太小导致合法请求被拒绝，太大则失去限流作用。
状态同步延迟：ZooKeeper等协调工具的延迟可能导致部分实例误判熔断器状态，影响服务恢复。
动态阈值调整过激：系统负载波动时，阈值调整过快可能引发服务不稳定，需平滑过渡（指数衰减）。