在360云安全服务中，为了应对突发流量（如DDoS攻击），需要实现服务降级和熔断机制，请描述如何设计并实现这些机制，以及如何监控和触发。

360Web服务端开发工程师难度：中等

答案

1) 【一句话结论】服务降级与熔断机制通过动态控制请求流量、快速失败响应及策略调整，保障核心服务稳定性，其中熔断针对单个服务实例的快速失败保护，降级针对整体服务能力的缩减，二者结合应对突发流量冲击。

2) 【原理/概念讲解】老师口吻：先讲熔断——当服务出现异常（如错误率超阈值、响应超时）时，熔断器会触发，暂时拒绝后续请求，避免雪崩效应，类似电路保险丝，过载时断开保护其他部分；再讲降级——主动降低服务功能（如只提供基础认证、不处理复杂查询），减少资源消耗，应对流量高峰，类似“降薪保命”的应急策略。两者核心是“快速失败”和“能力缩减”，目的是避免服务雪崩。

3) 【对比与适用场景】

特性	熔断机制	服务降级机制
定义	针对单个服务实例的快速失败保护机制，异常时暂时拒绝请求，恢复后自动恢复	主动缩减服务能力或功能，降低资源消耗，应对流量高峰或资源不足
核心逻辑	快速失败（fail fast）+ 状态监控（健康度）+ 状态切换（打开/半开/关闭）	能力缩减（如功能裁剪、限流）+ 策略动态调整（如流量阈值触发）
触发条件	服务错误率超阈值、响应时间超阈值、调用超时次数过多	流量超阈值、CPU/内存使用率过高、业务优先级排序（核心业务优先）
适用场景	服务间调用链路中，上游服务异常导致下游雪崩	整体服务流量突发（如DDoS）、资源紧张时保障核心功能可用
注意点	需健康检查机制，避免误判；熔断后需自动恢复	降级策略需与业务需求匹配，避免影响核心业务；降级后需逐步恢复

4) 【示例】（熔断器伪代码）

# 熔断器类
class CircuitBreaker:
    def __init__(self, max_failures=5, timeout=5):
        self.max_failures = max_failures
        self.timeout = timeout
        self.state = "CLOSED"  # CLOSED: 正常，OPEN: 熔断，HALF_OPEN: 半开
        self.failures = 0
        self.last_failure_time = 0

    def request(self):
        if self.state == "OPEN":
            return False  # 拒绝请求
        if self.state == "HALF_OPEN":
            if time.time() - self.last_failure_time > self.timeout:
                self.state = "CLOSED"
                self.failures = 0
                return True
            else:
                return False
        # 正常状态
        try:
            result = call_service()  # 调用实际服务
            if result is None or result.error:
                self.failures += 1
                if self.failures >= self.max_failures:
                    self.state = "OPEN"
                    self.last_failure_time = time.time()
                return False
            else:
                self.failures = 0
                return True
        except Exception:
            self.failures += 1
            if self.failures >= self.max_failures:
                self.state = "OPEN"
                self.last_failure_time = time.time()
            return False

# 使用示例
breaker = CircuitBreaker()
for _ in range(10):
    if breaker.request():
        print("服务正常，处理请求")
    else:
        print("服务熔断，拒绝请求")

5) 【面试口播版答案】
面试官您好，针对360云安全服务应对突发流量的需求，我设计的服务降级和熔断机制核心是通过动态控制请求流量、快速失败响应来保障核心服务稳定性。首先，熔断机制类似电路保险丝，当服务出现异常（如错误率超过阈值、响应超时）时，熔断器会触发，暂时拒绝后续请求，避免雪崩效应；降级则是主动降低服务能力，比如只提供基础功能（如只返回用户ID，不处理复杂查询），减少资源消耗。两者结合，熔断应对突发异常，降级应对流量高峰。实现上，熔断器通过状态机（关闭/半开/打开）和失败计数器监控服务健康度，降级通过流量阈值或资源使用率触发，比如当请求量超过1000QPS时，触发降级策略。监控方面，通过Prometheus等工具收集错误率、响应时间、调用次数等指标，当指标超过阈值时触发熔断或降级。这样既能应对DDoS攻击导致的流量突发，又能保障核心服务可用性。

6) 【追问清单】

问题1：熔断和降级的区别？
回答要点：熔断是针对单个服务实例的快速失败保护，降级是整体服务能力缩减，核心逻辑不同。
问题2：如何设计熔断器的健康检查？
回答要点：通过监控服务错误率、响应时间等指标，判断服务是否健康，避免误判。
问题3：降级策略如何动态调整？
回答要点：可通过配置文件或动态规则（如根据流量变化调整阈值）实现，比如流量超过阈值时自动降级，流量恢复后逐步恢复。
问题4：如何避免熔断误触发？
回答要点：设置合理的失败阈值和超时时间，同时结合健康检查。
问题5：服务降级后如何逐步恢复？
回答要点：通过熔断器状态机（半开状态）或降级策略的阶梯式调整（如从降级到部分恢复再到完全恢复）实现。

7) 【常见坑/雷区】

混淆熔断和降级的定义，比如把熔断说成降级，或降级说成熔断。
监控指标设置不合理，比如熔断阈值过低导致频繁触发，或过高导致无法及时保护。
降级策略与业务需求不匹配，比如降级后影响核心业务可用性。
实现中缺少健康检查机制，导致熔断误触发。
忽略服务恢复后的自动恢复逻辑，导致服务长时间无法恢复。