设计课程录制和回放系统的容灾方案，确保在服务器故障时，课程内容不丢失，用户能正常回放。

好未来基础平台难度：中等

答案

1) 【一句话结论】
采用“多级冗余+实时同步+故障自动切换”的容灾架构，通过本地临时存储+分布式高可用存储+冷备份存储，结合实时数据同步机制，确保服务器故障时课程内容不丢失，用户回放体验不受影响。

2) 【原理/概念讲解】
容灾的核心是数据冗余与故障切换。课程录制时，视频流先写入本地服务器（临时存储），同时通过消息队列（如Kafka）或直接网络同步到分布式存储（如MinIO集群，部署多副本），同步成功后删除本地文件，避免本地故障导致数据丢失。分布式存储采用多节点副本（如3副本），确保单节点故障不影响数据访问；冷备份则将数据定期同步到对象存储（如阿里云OSS），用于灾难性故障（如数据中心断电）的恢复。故障检测通过心跳机制（如ZooKeeper或自建心跳服务），当检测到主服务器不可达时，自动切换到备用服务器，用户请求重定向到备用存储节点。

类比：就像银行存款，本地账户（临时存储）和多个银行分行的账户（分布式存储副本）都有钱，即使本地银行（服务器）关门，其他分行（副本）的钱还在，还能取出来。

3) 【对比与适用场景】

策略	定义	特性	使用场景	注意点
本地临时存储	录制时写入本地服务器临时文件	速度快，但易受服务器故障影响	初始录制阶段，数据量小	需快速同步到分布式存储
分布式高可用存储	多节点副本存储，如MinIO集群	高可用，自动故障切换，强一致性（可选）	正式存储，用户回放	需考虑网络延迟和成本
冷备份存储	对象存储（如OSS），定期同步	成本低，容量大，用于灾难恢复	灾难性故障恢复	恢复时间长，需定期验证
实时同步机制	Raft/Paxos协议，确保数据一致性	强一致性或最终一致性	需要低延迟回放	需要高带宽网络

4) 【示例】
录制流程伪代码：

def record_course(stream_data):
    local_path = f"/tmp/course_{uuid}.mp4"
    with open(local_path, "wb") as f:
        f.write(stream_data)
    
    minio_client.put_object(
        bucket_name="course-storage",
        object_name=local_path,
        data=open(local_path, "rb")
    )
    
    os.remove(local_path)
    publish_to_kafka("course-ready", {"course_id": uuid, "path": f"course-storage/{uuid}.mp4"})

回放流程伪代码：

def play_course(course_id):
    path = minio_client.get_object(
        bucket_name="course-storage",
        object_name=f"{course_id}.mp4"
    ).read()
    return path

5) 【面试口播版答案】
（约90秒）
“面试官您好，针对课程录制和回放系统的容灾需求，我的核心思路是构建一个多级冗余、实时同步的容灾架构。首先，课程录制时，视频流会先写入本地临时存储，同时通过消息队列或直接网络同步到分布式高可用存储（比如MinIO集群，部署多副本），同步成功后删除本地文件，避免本地故障导致数据丢失。分布式存储采用多节点副本，确保单节点故障不影响用户回放。另外，我们会定期将数据同步到冷备份存储（如对象存储），用于灾难性故障的恢复。故障检测通过心跳机制，当检测到主服务器不可达时，自动切换到备用存储节点，用户请求重定向后能正常回放。这样，即使服务器故障，课程内容不会丢失，用户回放体验不受影响。”

6) 【追问清单】

问：如何保证数据一致性？比如录制时本地和分布式存储的同步延迟？
回答要点：采用Raft协议实现强一致性，确保数据写入后立即同步到所有副本，延迟控制在毫秒级，不影响回放体验。
问：故障切换的时间成本？比如服务器故障时，用户回放是否中断？
回答要点：通过心跳检测（如ZooKeeper的Leader选举），故障切换时间在秒级（如1-3秒），用户请求会自动重定向到备用节点，回放无中断。
问：冷备份的作用？如果数据中心断电，如何恢复？
回答要点：冷备份用于灾难性故障恢复，定期（如每天）同步数据，恢复时间约1-2小时，确保数据不丢失。
问：回放时的断点续传如何处理？容灾方案是否影响？
回答要点：回放服务支持断点续传，容灾方案中分布式存储的文件可被回放服务直接读取，不影响断点续传功能。
问：成本方面，多级备份会增加多少成本？
回答要点：分布式存储成本较高，但通过多副本提高可用性；冷备份成本较低，用于灾难恢复，整体成本可控，可通过存储优化（如冷数据归档）降低。

7) 【常见坑/雷区】

坑1：只考虑存储不考虑网络。比如本地存储同步到分布式存储时，网络故障导致数据丢失，应强调网络冗余（如多线路）。
坑2：数据一致性选择错误。比如追求强一致性导致回放延迟，应说明根据业务需求选择（如视频回放允许最终一致性，但需保证数据不丢失）。
坑3：故障检测延迟。如果心跳检测时间过长，可能导致故障切换不及时，应采用低延迟检测机制（如ZooKeeper的Leader状态）。
坑4：冷备份验证不足。如果冷备份数据损坏或过期，灾难恢复时无法使用，应定期验证冷备份数据的可用性。
坑5：回放体验优化不足。比如分布式存储的读取性能，若节点故障导致读取延迟，应考虑负载均衡和缓存（如CDN加速回放）。