深圳大学计划构建一个支持百万级用户、十万级课程、每天新增数千门课程的LMS系统。请描述其核心模块（用户管理、课程管理、学习进度跟踪）的设计思路，并分析高并发和实时性需求下的技术选型与架构设计。

深圳大学北汽福田难度：困难

答案

1) 【一句话结论】
采用微服务架构，结合分布式数据库（分库分表）、Redis缓存、Kafka消息队列及WebSocket实时通信技术，通过水平扩展、异步处理、缓存预热等策略，满足百万级用户、十万级课程、高并发及实时性需求。

2) 【原理/概念讲解】
首先，LMS系统的核心模块围绕用户管理、课程管理、学习进度跟踪设计：

用户管理：支持用户注册、认证（如JWT）、权限控制（RBAC），需处理百万级用户并发登录。采用微服务拆分用户服务，登录状态存Redis集群（分布式缓存一致性，用哨兵模式保证高可用），减少数据库压力；
课程管理：支持课程创建、分类、发布、更新（如视频、文档、章节），需存储十万级课程元数据及内容。课程元数据（名称、分类、状态）用MySQL分库分表（按课程ID哈希分片，均匀负载），课程内容（视频、文档）用MongoDB（非结构化存储）；
学习进度跟踪：记录用户学习行为（如章节观看时长、完成度），需实时更新并支持查询。采用WebSocket实现客户端-服务端双向实时通信（如章节观看进度即时推送），同时用Kafka异步记录用户行为（如章节完成度），避免数据库阻塞。

高并发下，技术选型聚焦扩展性、性能、容错性：

微服务拆分：将用户、课程、进度等模块拆分为独立服务，降低单点压力，便于水平扩展；
分布式数据库：MySQL分库分表处理结构化数据（如用户信息、课程元数据），MongoDB存储非结构化内容（如视频、文档）；
缓存技术：Redis缓存热点数据（如课程列表、用户登录状态），减少数据库压力；
消息队列：Kafka异步处理非实时任务（如课程发布通知、用户行为日志），避免数据库阻塞；
CDN加速：静态资源（如视频封面、文档）通过CDN分发，降低服务器负载。

类比：用户登录时，Redis集群像“分布式缓存仓库”，通过哨兵模式保证高可用，登录状态一致性，减少数据库压力。

3) 【对比与适用场景】

技术选型	定义	特性	使用场景	注意点
MySQL	关系型数据库，支持事务、ACID	强一致性、事务支持、成熟分库分表工具（如ShardingSphere）	用户信息（结构化）、课程元数据（名称、分类、分片键索引）	分库分表需设计合理分片键（如课程ID哈希分片），避免热点数据集中；跨分片查询需用分片键索引
MongoDB	NoSQL数据库，灵活Schema	高扩展性、无事务、适合非结构化	课程内容（视频、文档、章节）、学习记录（非结构化行为日志）	无事务支持，需保证最终一致性；索引设计需考虑查询性能
Redis	内存数据库，支持数据结构	高性能、持久化、发布订阅	用户登录状态、课程列表、热点数据（如热门课程、用户信息）	内存容量需规划（如按用户数/课程数估算），缓存雪崩用随机过期时间+限流
Kafka	分布式消息队列	高吞吐、持久化、分区	课程发布通知、用户行为日志（异步处理，如章节完成度）	分区数设计需根据吞吐量（如每日新增数千门课程，计算分区数：假设每门课程发布时产生100条消息，总吞吐量=每日新增课程数×消息量/秒，分区数=总吞吐量/（每秒每分区处理量，如100条/秒），取整数，如100以上）
WebSocket	双向通信协议	实时双向通信	学习进度实时推送（如章节观看、完成度更新）	连接池管理（如连接复用）、心跳检测（避免超时断开）、消息压缩（减少带宽）

4) 【示例】
用户查询课程列表的流程（伪代码）：

GET /api/courses?category=计算机&page=1&size=20

系统处理：

检查Redis缓存：courses:category:计算机是否存在，若存在则返回缓存数据（如缓存了热门计算机课程列表）；
若缓存不存在，查询数据库：SELECT * FROM courses WHERE category='计算机' AND status='published' ORDER BY publish_time DESC LIMIT 20 OFFSET 0（分库分表后，查询需用分片键索引，如course_id % 分片数，确保跨分片查询效率）；
将查询结果存入Redis缓存（设置过期时间，如1小时），并返回给用户。

学习进度实时更新示例（WebSocket）：

用户打开课程页面，客户端建立WebSocket连接；
用户开始观看章节1，服务端通过WebSocket推送“章节1开始观看”消息；
服务端将用户行为（用户ID、课程ID、章节ID、观看时长）异步写入Kafka（分区1）；
后台消费者（如进度同步服务）从Kafka读取消息，更新用户学习进度表（MySQL），确保数据持久化。

5) 【面试口播版答案】
（约80秒）
“面试官您好，针对百万级用户、十万级课程、高并发和实时性需求，我设计的LMS系统核心模块及架构如下：首先，用户管理模块采用微服务拆分，用户认证服务通过Redis集群缓存登录状态（分布式缓存一致性，用哨兵模式保证高可用），减少数据库压力；课程管理模块支持分布式存储，课程元数据（名称、分类、状态）用MySQL分库分表（按课程ID哈希分片，跨分片查询用分片键索引），课程内容（视频、文档）用MongoDB存储；学习进度跟踪通过WebSocket实现客户端-服务端双向实时通信（如章节观看进度即时推送），同时用Kafka异步记录用户行为（如章节完成度），避免数据库阻塞。技术选型上，数据库用MySQL分库分表处理结构化数据，Redis缓存热点数据（如课程列表、用户信息），Kafka处理异步任务（如课程发布通知），微服务架构部署在K8s集群，通过负载均衡分发请求，确保系统可扩展性和高可用性。这样既能满足当前百万级用户和十万级课程的需求，又能应对每天新增数千门课程的高并发和实时性挑战。”

6) 【追问清单】

问：如何设计MySQL分库分表的分片键？
回答要点：课程ID采用哈希分片（如course_id % 分片数），均匀负载不同课程；对热门课程可单独分片（如按时间范围分片），优化查询性能。
问：学习进度跟踪的实时性如何保障？
回答要点：采用WebSocket实现客户端与服务端的双向通信，用户行为实时推送；结合Kafka异步记录，确保数据持久化，避免实时通信中断导致数据丢失。
问：消息队列Kafka如何处理每日新增数千门课程的高吞吐？
回答要点：根据吞吐量设计分区数（如100分区以上），每个分区独立处理消息；设置消息堆积阈值（如每个分区堆积1000条消息时触发告警），避免消息堆积导致延迟。
问：如何解决Redis缓存雪崩问题？
回答要点：设置缓存过期时间（如1小时），并采用随机过期时间；同时使用分布式限流（如令牌桶算法）或缓存预热（预加载热门数据到缓存），防止大量请求同时访问数据库。
问：微服务拆分时，如何保证服务间通信的高可用？
回答要点：使用服务注册与发现（如Nacos），结合负载均衡（如Nginx），确保服务故障时能快速切换，提高系统可用性。

7) 【常见坑/雷区】

分库分表设计不当：直接用单表存储所有课程数据，导致查询性能下降，应按课程ID哈希分片，避免热点数据集中。
缓存未考虑雪崩：未设置缓存预热，导致用户访问时数据库压力过大，应提前加载热门数据到缓存。
消息队列选型错误：用RabbitMQ处理高吞吐任务，导致消息堆积，应选择Kafka（高吞吐、持久化）。
微服务拆分不合理：将用户管理和课程管理放在一个服务，导致服务过大，难以扩展，应按模块拆分（如用户、课程、进度独立服务）。
忽略实时通信技术：未考虑学习进度跟踪的实时性，导致用户无法即时看到学习进度更新，应采用WebSocket或SSE。