设计一个用于竞赛培训的在线题库系统，需要支持多版本题目（不同竞赛级别）、实时更新、教师批量导入、学生练习后数据统计（错题、正确率），请描述系统架构，关键模块设计，以及如何保证数据一致性和高并发下的性能。

学而思竞赛教练：理科、编程 (C++)难度：困难

答案

1) 【一句话结论】
采用微服务架构，结合分布式数据库（按竞赛级别分片）与Redis缓存，通过Kafka消息队列处理异步任务，实现多版本题目管理、实时更新、教师批量导入及学生练习数据统计的高效、一致与高并发支持。

2) 【原理/概念讲解】

微服务：将系统拆分为独立服务（如题目管理、用户管理、练习统计），每个服务独立部署、开发，通过API网关统一入口，提升扩展性。类比：把大公司拆成多个子公司，各自负责业务，协同工作。
分布式数据库（分片）：按竞赛级别（如初赛、复赛）对题目表分片，将数据分散存储，提高查询和写入性能。比如初赛题目存于分片1，复赛存于分片2，查询时路由到对应分片。
缓存（Redis）：缓存热点题目（如高频练习的题目）、用户错题集，减少数据库压力。类比：超市的货架，把热销商品放在显眼位置，减少库存查询时间。
消息队列（Kafka）：教师批量导入题目时，系统将导入任务发送到Kafka，由消费者服务异步处理（解析文件、插入数据库、更新缓存），避免阻塞用户界面。

3) 【对比与适用场景】

架构模式	定义	特性	使用场景	注意点
单体架构	整个系统为一个应用	代码、数据库集中管理	小规模系统，开发简单	扩展性差，故障影响全局
微服务架构	多个独立服务组成	每个服务独立部署、开发	大规模系统，高并发、高扩展	服务间通信复杂，需统一管理
分布式数据库分片	按规则将数据分散存储	提高查询/写入性能	数据量大的表（如题目表）	分片策略设计复杂，跨分片查询慢
单库单表	所有数据存于一个数据库	管理简单	数据量小，读写低	扩展性差，性能瓶颈明显

4) 【示例】

教师批量导入题目流程（伪代码）：
```
// 教师上传CSV文件（字段：题目ID、题目内容、竞赛级别、难度等）
POST /api/v1/questions/import
{
  "file": "questions.csv",
  "competitionLevel": "初赛"
}
```
系统处理：
1. 接收请求，将任务发送到Kafka（主题：question-import）。
2. 消费者服务（QuestionImportService）消费消息，解析CSV文件。
3. 根据竞赛级别（初赛）路由到对应分片数据库（如分片1），插入题目数据。
4. 更新Redis缓存（热点题目列表、题目详情）。

学生练习数据统计（伪代码）：

// 统计某学生错题数
SELECT COUNT(*) FROM practice_records 
WHERE student_id = ? AND is_correct = 0;

结果存入Redis，前端实时展示。

5) 【面试口播版答案】
“系统采用微服务架构，拆分为题目管理、用户管理、练习统计等独立服务。数据层面，按竞赛级别对题目表分片存储，用Redis缓存热点数据，教师导入题目通过Kafka异步处理，避免阻塞。教师导入时，解析CSV文件后分片插入数据库并更新缓存；学生练习后，记录到数据库，统计错题、正确率并缓存结果。数据一致性通过分布式事务（如最终一致性，结合消息确认）和缓存过期策略保证，高并发下通过分片、缓存、异步处理提升性能。”

6) 【追问清单】

问：如何保证教师导入题目后，学生能立即看到？
答：通过消息队列异步处理导入任务，消费者服务插入数据库后立即更新Redis缓存，学生查询时优先从缓存获取，确保实时性。
问：高并发下，学生同时练习时，统计数据是否准确？
答：使用Redis的分布式锁（如Redisson）保证统计操作原子性，或者分阶段统计（先写入数据库，再异步计算汇总）。
问：缓存雪崩如何处理？
答：设置合理的缓存过期时间（如5分钟），并采用随机过期策略，避免集中过期；同时，缓存穿透用布隆过滤器拦截无效请求。
问：分片策略如何设计？
答：按竞赛级别（初赛、复赛、决赛）分片，或者按难度级别分片，根据数据量调整分片数量，确保每个分片负载均衡。
问：系统如何保证数据一致性？
答：采用最终一致性，通过消息队列确认机制（如ACK），确保导入任务成功后才更新缓存；关键数据（如题目状态）用数据库事务保证。

7) 【常见坑/雷区】

忽略数据一致性：教师导入题目后，学生立即看到但数据未同步，导致错误。
缓存未考虑过期策略：缓存数据长期不更新，导致数据过时。
分片策略不合理：分片过多导致跨分片查询复杂，分片过少导致单分片负载过高。
消息队列处理失败：导入任务失败后，数据丢失或重复，需重试机制。
权限控制不足：教师导入题目时，未验证权限，导致非法数据写入。