假设你参与过上交所某板块（如科创板）的上线项目，请描述在系统压力测试中遇到的一个挑战（如峰值流量超出预期），以及你如何分析问题并优化系统（如架构调整、资源扩容或算法优化）。

上海证券交易所A06 研究岗难度：困难

答案

1) 【一句话结论】

在科创板上线项目压力测试中，系统因峰值流量（1万QPS突增至5万QPS）超出预期，导致API网关请求队列积压（队列长度超100）、数据库主表锁等待时间过长（>1000ms），通过监控定位瓶颈（API网关限流不足、数据库单表查询压力过大），优化后系统在5万QPS下响应时间稳定在300ms内，CPU占用率降至60%以下，成功通过压力测试。

2) 【原理/概念讲解】

压力测试的核心是模拟系统在高负载下的稳定性，关键在于通过监控指标识别瓶颈。比如，API网关的“请求队列长度”、数据库的“锁等待时间”、CPU利用率等。系统瓶颈是指资源（如数据库连接、CPU）达到饱和的环节，可类比为“高速公路收费站，车辆拥堵导致整体通行效率下降”。优化需从“瓶颈点”入手，通过**架构调整（解耦系统）、资源扩容（动态分配资源）、算法优化（缓存、限流）**提升承载能力。例如，API网关限流策略若设置过低，会导致后端服务被淹没；数据库单表压力过大时，查询延迟会传导至前端，导致响应超时。

3) 【对比与适用场景】

（精简要点，聚焦核心优化措施）

数据库索引优化：为查询字段添加索引，加速数据检索。
- 特性：提升查询效率，减少I/O操作。
- 使用场景：高频查询字段（如用户ID、交易状态）。
- 注意点：避免过度索引，影响写性能。
查询语句优化：将子查询改为连接查询，减少嵌套查询开销。
- 特性：降低查询复杂度，减少锁竞争。
- 使用场景：涉及多表关联的复杂查询。
- 注意点：需确保数据一致性（如事务隔离级别）。

4) 【示例】

假设压力测试中，初始流量为1万QPS，系统响应时间约100ms，数据库锁等待时间约50ms。当流量突增到5万QPS时，API网关请求队列长度飙升至200，锁等待时间超过1000ms，系统响应时间骤升至2000ms。通过Prometheus监控发现：

API网关限流策略设置为1万QPS，导致超过部分请求被丢弃；
数据库主表因查询压力过大，导致锁竞争加剧。

优化措施：

调整API网关限流：将限流值提升至3万QPS，并启用熔断（请求超时率>50%时触发）；
数据库分库分表：按用户ID分库（每个库存储100万用户数据），为查询字段（如用户ID、交易状态）添加索引；
查询语句优化：将原子查询（SELECT * FROM orders WHERE user_id = (SELECT id FROM users WHERE username='...')）改为连接查询（SELECT o.* FROM orders o JOIN users u ON o.user_id = u.id WHERE u.username='...'）；
资源扩容：配置云服务器自动伸缩规则，当API网关请求量超过2.5万QPS时，自动增加1个实例，最大实例数设为10。

优化后，系统在5万QPS下的平均响应时间稳定在300ms内，锁等待时间降至200ms以下，CPU占用率降至60%以下。

5) 【面试口播版答案】

在科创板上线项目压力测试中，我们遇到了一个典型挑战：系统在模拟上线时的峰值流量测试中，实际流量远超预期（从1万QPS突增到5万QPS），导致API网关请求队列积压（队列长度超100）、后端数据库主表锁等待时间过长（>1000ms），系统响应时间从2000ms骤升至不可用。分析问题时，我们首先通过Prometheus监控发现，瓶颈在于API网关限流策略设置过低（仅1万QPS），且数据库主表因查询压力过大导致锁竞争。优化措施包括：1）调整API网关限流至3万QPS并启用熔断；2）将后端服务拆分为微服务（用户、交易等），通过gRPC通信降低耦合；3）数据库主表按用户ID分库分表，为查询字段添加索引，并优化查询语句（如将子查询改为连接查询）；4）配置云服务器自动伸缩规则。优化后，系统在5万QPS下的平均响应时间稳定在300ms内，锁等待时间降至200ms以下，CPU占用率降至60%以下，成功通过压力测试。

6) 【追问清单】

问：具体优化后，系统承载能力提升了多少？
答：将系统承载能力从1万QPS提升至5万QPS，即提升4倍，满足上线首日流量需求。
问：数据库分库分表后，数据一致性如何保障？
答：通过分布式事务（如两阶段提交）或最终一致性（如事件溯源），确保数据一致性。
问：查询语句优化后，数据库查询效率提升了多少？
答：通过连接查询替代子查询，查询时间从1000ms降至200ms，效率提升80%。
问：如果流量继续激增（如达到10万QPS），后续的优化方向是什么？
答：考虑引入消息队列（如Kafka）解耦服务，实现异步处理，进一步降低系统压力。

7) 【常见坑/雷区】

雷区1：只描述问题，不提具体分析过程。比如只说流量超预期，没说通过监控发现瓶颈，显得分析不深入。
雷区2：优化方案不具体。比如说“调整架构”，没说明具体调整（如拆分哪些服务、如何拆分），显得方案不落地。
雷区3：忽略数据库层面的优化。比如只说“扩容”，没提索引优化、查询语句优化，显得优化不全面。
雷区4：优化后效果不量化。比如只说“系统变好了”，没说具体指标（如响应时间、锁等待时间），显得效果不明确。
雷区5：未考虑系统扩展性。比如优化后，系统在更高流量下可能再次卡壳，没提后续优化方向（如消息队列），显得思考不全面。