在图书馆馆藏数据库中，图书信息表（book_info）包含字段：book_id（主键）、title、author、publisher、publish_date、category_id、available_count（可借数量）。当前查询“按出版社和出版年份筛选图书”的性能较差，请分析可能的原因，并提出优化方案。

三峡大学图书馆专技难度：中等

答案

1) 【一句话结论】当前查询性能差的核心原因是未对“publisher”和“publish_date”字段建立合适的索引（如复合索引），导致数据库执行全表扫描或低效的索引扫描，增加了I/O和CPU开销。

2) 【原理/概念讲解】同学们，数据库索引就像书的目录，能快速定位满足条件的记录，而全表扫描则是逐行检查所有数据，效率低。当查询条件涉及多个字段时，复合索引（同时包含多个字段的索引）能更高效地定位数据。如果数据库没有为“publisher”和“publish_date”创建复合索引，那么每次查询都会扫描整个表，导致性能下降。

3) 【对比与适用场景】

对比项	全表扫描（No Index）	索引扫描（有合适索引）
定义	数据库逐行检查所有记录	利用索引结构快速定位满足条件的记录
特性	时间复杂度O(n)，依赖I/O	时间复杂度O(log n)（B树索引），高效
使用场景	索引缺失或查询条件无索引	查询条件包含索引字段（单或复合）
注意点	可能导致性能瓶颈，尤其大数据量	需要维护索引，增加存储空间和更新开销

4) 【示例】

-- 当前查询语句
SELECT * FROM book_info 
WHERE publisher = '人民邮电出版社' 
  AND publish_date = '2020-01-01';

-- 分析：若book_info表未建立复合索引（publisher,publish_date），数据库会执行全表扫描（扫描所有行），导致性能差。
-- 优化后添加复合索引：
CREATE INDEX idx_publisher_publish_date ON book_info(publisher, publish_date);

5) 【面试口播版答案】
面试官您好，针对“按出版社和出版年份筛选图书”性能差的问题，核心原因是数据库未为这两个字段建立合适的索引。简单说，索引就像书的目录，能快速找到特定出版社和年份的图书，而当前查询可能因为缺少这个“目录”，导致数据库逐行扫描整个表，效率很低。具体来说，当查询同时涉及多个字段时，复合索引（同时包含出版社和出版年份的索引）比单独索引更高效。所以优化方案是创建复合索引idx_publisher_publish_date，覆盖这两个字段，这样数据库就能利用索引快速定位数据，大幅提升查询性能。

6) 【追问清单】

为什么选择复合索引而不是单独为每个字段建索引？
回答要点：因为查询条件是同时匹配“出版社”和“出版年份”，复合索引能一次性定位满足两个条件的记录，而单索引需要先通过一个字段索引定位，再过滤另一个字段，增加额外扫描。
索引维护成本如何？是否会影响插入、更新操作？
回答要点：索引会增加存储空间，且插入、更新、删除操作时需要维护索引，但考虑到查询性能提升，在大数据量场景下是值得的。
是否考虑过其他优化方式，比如查询重写或分区？
回答要点：对于按出版社和年份筛选的查询，复合索引是最直接有效的优化方案。查询重写可能适用于更复杂的场景，但当前问题核心是索引缺失。
数据库版本或存储引擎（如InnoDB）是否会影响索引选择？
回答要点：InnoDB默认使用B树索引，适合范围查询和等值查询，复合索引在InnoDB中表现良好，无需额外调整。
如果出版社字段有大量重复值（如多个出版社同名），索引有效性如何？
回答要点：索引有效性取决于字段的选择性（唯一值比例），但即使选择性低，复合索引仍能通过前缀匹配或覆盖索引提升性能，尤其当查询条件包含其他高选择性字段时。

7) 【常见坑/雷区】

只说“加索引”而不区分单索引和复合索引，导致面试官质疑对索引选择的深入理解。
忽略字段选择性问题，比如“出版社”字段重复值多，索引效果可能不如预期，但优化方向仍需索引，只是可能需要考虑联合索引的顺序。
未考虑索引维护成本，比如在大规模插入场景下，索引维护可能成为瓶颈，但当前问题核心是查询性能，所以优先解决索引问题。
误认为全表扫描是唯一原因，而未考虑查询语句本身的问题（如WHERE条件写错，导致索引失效），但当前问题明确是“按出版社和出版年份筛选”，所以主要是索引缺失。
未提及索引的创建位置（如聚簇索引 vs 非聚簇索引），但当前表无主键，且book_id是主键，所以非聚簇索引为主，复合索引属于非聚簇索引，不影响主键。