360安全卫士的日志系统需要存储海量安全日志（如每秒百万条），请设计数据库表结构，并说明如何优化查询性能（如索引设计、分库分表策略）。

360服务端开发工程师-Golang难度：中等

答案

1) 【一句话结论】：采用分库分表（按日志类型分库、按时间按天分表）+ 复合索引+ 覆盖索引，以时间维度为分片键，优化海量日志的存储与查询性能。

2) 【原理/概念讲解】：日志系统属于时序数据，数据量极大（每秒百万条），查询场景多为按时间范围、日志类型过滤。

分库分表：解决海量数据存储的核心手段。
- 分库（垂直拆分）：按业务模块拆分数据库实例（如病毒扫描日志库、漏洞检测日志库），减少单库压力；
- 分表（水平拆分）：按时间/范围拆分同一库的表（如按天分表，表名格式：log_safe_YYYYMMDD），匹配日志按天查询的常见场景。
索引设计：
- 主键：自增ID（分表内有序，插入快）；
- 复合索引：按查询频率最高的列组合（如timestamp+log_type），提升按时间+类型过滤的效率；
- 覆盖索引：索引包含查询所需所有列（如timestamp, log_type），减少回表开销。

类比：日志像流水线产品，按时间（天）分表像按批次存储，按类型分库像按产品线（病毒扫描、漏洞检测）分开仓库，这样每个仓库（库）和批次（表）的数据量可控，查询时能快速定位。

3) 【对比与适用场景】：

对比项	分库（垂直拆分）	分表（水平拆分）
定义	按业务模块拆分数据库实例	按时间/范围拆分同一库的表
特性	单库数据量小，跨库查询复杂	单库数据量仍大，表内数据有序
使用场景	业务模块独立，数据量大的场景（如不同业务日志）	时序数据，按时间范围查询频繁的场景（如日志按天查询）
注意点	需分布式事务支持（如两阶段提交），跨库操作慢	需分片键，查询时需指定表名（或通过路由）

索引类型	主键自增索引	复合索引（如`timestamp+log_type`）	覆盖索引
定义	主键为自增整数	多列组合索引	索引包含查询所需所有列
特性	B+树有序，插入快，查询慢（需回表）	查询时按索引列过滤，减少回表	查询直接从索引获取，无需回表
使用场景	主键唯一，数据插入频繁的场景	查询条件包含多个列（如按时间+类型过滤）	查询列都在索引中（如`select timestamp, log_type from ... where timestamp=...`）
注意点	分表后自增ID跨表不连续	索引列顺序影响效率（按查询频率排序，最左前缀原则）	索引列过多影响插入性能

4) 【示例】：

表结构设计（Golang伪代码）：

-- 分库：按日志类型分库（库1：病毒扫描日志库，库2：漏洞检测日志库）
-- 分表：按时间按天分表（表名：log_safe_20240101, log_safe_20240102...）
CREATE TABLE log_safe (
    id BIGINT PRIMARY KEY AUTO_INCREMENT,  -- 主键，分表内有序
    timestamp BIGINT NOT NULL,            -- 时间戳（分片键，按天分表）
    log_type VARCHAR(50) NOT NULL,        -- 日志类型（分库键，按类型分库）
    log_content TEXT,                     -- 日志内容（可能压缩）
    source VARCHAR(100) NOT NULL,         -- 来源设备ID
    INDEX idx_timestamp_log_type (timestamp, log_type)  -- 复合索引
);

分库分表策略：
- 日志类型分库：病毒扫描（log_type='virus_scan'）存库1，漏洞检测（log_type='vuln_scan'）存库2；
- 时间分表：2024年1月1日日志存表log_safe_20240101，1月2日存log_safe_20240102。
查询优化示例（查询2024年1月1日-1月2日病毒扫描日志）：
```
SELECT * FROM log_safe_20240101, log_safe_20240102 
WHERE timestamp BETWEEN 1700000000000 AND 1700100000000 
AND log_type='virus_scan';
```
（实际分库后，通过路由分别从库1、库2查询对应表，再合并结果）

5) 【面试口播版答案】：（约80秒）
“面试官您好，针对海量安全日志存储与查询优化，我的核心思路是采用分库分表结合时间分片，配合高效索引设计。首先，日志属于时序数据，数据量极大（每秒百万条），查询场景多为按时间范围、日志类型过滤。分库方面，按业务模块分库（如病毒扫描、漏洞检测分别存不同库），分表方面按时间按天分表（表名如log_safe_20240101），因为日志查询常按天统计，这样单表数据量可控。索引设计上，主键用自增ID（分表内有序），同时建复合索引（timestamp+log_type），因为查询时常用时间+类型过滤；还建覆盖索引（包含查询所需列），减少回表。这样，存储时按时间分表、按类型分库，查询时通过路由到对应库和表，再利用索引快速过滤，有效提升性能。总结来说，通过分库分表控制数据量，通过索引优化查询效率，能支撑海量日志的存储与高效查询。”

6) 【追问清单】：

问：分片键（时间或类型）选择依据？
答：时间维度是日志的天然分片键，按天分表匹配常见按天查询需求（如日统计），且时间有序，索引效率高；类型分库是为了隔离不同业务日志，避免跨业务查询干扰。
问：如何处理热点表（如某个时间点的日志量极大）？
答：可采用时间分片结合负载均衡（如按小时分表），或冷热数据分离（近期数据存内存/SSD，历史数据存HDD），或调整分片键（按时间+随机数分表，避免热点集中）。
问：跨库查询（如同时查询病毒扫描和漏洞检测日志）如何优化？
答：通过分布式事务（如两阶段提交）保证一致性，或定时同步到中间表，或查询时分别从各库取数据再合并（适用于非实时场景）。
问：索引维护成本（如插入大量数据时索引更新开销）如何控制？
答：选择合适的分片键（如时间分片，插入时按时间路由，减少单表插入压力），使用覆盖索引（查询列在索引中，减少回表），定期优化索引。
问：数据一致性（如日志写入后立即查询）如何保障？
答：采用分布式事务（如两阶段提交），或最终一致性（写入后异步同步到查询库），或缓存（如Redis缓存最新日志）。

7) 【常见坑/雷区】：

分片键选错：如用随机字段（UUID）作为分片键，导致数据分布不均，热点表，影响查询性能。
索引覆盖不足：查询时需回表（索引不包含查询列），导致性能下降，应确保索引包含所有查询列（覆盖索引）。
分表策略不合理：按小时分表但查询按天，导致表过多（一年8760表），管理复杂；或按天分表但查询按月，导致单表数据量过大，索引效率低。
主键设计问题：自增ID分表后，跨表主键不连续，可能影响关联查询（如按ID关联其他表），应考虑用时间+随机数作为主键。
数据一致性：分库分表后，分布式事务处理复杂，若业务允许，可采用最终一致性（如写入后异步同步），避免复杂事务影响性能。