在360的云安全服务中，如何设计存储系统来存储海量日志数据？考虑日志的实时性、安全性（加密）、压缩和索引需求。

360大数据开发工程师-分布式存储难度：中等

答案

1) 【一句话结论】
采用“Kafka+HDFS+冷热分离+Elasticsearch”的分层分布式架构，结合实时消息队列、海量存储、冷热分离策略及搜索索引，通过传输加密（TLS）和存储加密（AES）保障安全，用Snappy压缩减少存储空间，满足日志的实时性、安全性、压缩与索引需求。

2) 【原理/概念讲解】
要存储海量日志，需拆解为“收集-存储-索引”三步，各组件作用如下：

Kafka：作为实时日志收集的缓冲层，类似“快递中转站”，支持高吞吐、低延迟的日志写入，保证日志的实时性（日志写入后秒级可达）。
HDFS：作为原始日志的存储层，利用其分布式文件系统特性，实现海量数据的高容错、高并发访问，适合存储冷数据（如历史日志）。
冷热分离：近期高频访问的日志（热数据）存HDFS，旧或低频访问的日志（冷数据）转存对象存储（如MinIO），降低存储成本。
Elasticsearch：作为日志查询的索引层，通过倒排索引实现全文检索和实时查询，支持复杂查询（如按时间、级别、关键字过滤）。
加密与压缩：传输时用TLS加密（防止中间人攻击），存储时用AES-256加密（保护数据安全），压缩用Snappy（减少存储空间约30%-50%，同时保持低压缩比下的高解压速度）。

3) 【对比与适用场景】

方案	定义	特性	使用场景	注意点
Kafka	分布式消息队列	实时、高吞吐、持久化（默认7天）	日志收集、事件流	需消费端拉取，存储时间有限
HDFS	分布式文件系统	海量存储、高容错、高并发	原始日志存储（冷数据）	读取慢，适合批量处理
Elasticsearch	分布式搜索引擎	实时索引、全文检索	日志查询、分析	索引占用空间大，需定期清理
对象存储（如MinIO）	分布式对象存储	弹性扩展、低成本	冷数据归档	读取慢，适合低频访问

4) 【示例】
伪代码展示日志从Kafka写入HDFS并索引到Elasticsearch的过程：

# 1. Kafka生产者发送日志
producer = KafkaProducer(bootstrap_servers='kafka:9092', 
                         value_serializer=lambda v: json.dumps(v).encode('utf-8'))
producer.send('log-topic', {'timestamp': time.time(), 'level': 'INFO', 'message': '操作成功'})
producer.flush()

# 2. HDFS写入原始日志（冷数据）
hdfs = HadoopFileSystem('hdfs://namenode:9000')
with hdfs.open('/logs/raw/2023-10-27.log', 'w') as f:
    f.write(json.dumps(log_entry).encode('utf-8'))

# 3. Elasticsearch索引查询日志
es = Elasticsearch(['elasticsearch:9200'])
es.index(index='log-index', body=log_entry)

5) 【面试口播版答案】
在360云安全服务中，存储海量日志需构建分层分布式系统：首先用Kafka作为实时日志收集的缓冲层，保证日志秒级写入；原始日志存入HDFS，利用其海量存储和高容错能力，配合冷热分离（近期日志存HDFS，旧日志转存对象存储），降低成本；查询需求通过Elasticsearch构建索引，支持全文检索；安全性方面，传输用TLS加密，存储用AES-256加密，压缩用Snappy减少空间；这样既满足实时性、安全性、压缩和索引需求，又能高效管理海量日志。

6) 【追问清单】

如何处理日志的冷热分离？
- 回答要点：根据日志访问频率，近期高频访问的日志（热数据）存HDFS，旧或低频访问的日志（冷数据）转存对象存储，定期清理旧日志。
如果日志量激增，Kafka如何保证不丢失？
- 回答要点：配置rebalance机制、调整分区数、增加副本数，确保高可用，同时设置日志保留时间。
Elasticsearch的索引如何维护？
- 回答要点：定期滚动索引（如按天或按月），删除旧索引，避免空间爆炸，同时支持分片和副本扩展。
加密对性能的影响？
- 回答要点：传输加密（TLS）影响网络延迟，存储加密（AES）影响I/O性能，可通过硬件加速（如Intel SGX）优化。
如何保证日志的完整性？
- 回答要点：使用HDFS的校验和、Kafka的消息确认机制，结合时间戳和哈希校验，确保日志不丢失或篡改。

7) 【常见坑/雷区】

只用单一存储（如仅用HDFS），忽略实时性和索引需求，导致查询慢。
忽略冷热分离，所有日志存HDFS，导致存储成本过高。
加密方式选择不当，如传输用明文，导致安全风险。
索引策略不合理，不定期清理旧索引，导致Elasticsearch占用过多资源。
忽略日志的压缩策略，导致存储空间浪费，影响查询性能。