
1) 【一句话结论】采用“热-温-冷-归档”四层存储架构,结合数据生命周期自动触发迁移,通过集中元数据管理平台确保数据可追溯,满足20年留存及合规审计需求。
2) 【原理/概念讲解】老师口吻解释关键概念:
类比:图书馆的图书分类——热门书(热数据)放在借阅区(SSD),借阅次数减少的书(温数据)放在书架(对象存储), rarely借阅的书(冷数据)放在地下室(归档对象存储),过期的书(归档数据)放入档案室(磁带库),元数据是每本书的标签(作者、出版时间、位置),方便查找。
3) 【对比与适用场景】
| 存储层级 | 存储介质 | 访问延迟 | 成本 | 适用数据类型 | 生命周期 |
|---|---|---|---|---|---|
| 热数据 | SSD/内存 | <1ms | 高 | 近期高频访问(如交易日志、实时行情) | 0-1年 |
| 温数据 | NAS/对象存储(如S3标准存储) | 10-100ms | 中 | 历史交易记录、月度报告 | 1-5年 |
| 冷数据 | 对象存储(如S3 Glacier/Archive) | 1-5s | 低 | 历史报告、年度总结 | 5-20年 |
| 归档数据 | 磁带库/云归档(如AWS S3 Glacier Deep Archive) | >5s | 极低 | 长期合规数据(如20年留存) | ≥20年 |
注意点:热数据需高可用,温数据需可扩展,冷数据需长期稳定,归档数据需合规。
4) 【示例】
def write_data(data, metadata):
meta = {
"create_time": datetime.now(),
"access_freq": 0,
"compliance_tag": "证券法20年留存",
"storage_level": "hot"
}
if is_hot_data(data):
store_to_hot(data, meta)
elif is_warm_data(data):
store_to_warm(data, meta)
else:
store_to_cold(data, meta)
update_metadata(meta)
def archive_data(meta):
if meta["storage_level"] == "cold" and is_archive_eligible(meta):
move_to_archive(meta)
meta["storage_level"] = "archive"
meta["archive_time"] = datetime.now()
update_metadata(meta)
POST /api/v1/data/write?level=hotGET /api/v1/metadata?data_id=123455) 【面试口播版答案】
面试官您好,针对《证券法》20年留存要求,我设计了一套“热-温-冷-归档”四层存储架构。首先,热数据用SSD存储,满足高频访问;温数据用对象存储(如S3标准),用于1-5年数据;冷数据用归档存储(如Glacier),5-20年;归档用磁带或云归档,满足20年。同时,通过集中元数据管理平台,记录数据的创建、存储位置、访问频率、合规状态,确保可追溯。数据写入时自动根据访问频率迁移,比如访问次数低于阈值后,从温数据迁移到冷数据,冷数据再迁移到归档。这样既保证性能,又满足长期留存,还能通过元数据快速定位数据,支持合规审计。
6) 【追问清单】
7) 【常见坑/雷区】