
1) 【一句话结论】
采用分层架构(数据采集、存储、服务、治理),结合医疗合规要求(HIPAA/GDPR),通过适配器、数据湖/仓库、API网关等组件,实现多源异构医疗数据的统一采集、存储、服务与治理,支撑医疗数据分析与决策,同时保障数据安全与隐私。
2) 【原理/概念讲解】
老师口吻解释各层设计:
3) 【对比与适用场景】
| 特性 | 数据湖(如HDFS/S3) | 数据仓库(如星型模型,OLAP) |
|---|---|---|
| 定义 | 存储原始、半结构化、非结构化数据,支持多格式 | 存储结构化数据,经过ETL加工,支持分析 |
| 存储方式 | 分布式文件系统/对象存储,按对象存储 | 关系型数据库或列式存储 |
| 存储成本 | 较低(对象存储按需付费) | 较高(数据库存储成本) |
| 查询效率 | 低(需预计算或实时处理) | 高(预计算聚合,支持OLAP查询) |
| 适用场景 | 原始数据存储、机器学习、大数据分析 | 交互式查询、业务分析、报表 |
| 注意点 | 需要数据治理,避免数据冗余 | 数据更新慢,适合稳定业务数据 |
数据治理具体实现:数据血缘(追踪数据从源头到加工的路径,如“患者信息表”来自HIS系统,经ETL处理后进入数据仓库);数据质量指标体系(如“患者ID缺失率≤0.1%”,“诊断编码准确性≥99%”)。
4) 【示例】
医疗数据采集与存储示例:
// 采集医院A的CT影像数据
POST /api/v1/ingest/dicom
Content-Type: application/json
{
"source": "hospital-a-dicom",
"data": [
{
"patient_id": "P002",
"study_id": "S001",
"modality": "CT",
"filename": "P002_S001_CT.dcm",
"metadata": {
"age": 45,
"gender": "女",
"diagnosis": "肺癌"
}
}
]
}
/data/dicom/hospital-a/patient/P002/study/S001GET /api/v1/data/dicom/patient/P002
返回结构化元数据(包含患者信息、影像元数据),用于后续分析。5) 【面试口播版答案】(约90秒)
“面试官您好,我设计的分布式医疗数据中台架构分为四层:数据采集层、存储层、服务层和治理层。首先,数据采集层采用适配器模式,支持HIS、LIS、医学影像系统等异构系统接入,处理结构化、半结构化、非结构化数据(如DICOM影像);存储层采用HDFS+云对象存储构建数据湖,存储全量原始数据,同时通过Spark加工为数据仓库,支持分析;服务层基于微服务,通过API网关提供实时/离线数据服务;治理层包含元数据管理、数据质量监控(如患者ID唯一性校验)和数据安全(如传输加密TLS、存储加密AES、访问控制RBAC),确保符合HIPAA/GDPR合规要求。关键技术包括分布式存储、微服务架构、数据治理框架,整体架构支持多源异构医疗数据的统一管理,满足医疗数据分析与决策需求。”
6) 【追问清单】
7) 【常见坑/雷区】