在化学药研发中，实验数据管理是一个重要环节。请设计一个数据库模型，用于存储从分子设计到临床前研究的全流程数据，并说明如何保证数据一致性。

岭南药业未指定具体岗位难度：中等

答案

1) 【一句话结论】：采用分层关系型数据库模型（分子设计层、实验记录层、临床前研究层），通过主键外键关联、数据库事务、数据校验规则及版本控制机制，确保从分子设计到临床前研究的全流程数据一致性与可追溯性。

2) 【原理/概念讲解】：化学药研发全流程数据兼具强结构化（如分子结构、实验参数）与弱结构化（如实验笔记、报告）特征。关系型数据库（如PostgreSQL）适合存储结构化数据，通过ACID事务保证数据完整性。数据一致性需通过：①主键外键约束（如分子ID关联实验记录，确保关联性）；②数据库触发器（如插入实验数据时自动更新关联分子版本）；③数据校验规则（如实验条件参数范围检查）；④版本控制（如类似Git的数据库版本表，记录每次数据变更的元数据）。类比：就像图书馆的图书分类，分子是“书”，实验记录是“借阅记录”，通过书号（分子ID）关联，每次借阅（实验）都会更新书的借阅状态（实验状态），保证数据关联一致。

3) 【对比与适用场景】：

数据库类型	定义	特性	使用场景	注意点
关系型数据库（RDBMS）	结构化数据存储系统	强一致性、ACID事务	分子结构、实验参数等结构化数据	适合复杂关联，但灵活度低
NoSQL（如MongoDB）	非关系型数据库	弱一致性、灵活存储	实验报告、图片等非结构化数据	适合非结构化数据，但一致性弱

4) 【示例】：

分子设计表（Molecule）：molecule_id（主键）、structure（SMILES字符串）、design_date、designer_id。
实验记录表（Experiment）：experiment_id（主键）、molecule_id（外键，关联Molecule）、experiment_type（如合成、活性测试）、params（JSONB存储参数，如温度、浓度）、result（数值/文本）、date、operator_id。
临床前研究表（Preclinical）：study_id（主键）、experiment_id（外键，关联Experiment）、stage（如药代动力学）、animal_model、data_link（外键关联文档存储）。

数据校验触发器（PostgreSQL示例）：

CREATE OR REPLACE FUNCTION check_exp_params()
RETURNS TRIGGER AS $$
BEGIN
  IF NEW.temperature < 0 OR NEW.temperature > 100 THEN
    RAISE EXCEPTION '温度超出合理范围(0-100°C)';
  END IF;
  RETURN NEW;
END;
$$ LANGUAGE plpgsql;
CREATE TRIGGER check_exp_params
BEFORE INSERT OR UPDATE ON Experiment
FOR EACH ROW
EXECUTE FUNCTION check_exp_params();

5) 【面试口播版答案】：面试官您好，针对化学药研发全流程数据管理，我设计了一个分层关系型数据库模型。核心思路是按研发阶段划分表，通过主键外键关联保证数据一致性。比如分子设计表存储分子结构，实验记录表关联分子ID和实验参数，临床前研究表关联实验结果。数据一致性通过数据库事务（ACID）、数据校验触发器（如温度参数范围检查）和版本控制（记录每次变更的元数据）来保证。具体来说，插入实验数据时，触发器会验证参数合理性，事务确保数据原子性，版本表记录变更历史，方便追溯。这样能确保从分子设计到临床前研究的全流程数据关联一致、可追溯。

6) 【追问清单】：

问题1：如何追踪数据血缘？回答要点：通过外键关联（如实验记录表的外键指向分子设计表），结合元数据表记录每次数据变更的来源（如设计人员、实验设备），实现数据血缘的可视化。
问题2：数据版本冲突如何处理？回答要点：采用数据库版本表（类似Git的commit表），记录每次变更的版本号、变更人、时间，当冲突时通过版本号排序或人工审核解决。
问题3：非结构化数据（如实验报告）如何管理？回答要点：将非结构化数据存储在对象存储（如S3），实验记录表中的报告链接字段关联对象存储的URL，结合元数据表记录文件类型、大小等。
问题4：数据安全如何保障？回答要点：对敏感数据（如分子结构、实验结果）进行加密存储，数据库访问控制（如RBAC），定期审计日志。

7) 【常见坑/雷区】：

坑1：忽略非结构化数据，仅设计结构化表，导致实验报告等数据无法关联。雷区：未考虑文档、图片等非结构化数据，导致数据不完整。
坑2：仅依赖数据库事务，未考虑业务逻辑校验，导致无效数据进入系统。雷区：实验参数超出合理范围仍能插入，影响数据质量。
坑3：未设计数据血缘，无法追溯数据来源。雷区：实验结果与分子设计无关联，导致数据不可追溯，影响研发决策。
坑4：版本控制不完善，数据变更无记录。雷区：无法回滚错误数据，或无法追溯历史版本。
坑5：未考虑分库分表，导致数据量过大影响性能。雷区：全表存储所有阶段数据，查询效率低，影响研发效率。