药品追溯系统需要集成生产、流通、终端等多个环节的数据。请设计一个多源数据集成的方案，包括数据源、数据格式转换、数据同步机制。

岭南药业未指定具体岗位难度：中等

答案

1) 【一句话结论】药品追溯系统多源数据集成需以统一数据模型为核心，通过多源数据采集、格式标准化转换、实时/准实时同步机制，实现生产、流通、终端各环节数据的无缝对接与全程追溯。

2) 【原理/概念讲解】老师口吻解释关键概念：
数据源：涵盖生产环节（如MES系统）、流通环节（如物流WMS系统）、终端（如药店POS系统），各系统数据格式多样（如JSON、XML、数据库表结构）。
数据格式转换：将异构数据映射为统一结构（如JSON转关系型数据库表，字段如批次ID、生产日期、批量的结构化字段）。
数据同步机制：采用CDC（变更数据捕获，如数据库binlog）或消息队列（如Kafka）实现实时同步，或定时ETL（如每日批量同步）。
类比：数据源像不同国家的语言（各系统数据格式），转换像翻译成普通话（统一数据模型），同步机制像快递员实时更新包裹位置（实时同步数据变化）。

3) 【对比与适用场景】

方式	定义	特性	使用场景	注意点
CDC（变更数据捕获）	从数据库日志中捕获数据变更（如binlog）	实时性高，低延迟，无需额外消息队列	生产环节的数据库变更（如生产批次记录更新）、需要实时同步的环节	需要数据库支持binlog，数据量大的话可能影响性能
消息队列（如Kafka）	分布式消息系统，解耦数据生产者与消费者	高吞吐、低延迟、可持久化	流通环节的物流信息（如运输车辆位置、入库记录）、终端的实时销售数据	需要维护消息队列集群，消息丢失风险（需配置重试、持久化）
定时ETL（批量同步）	定期（如每日、每小时）从源系统抽取数据，转换后加载目标系统	成本低，适合数据量不大或非实时需求	终端的月度销售报表、流通环节的月度库存汇总	同步延迟，无法实时反映数据变化

4) 【示例】
伪代码示例（生产环节数据采集、转换、推送到Kafka）：

# 生产环节数据采集（MES系统REST API）
def fetch_production_data():
    response = requests.get("http://mes.lanying.com/api/batch?batch_id=20240101")
    if response.status_code == 200:
        return response.json()
    else:
        raise Exception("生产数据获取失败")

# 数据格式转换（JSON转结构化）
def convert_to_structured(data):
    structured_data = {
        "batch_id": data["batch_id"],
        "production_date": data["production_date"],
        "batch_size": data["batch_size"],
        "quality_status": data["quality_status"]
    }
    return structured_data

# 数据同步（推送到Kafka主题）
def sync_to_kafka(data):
    producer = KafkaProducer(
        bootstrap_servers="kafka:9092",
        value_serializer=lambda v: json.dumps(v).encode('utf-8')
    )
    producer.send("production_batch_topic", data)
    producer.flush()

# 主流程
try:
    raw_data = fetch_production_data()
    structured = convert_to_structured(raw_data)
    sync_to_kafka(structured)
except Exception as e:
    log.error(f"生产数据同步失败: {e}")

5) 【面试口播版答案】
面试官您好，针对药品追溯系统多源数据集成，我的方案核心是构建以统一数据模型为底座，通过多源数据采集、格式标准化转换、实时同步机制，确保生产、流通、终端数据无缝对接。具体来说，数据源包括生产MES系统、流通WMS系统、终端POS系统，这些系统数据格式各异（如JSON、数据库表），我会先通过数据转换层，将异构数据映射为统一结构（比如生产批次数据转换为包含批次ID、生产日期、批量的结构化字段）。然后，针对不同环节的实时性需求，采用不同的同步机制：生产环节的数据库变更（如批次记录更新）通过CDC捕获实时同步；流通环节的物流信息（如入库、出库）通过消息队列（如Kafka）实现低延迟同步；终端的销售数据则结合定时ETL（如每小时同步）和消息队列，确保数据及时更新。这样，整个系统可以实时或准实时地整合各环节数据，支持从生产到终端的全程追溯查询。

6) 【追问清单】

问题1：如何处理不同数据源的数据格式不一致或缺失字段？
回答要点：通过预定义的映射规则和字段补全逻辑（如默认值、空值处理），确保数据转换的完整性。
问题2：数据同步过程中可能出现延迟或数据丢失，如何保证数据一致性？
回答要点：采用消息队列的持久化存储+重试机制，结合CDC的日志校验，确保数据最终一致性。
问题3：药品追溯系统对数据实时性要求较高，如何平衡实时性与系统性能？
回答要点：根据数据重要性划分同步策略（如关键生产数据实时同步，非关键数据定时同步），并优化数据转换和同步的并行处理。
问题4：数据安全方面，如何保障各环节数据传输和存储的安全性？
回答要点：采用加密传输（如HTTPS、TLS），存储加密（如数据库字段加密），以及访问控制（如RBAC权限管理）。
问题5：如果某个数据源系统临时不可用，如何保证数据集成的连续性？
回答要点：设置数据缓冲队列，当源系统不可用时，将数据暂存，待恢复后补发，同时通过监控告警及时通知。

7) 【常见坑/雷区】

坑1：忽略数据模型不一致，直接集成导致数据错乱（如生产批次ID与流通批次ID定义不同，未做映射处理）。
坑2：未考虑实时性需求，采用纯定时同步，导致追溯查询时数据滞后（如终端销售数据每小时同步，无法实时反映最新销售情况）。
坑3：数据同步机制选择不当，比如对于高并发生产数据，使用定时ETL导致数据延迟，而CDC或消息队列能更好处理。
坑4：未做数据校验，导致错误数据进入追溯系统，影响查询准确性（如生产数据中的批次数量为负数，未校验直接写入）。
坑5：未考虑数据量增长，系统扩展性不足（如随着药品批次增加，数据量激增，现有同步机制无法处理，导致性能下降）。