为什么流向数据映射这么难

药品流向数据的核心挑战在于"同一件事,每个人的说法都不一样"。同一个药品,在不同商业公司的系统中可能有完全不同的名称和编码:

将这些不同表述准确映射到药企统一的产品编码,就是流向数据映射要解决的核心问题。在全国数千家商业公司、数万种产品的规模下,这是一个极具挑战性的技术问题。

第一代:规则引擎 + 字典匹配(2022-2023)

技术方案

第一代映射引擎采用经典的规则匹配方案:

效果与局限

第一代引擎的映射准确率约为70%。其中编码精确匹配贡献了约50%的准确映射,别名字典贡献约15%,规则转换贡献约5%。

主要局限:

第二代:机器学习 + NLP相似度(2023-2024)

技术方案

第二代引擎在规则匹配的基础上引入了机器学习和NLP技术:

效果与局限

第二代引擎将映射准确率提升至85-90%区间,相比第一代提升了15-20个百分点。

主要局限:

第三代:深度学习 + 知识图谱 + 主动学习(2024-至今)

技术方案

第三代引擎进行了架构级的升级:

核心技术突破

突破一:语义级理解

通过在大量医药文本(药品说明书、处方数据、商业公司系统数据等)上进行预训练,模型具备了药品命名的语义理解能力。它能够理解"西比灵"是"盐酸氟桂利嗪"的商品名,"阿莫西林"和"Amoxicillin"是同一种药物。

突破二:知识图谱增强

药品知识图谱将药品的多维度信息关联起来,当文本匹配不确定时,可以通过图谱关系进行推理。例如:某条数据中只有商品名和规格,没有通用名,系统可以通过知识图谱推导出通用名,再进行精确匹配。

突破三:主动学习闭环

模型不是一成不变的。每当人工确认一个低置信度的匹配结果后,这条数据就会进入训练集,帮助模型提升未来处理类似情况的准确率。这个"越用越准"的正反馈机制,是第三代引擎能持续保持95%+准确率的关键。

三代引擎效果对比

指标第一代(规则)第二代(ML+NLP)第三代(DL+KG)
映射准确率约70%85-90%95%以上
新品种适应速度需人工添加别名需收集标注数据重训增量学习,快速适应
人工干预比例约30%约10-15%低于5%
处理速度中等快(推理优化后)
语义理解能力基础

实际业务价值

映射准确率从70%提升到95%+看似只是一个数字变化,但对药企的业务影响是深远的:

下一步:向98%+迈进

技术团队目前正在推进第三代引擎的持续优化,目标是将准确率进一步提升至98%以上。主要方向包括:

流向数据映射的技术演进还在继续。我们相信,通过AI技术的持续投入,药品流向数据处理将从行业痛点变为行业能力基建。