RWS数据采集的三大难题与解决思路

真实世界研究不缺数据,缺的是「能用的数据」

一、RWS 数据采集:看似数据丰富,实则困难重重

真实世界研究(Real World Study, RWS)使用的是来自真实临床实践的数据,而非传统随机对照试验(RCT)中严格控制条件下产生的数据。理论上,电子病历(EMR)、医保数据库、患者登记数据库等数据源包含了海量的临床信息,但在实际操作中,将这些数据转化为可用于研究的高质量数据集,面临着多重挑战。

1.1 RWS 数据与 RCT 数据的本质差异

  • RCT 数据:按预设方案采集、标准化程度高、数据完整性有保障、但样本量有限且人群代表性受限
  • RWS 数据:来自日常诊疗、数据量大、人群代表性强、但标准化程度低、数据质量参差不齐

这个本质差异决定了 RWS 数据采集不是简单的「收集数据」,而是一个需要系统性规划和质量管控的工程。

二、难题一:数据来源碎片化

2.1 问题描述

一个完整的 RWS 通常需要整合多种数据源:

  • 电子病历(EMR):诊断、处方、检查检验、手术记录
  • 医保结算数据:费用、报销、药品使用
  • 患者自报数据(PRO):症状、生活质量、满意度
  • 影像数据:CT、MRI、X光等影像资料
  • 基因组数据:基因检测结果

这些数据分散在不同的系统中,格式不统一、标准不一致,难以直接整合。

2.2 碎片化的具体表现

  • 系统孤岛:医院内部的 HIS、LIS、PACS、EMR 系统之间数据不互通
  • 编码不统一:疾病诊断编码(ICD-10 vs 医院自定义编码)、药品编码(ATC vs 院内编码)差异大
  • 跨院数据断裂:患者在多家医院就诊,各院数据无法关联
  • 时间轴不连续:患者在院内的数据相对完整,院外的随访和用药数据缺失

2.3 解决思路

数据标准化映射:

  • 建立统一的数据字典,将各数据源的编码映射到标准编码体系(如 ICD-10、ATC、LOINC)
  • 开发自动化的编码映射工具,减少人工映射的工作量和错误率

患者唯一标识:

  • 在合规前提下,通过患者身份证号/医保号/手机号等信息建立跨系统的患者唯一标识
  • 利用概率匹配算法处理标识信息不完整的情况

数据平台建设:

  • 建设研究级数据平台(Research Data Platform),将多源数据汇聚、清洗、标准化后统一存储
  • 平台支持数据的版本管理和溯源追踪

三、难题二:数据质量不可控

3.1 问题描述

RWS 数据来自日常诊疗活动,不像 RCT 那样有严格的数据采集规范和质量控制流程。数据质量问题是影响 RWS 研究可靠性的最大障碍。

3.2 常见的数据质量问题

  • 缺失值:关键变量(如吸烟史、体重、合并用药)缺失率高,因为临床医生不是为了研究在记录数据
  • 不准确:诊断编码可能不精确(如用上级编码代替具体诊断),检查结果可能存在录入错误
  • 不一致:同一患者在不同时间点的记录可能存在矛盾(如体重从 70kg 突然变成 170kg)
  • 非结构化:大量有价值的信息隐藏在自由文本中(如病程记录、出院小结),难以直接用于统计分析
  • 选择偏倚:电子化程度高的医院和科室数据更完整,可能导致样本不具代表性

3.3 解决思路

数据质量评估框架:

  • 在研究启动前,对目标数据源进行系统性的数据质量评估
  • 评估维度:完整性(缺失率)、准确性(与金标准对比)、一致性(逻辑校验)、时效性(更新频率)
  • 根据评估结果判断该数据源是否适合用于目标研究

非结构化数据处理:

  • 优先通过标准化的电子数据采集表(eCRF)收集结构化数据,减少对非结构化文本的依赖
  • 对于必须从病历文本中提取的信息,采用「人工提取 + 双人核查」的质控模式
  • 行业趋势方面,NLP(自然语言处理)技术正在逐步成熟,未来有望辅助文本信息的自动化提取,但目前仍需人工验证

缺失数据处理策略:

  • 明确区分「数据确实不存在」和「数据存在但未记录」
  • 对于关键变量缺失率超过阈值的研究中心,考虑补充采集
  • 统计分析时采用合适的缺失数据处理方法(如多重插补),并在报告中透明披露

四、难题三:患者隐私与合规约束

4.1 问题描述

RWS 数据涉及大量的患者个人健康信息,受到越来越严格的数据保护法规约束。

4.2 关键合规要求

  • 《个人信息保护法》:个人健康信息属于敏感个人信息,处理需要取得个人单独同意
  • 《数据安全法》:对医疗健康数据的分类分级管理和安全保护提出要求
  • 《科学数据管理办法》:涉及人类遗传资源的研究数据有特殊管理要求
  • 医院伦理委员会审批:使用患者数据进行研究需要通过伦理审批

4.3 隐私保护与研究需求的矛盾

  • 知情同意:回顾性研究中,逐一联系历史患者获取知情同意不现实
  • 数据脱敏:过度脱敏可能导致数据失去研究价值(如将年龄脱敏为年龄段后无法做精确分析)
  • 数据出院:医院出于数据安全考虑,往往不愿意让原始数据离开院内环境

4.3 解决思路

数据安全保障:

  • 院内分析模式:在医院内部完成数据分析,仅导出汇总统计结果,原始数据不出院
  • 安全数据环境:建立符合等保要求的安全数据分析环境,传输加密(TLS 1.3)+ 存储加密(AES-256)
  • 前沿方向:联邦学习、安全多方计算等隐私计算技术正在行业探索中,未来有望实现「数据不出院、模型到各院」的分布式分析模式

数据脱敏策略:

  • 制定分级脱敏标准:直接标识符(姓名、身份证号)必须删除,准标识符(年龄、地址)进行泛化处理
  • 采用 k-匿名、l-多样性等技术确保脱敏后数据的安全性
  • 脱敏策略需要在隐私保护和数据可用性之间取得平衡

合规流程优化:

  • 建立标准化的伦理审批模板和流程,缩短审批周期
  • 与医院签订数据使用协议,明确各方的权利和义务
  • 建立数据使用的审计追踪机制,确保数据使用符合审批范围

五、从难题到解决方案:RWS 数据采集的最佳实践

5.1 研究设计阶段

  • 在研究方案设计阶段就充分考虑数据可获得性和质量
  • 对拟使用的数据源进行前期可行性评估
  • 制定详细的数据管理计划(DMP),明确数据采集、清洗、存储、使用的全流程规范

5.2 数据采集阶段

  • 优先使用已有的电子化数据源,减少重复采集
  • 对于 EMR 中缺失的关键变量,设计补充采集方案(如 eCRF 补录)
  • 建立数据质量的实时监控机制,及时发现和纠正问题

5.3 数据治理阶段

  • 建立研究级数据仓库,统一管理多源数据
  • 执行标准化的数据清洗和转换流程
  • 保留完整的数据处理日志,确保研究结果可追溯、可复现

RWS 数据采集的三大难题——碎片化、质量不可控、隐私合规——不是无解的,但确实需要系统性的规划和投入。随着数据标准化工具和安全数据管理技术的不断成熟,RWS 数据采集的效率和质量将持续提升。对于药企而言,尽早建立 RWS 数据采集和管理的核心能力,将在新药上市后研究、适应症拓展、医保准入等场景中获得显著的先发优势。

让药企营销合规变得简单

药智云为您提供一站式医药数字化解决方案

免费获取方案