一、RWS 数据采集:看似数据丰富,实则困难重重
真实世界研究(Real World Study, RWS)使用的是来自真实临床实践的数据,而非传统随机对照试验(RCT)中严格控制条件下产生的数据。理论上,电子病历(EMR)、医保数据库、患者登记数据库等数据源包含了海量的临床信息,但在实际操作中,将这些数据转化为可用于研究的高质量数据集,面临着多重挑战。
1.1 RWS 数据与 RCT 数据的本质差异
- RCT 数据:按预设方案采集、标准化程度高、数据完整性有保障、但样本量有限且人群代表性受限
- RWS 数据:来自日常诊疗、数据量大、人群代表性强、但标准化程度低、数据质量参差不齐
这个本质差异决定了 RWS 数据采集不是简单的「收集数据」,而是一个需要系统性规划和质量管控的工程。
二、难题一:数据来源碎片化
2.1 问题描述
一个完整的 RWS 通常需要整合多种数据源:
- 电子病历(EMR):诊断、处方、检查检验、手术记录
- 医保结算数据:费用、报销、药品使用
- 患者自报数据(PRO):症状、生活质量、满意度
- 影像数据:CT、MRI、X光等影像资料
- 基因组数据:基因检测结果
这些数据分散在不同的系统中,格式不统一、标准不一致,难以直接整合。
2.2 碎片化的具体表现
- 系统孤岛:医院内部的 HIS、LIS、PACS、EMR 系统之间数据不互通
- 编码不统一:疾病诊断编码(ICD-10 vs 医院自定义编码)、药品编码(ATC vs 院内编码)差异大
- 跨院数据断裂:患者在多家医院就诊,各院数据无法关联
- 时间轴不连续:患者在院内的数据相对完整,院外的随访和用药数据缺失
2.3 解决思路
数据标准化映射:
- 建立统一的数据字典,将各数据源的编码映射到标准编码体系(如 ICD-10、ATC、LOINC)
- 开发自动化的编码映射工具,减少人工映射的工作量和错误率
患者唯一标识:
- 在合规前提下,通过患者身份证号/医保号/手机号等信息建立跨系统的患者唯一标识
- 利用概率匹配算法处理标识信息不完整的情况
数据平台建设:
- 建设研究级数据平台(Research Data Platform),将多源数据汇聚、清洗、标准化后统一存储
- 平台支持数据的版本管理和溯源追踪
三、难题二:数据质量不可控
3.1 问题描述
RWS 数据来自日常诊疗活动,不像 RCT 那样有严格的数据采集规范和质量控制流程。数据质量问题是影响 RWS 研究可靠性的最大障碍。
3.2 常见的数据质量问题
- 缺失值:关键变量(如吸烟史、体重、合并用药)缺失率高,因为临床医生不是为了研究在记录数据
- 不准确:诊断编码可能不精确(如用上级编码代替具体诊断),检查结果可能存在录入错误
- 不一致:同一患者在不同时间点的记录可能存在矛盾(如体重从 70kg 突然变成 170kg)
- 非结构化:大量有价值的信息隐藏在自由文本中(如病程记录、出院小结),难以直接用于统计分析
- 选择偏倚:电子化程度高的医院和科室数据更完整,可能导致样本不具代表性
3.3 解决思路
数据质量评估框架:
- 在研究启动前,对目标数据源进行系统性的数据质量评估
- 评估维度:完整性(缺失率)、准确性(与金标准对比)、一致性(逻辑校验)、时效性(更新频率)
- 根据评估结果判断该数据源是否适合用于目标研究
非结构化数据处理:
- 优先通过标准化的电子数据采集表(eCRF)收集结构化数据,减少对非结构化文本的依赖
- 对于必须从病历文本中提取的信息,采用「人工提取 + 双人核查」的质控模式
- 行业趋势方面,NLP(自然语言处理)技术正在逐步成熟,未来有望辅助文本信息的自动化提取,但目前仍需人工验证
缺失数据处理策略:
- 明确区分「数据确实不存在」和「数据存在但未记录」
- 对于关键变量缺失率超过阈值的研究中心,考虑补充采集
- 统计分析时采用合适的缺失数据处理方法(如多重插补),并在报告中透明披露
四、难题三:患者隐私与合规约束
4.1 问题描述
RWS 数据涉及大量的患者个人健康信息,受到越来越严格的数据保护法规约束。
4.2 关键合规要求
- 《个人信息保护法》:个人健康信息属于敏感个人信息,处理需要取得个人单独同意
- 《数据安全法》:对医疗健康数据的分类分级管理和安全保护提出要求
- 《科学数据管理办法》:涉及人类遗传资源的研究数据有特殊管理要求
- 医院伦理委员会审批:使用患者数据进行研究需要通过伦理审批
4.3 隐私保护与研究需求的矛盾
- 知情同意:回顾性研究中,逐一联系历史患者获取知情同意不现实
- 数据脱敏:过度脱敏可能导致数据失去研究价值(如将年龄脱敏为年龄段后无法做精确分析)
- 数据出院:医院出于数据安全考虑,往往不愿意让原始数据离开院内环境
4.3 解决思路
数据安全保障:
- 院内分析模式:在医院内部完成数据分析,仅导出汇总统计结果,原始数据不出院
- 安全数据环境:建立符合等保要求的安全数据分析环境,传输加密(TLS 1.3)+ 存储加密(AES-256)
- 前沿方向:联邦学习、安全多方计算等隐私计算技术正在行业探索中,未来有望实现「数据不出院、模型到各院」的分布式分析模式
数据脱敏策略:
- 制定分级脱敏标准:直接标识符(姓名、身份证号)必须删除,准标识符(年龄、地址)进行泛化处理
- 采用 k-匿名、l-多样性等技术确保脱敏后数据的安全性
- 脱敏策略需要在隐私保护和数据可用性之间取得平衡
合规流程优化:
- 建立标准化的伦理审批模板和流程,缩短审批周期
- 与医院签订数据使用协议,明确各方的权利和义务
- 建立数据使用的审计追踪机制,确保数据使用符合审批范围
五、从难题到解决方案:RWS 数据采集的最佳实践
5.1 研究设计阶段
- 在研究方案设计阶段就充分考虑数据可获得性和质量
- 对拟使用的数据源进行前期可行性评估
- 制定详细的数据管理计划(DMP),明确数据采集、清洗、存储、使用的全流程规范
5.2 数据采集阶段
- 优先使用已有的电子化数据源,减少重复采集
- 对于 EMR 中缺失的关键变量,设计补充采集方案(如 eCRF 补录)
- 建立数据质量的实时监控机制,及时发现和纠正问题
5.3 数据治理阶段
- 建立研究级数据仓库,统一管理多源数据
- 执行标准化的数据清洗和转换流程
- 保留完整的数据处理日志,确保研究结果可追溯、可复现
RWS 数据采集的三大难题——碎片化、质量不可控、隐私合规——不是无解的,但确实需要系统性的规划和投入。随着数据标准化工具和安全数据管理技术的不断成熟,RWS 数据采集的效率和质量将持续提升。对于药企而言,尽早建立 RWS 数据采集和管理的核心能力,将在新药上市后研究、适应症拓展、医保准入等场景中获得显著的先发优势。