RWS数据采集的三大难题与解决思路

一、RWS 数据采集：看似数据丰富，实则困难重重

真实世界研究（Real World Study, RWS）使用的是来自真实临床实践的数据，而非传统随机对照试验（RCT）中严格控制条件下产生的数据。理论上，电子病历（EMR）、医保数据库、患者登记数据库等数据源包含了海量的临床信息，但在实际操作中，将这些数据转化为可用于研究的高质量数据集，面临着多重挑战。

1.1 RWS 数据与 RCT 数据的本质差异

RCT 数据：按预设方案采集、标准化程度高、数据完整性有保障、但样本量有限且人群代表性受限
RWS 数据：来自日常诊疗、数据量大、人群代表性强、但标准化程度低、数据质量参差不齐

这个本质差异决定了 RWS 数据采集不是简单的「收集数据」，而是一个需要系统性规划和质量管控的工程。

二、难题一：数据来源碎片化

2.1 问题描述

一个完整的 RWS 通常需要整合多种数据源：

电子病历（EMR）：诊断、处方、检查检验、手术记录
医保结算数据：费用、报销、药品使用
患者自报数据（PRO）：症状、生活质量、满意度
影像数据：CT、MRI、X光等影像资料
基因组数据：基因检测结果

这些数据分散在不同的系统中，格式不统一、标准不一致，难以直接整合。

2.2 碎片化的具体表现

系统孤岛：医院内部的 HIS、LIS、PACS、EMR 系统之间数据不互通
编码不统一：疾病诊断编码（ICD-10 vs 医院自定义编码）、药品编码（ATC vs 院内编码）差异大
跨院数据断裂：患者在多家医院就诊，各院数据无法关联
时间轴不连续：患者在院内的数据相对完整，院外的随访和用药数据缺失

2.3 解决思路

数据标准化映射：

建立统一的数据字典，将各数据源的编码映射到标准编码体系（如 ICD-10、ATC、LOINC）
开发自动化的编码映射工具，减少人工映射的工作量和错误率

患者唯一标识：

在合规前提下，通过患者身份证号/医保号/手机号等信息建立跨系统的患者唯一标识
利用概率匹配算法处理标识信息不完整的情况

数据平台建设：

建设研究级数据平台（Research Data Platform），将多源数据汇聚、清洗、标准化后统一存储
平台支持数据的版本管理和溯源追踪

三、难题二：数据质量不可控

3.1 问题描述

RWS 数据来自日常诊疗活动，不像 RCT 那样有严格的数据采集规范和质量控制流程。数据质量问题是影响 RWS 研究可靠性的最大障碍。

3.2 常见的数据质量问题

缺失值：关键变量（如吸烟史、体重、合并用药）缺失率高，因为临床医生不是为了研究在记录数据
不准确：诊断编码可能不精确（如用上级编码代替具体诊断），检查结果可能存在录入错误
不一致：同一患者在不同时间点的记录可能存在矛盾（如体重从 70kg 突然变成 170kg）
非结构化：大量有价值的信息隐藏在自由文本中（如病程记录、出院小结），难以直接用于统计分析
选择偏倚：电子化程度高的医院和科室数据更完整，可能导致样本不具代表性

3.3 解决思路

数据质量评估框架：

在研究启动前，对目标数据源进行系统性的数据质量评估
评估维度：完整性（缺失率）、准确性（与金标准对比）、一致性（逻辑校验）、时效性（更新频率）
根据评估结果判断该数据源是否适合用于目标研究

非结构化数据处理：

优先通过标准化的电子数据采集表（eCRF）收集结构化数据，减少对非结构化文本的依赖
对于必须从病历文本中提取的信息，采用「人工提取 + 双人核查」的质控模式
行业趋势方面，NLP（自然语言处理）技术正在逐步成熟，未来有望辅助文本信息的自动化提取，但目前仍需人工验证

缺失数据处理策略：

明确区分「数据确实不存在」和「数据存在但未记录」
对于关键变量缺失率超过阈值的研究中心，考虑补充采集
统计分析时采用合适的缺失数据处理方法（如多重插补），并在报告中透明披露

四、难题三：患者隐私与合规约束

4.1 问题描述

RWS 数据涉及大量的患者个人健康信息，受到越来越严格的数据保护法规约束。

4.2 关键合规要求

《个人信息保护法》：个人健康信息属于敏感个人信息，处理需要取得个人单独同意
《数据安全法》：对医疗健康数据的分类分级管理和安全保护提出要求
《科学数据管理办法》：涉及人类遗传资源的研究数据有特殊管理要求
医院伦理委员会审批：使用患者数据进行研究需要通过伦理审批

4.3 隐私保护与研究需求的矛盾

知情同意：回顾性研究中，逐一联系历史患者获取知情同意不现实
数据脱敏：过度脱敏可能导致数据失去研究价值（如将年龄脱敏为年龄段后无法做精确分析）
数据出院：医院出于数据安全考虑，往往不愿意让原始数据离开院内环境

4.3 解决思路

数据安全保障：

院内分析模式：在医院内部完成数据分析，仅导出汇总统计结果，原始数据不出院
安全数据环境：建立符合等保要求的安全数据分析环境，传输加密（TLS 1.3）+ 存储加密（AES-256）
前沿方向：联邦学习、安全多方计算等隐私计算技术正在行业探索中，未来有望实现「数据不出院、模型到各院」的分布式分析模式

数据脱敏策略：

制定分级脱敏标准：直接标识符（姓名、身份证号）必须删除，准标识符（年龄、地址）进行泛化处理
采用 k-匿名、l-多样性等技术确保脱敏后数据的安全性
脱敏策略需要在隐私保护和数据可用性之间取得平衡

合规流程优化：

建立标准化的伦理审批模板和流程，缩短审批周期
与医院签订数据使用协议，明确各方的权利和义务
建立数据使用的审计追踪机制，确保数据使用符合审批范围

五、从难题到解决方案：RWS 数据采集的最佳实践

5.1 研究设计阶段

在研究方案设计阶段就充分考虑数据可获得性和质量
对拟使用的数据源进行前期可行性评估
制定详细的数据管理计划（DMP），明确数据采集、清洗、存储、使用的全流程规范

5.2 数据采集阶段

优先使用已有的电子化数据源，减少重复采集
对于 EMR 中缺失的关键变量，设计补充采集方案（如 eCRF 补录）
建立数据质量的实时监控机制，及时发现和纠正问题

5.3 数据治理阶段

建立研究级数据仓库，统一管理多源数据
执行标准化的数据清洗和转换流程
保留完整的数据处理日志，确保研究结果可追溯、可复现

RWS 数据采集的三大难题——碎片化、质量不可控、隐私合规——不是无解的，但确实需要系统性的规划和投入。随着数据标准化工具和安全数据管理技术的不断成熟，RWS 数据采集的效率和质量将持续提升。对于药企而言，尽早建立 RWS 数据采集和管理的核心能力，将在新药上市后研究、适应症拓展、医保准入等场景中获得显著的先发优势。