
本指导原则旨在指导注册申请人对肿瘤辅助诊断相关基因检测试剂注册申报资料中阳性判断值研究资料的准备及撰写,同时也为技术审评部门审评注册申报资料提供参考。
本指导原则是对肿瘤辅助诊断相关基因检测试剂阳性判断值研究的一般要求,申请人应依据产品的具体特性确定其中内容是否适用,若不适用,需具体阐述理由及相应的科学依据,并依据产品的具体特性对注册申报资料的内容开展充实与细化。
本指导原则是供注册申请人与技术审评人员使用的指导文件,但不包括审评审批所涉及的行政事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本指导原则。要是有能够满足相关法规要求的其他方法,也可以按照基于,但应提供详细的研究资料与验证资料。
本指导原则是在现行法规、标准体系及当前认知水平下制定的,随着法规、标准体系的不断改进与科学技术的不断发展,本指导原则相关内容也将适时开展调整。
一、适用范围
本指导原则适用于按照基于PCR技术,用于肿瘤辅助诊断相关基因(如点突变、甲基化、基因表达量等)检测试剂的阳性判断值研究。不适用于多癌症联合辅助诊断类检测试剂。其他相似产品可参考本指导原则适用部分执行。
本指导原则适用于开展相关产品注册与变更的阳性判断值研究,包括申报资料中的部分要求,其他未尽事宜,应当符合《体外诊断试剂注册与备案管理措施》(国家市场监督管理总局令48号)(以下简称《措施》)等相关法规要求。
二、技术审查要点
(一)阳性判断值的形成
1.入组人群的选择
注册申请人应选择申报产品预期用途所声称的适用人群开展阳性判断值研究。形成阳性判断值的入组人群,应能够尽量全面覆盖目标疾病状态中的各种特征,包括目标肿瘤不同分期/分型、含不同干扰因素的非目标肿瘤病例(如良性疾病、其他类型肿瘤等)等,其中目标肿瘤应关注早期病例的纳入。
建议列表分层统计肿瘤组与非肿瘤组的重要亚组,以确保对重要亚组的充分研究。对于多靶标检测试剂,如每种靶标单独输出阳性判断值,应注意每种靶标阳性病例均应有一定例数。
入组人群如不能正确代表预期适用人群,会出现选择偏倚。注册申请人应按照产品预期用途设计纳入、排除与剔除标准,将符合标准的具有人群代表性的个体入组。
以尿路上皮癌辅助诊断类产品为例:肿瘤组建议包括膀胱癌、肾盂癌、输尿管癌与尿道癌,纳入不同分期,并对不同癌种的不同分期开展分层统计。非肿瘤组建议包括泌尿系统良性疾病,如膀胱炎、膀胱结石、肾结石、肾炎、前列腺增生、肾积水、前列腺炎、尿道炎;其他类型肿瘤,如前列腺癌、肾癌(如透明细胞癌等)、肝癌、宫颈癌、乳腺癌、肺癌。非肿瘤组可按照上述举例开展分层统计。
2.样本采集、处理与储存
影响样本采集、处理与储存的因素包括采样环境、采样时间、采样体位、样本类型、运送方式、样本状态、样本分离、储存方式等。申请人应按照基于符合说明书声称要求的样本开展阳性判断值研究,并在研究报告中详细说明样本类型、储存方式/时间等情况。如需使用抗凝剂,需弄清楚抗凝剂的类型;如采集尿液样本应弄清楚取样时间段。
3.样本量
阳性判断值研究样本量应满足统计学要求,可按照基于适当的统计学方法开展样本量的估算,并说明依据。应注意,阳性判断值计算模型的稳定性很大程度上依赖于样本数量与人群代表性,因此样本量应在满足统计学要求的最低样本量的基础上,保证目标人群的各种特征及重要亚组均有足够数量的代表性个体。
样本量估算应选择可靠的评价指标(例如灵敏度、特异度)与相应的统计学方法,并弄清楚样本量估算的临床参数与统计学参数。常见样本量估算方法如目标值法、二项分布法等。
4.样本检测
样本应按照基于申报试剂与比较方法同步研究并开展比较,主要关注以下两个方面:
4.1比较方法
一般情况下,比较方法应按照基于临床参考标准(即“金标准”),以确定每个研究个体“真实”的临床状态。肿瘤诊断的临床参考标准通常是诊疗指南中弄清楚的疾病诊断方法(如组织病理学检查、影像学检查等),可能是一种方法,也可能是多种方法相结合。以结直肠癌为例,其临床参考标准为结肠镜结合病理检查结果。
需注意,多靶标检测试剂盒如在算法模型形成前先对单一靶标开展阴阳性判断后再开展标准化处理,单一靶标的阴阳性判断也应有可靠的形成标准。
4.2申报试剂
应按照基于与申报产品说明书一致的检测系统开展样本检测。检测系统包括样本处理用试剂、检测试剂、校准品、质控品、检测设备等。
按照确定的反应体系、按照基于申报试剂的检测系统对真实临床样本开展检测。
5.数据集形成
数据收集、质量控制、预处理、标注后,形成标注数据库(含样本类型与检测数据)。对数据划分,构建训练集(用于算法训练、参数调优等)、测试集(阳性判断值验证)。申请人应弄清楚不同数据集样本量、样本类型分布,不仍然本集的样本类型应满足二、(一)1入组人群选择的要求。
数据预处理是数据研究的第一步,也是消除实验误差、提高数据可比性与可靠性的根本步骤。数据预处理的方法多种多样,无论申请人按照基于何种数据前处理方式,均应提供可靠依据。
以下提供几种数据预处理的处理方式以供参考:
5.1基于内参的处理
如靶标检测受样本质量、提取纯化或加样量等因素影响(如甲基化检测试剂、RNA检测试剂等),可引入内参基因,按照基于△Ct(即目标基因Ct值与内参基因Ct值的差值)反映目标基因的相对表达量。内参应“表达稳定”(如管家基因 GAPDH、β-actin),且不受疾病状态或实验处理影响。
5.2无量纲化处理
对于多靶标联合检测试剂,在选择按照基于机器学习算法开展建模时,可按照基于基于个体水平的Z-score、Min-Max等开展数据无量纲化处理。无量纲化处理可通过数学转换消除数据的物理单位与量级差异,将不同维度的数据映射到统一数值范围后开展计算。
5.3其他
申请人也可按照产品设计与探索性研究的结论,选择其他预处理方法(如复孔检测的平均值、数据反向转化等),或直接按照基于设备输出的连续量值而不开展处理。
6.数据研究
数据研究是获得产品阳性判断值的根本步骤,申请人应按照经预处理后的数据类型,谨慎选择研究方法。
数据研究过程较为复杂,申请人可选择成熟软件或自研软件。在申报资料中应弄清楚算法、软件名称、版本号。
6.1内参基因检测范围的确定(如有)
内参基因一般设置为相对稳定的基因如人基因组管家基因,与靶核酸一同提取及扩增。内参基因设立的主要目的在于对待测样本的取样质量、试剂的反应体系开展监控,因此有必要按照基于适当方法确定内参基因检测结果Ct值范围。申请人应在统计研究过程中,按照检测结果的分布情况,选择可靠的统计学方法形成内参基因检测结果Ct值的参考区间,并针对研究方法的选择提交可靠依据,并提交详细的研究过程。
6.2受试者工作特征(receiveroperating characteristic,ROC)曲线研究
ROC曲线是形成产品阳性判断值的常用方法之一。肿瘤辅助诊断相关基因检测试剂的测得值一般为连续型数据,此时对于单靶标检测试剂,建议按照基于通过ROC研究,计算曲线下面积评价诊断能力。对于多靶标检测试剂,在模型构建的基础上,需要时可进一步按照基于ROC研究。
值得注意的是,要是存在重要协变量,建议考虑使用其他方法(如分层ROC研究或回归模型)开展研究,以确保阳性判断值在预期人群中具有普适性。
6.2.1 绘制ROC曲线
诊断准确度的两个基本指标是灵敏度与特异度。以灵敏度为纵坐标,1-特异度为横坐标绘制 ROC 曲线。ROC曲线越接近于坐标平面的左上方,诊断表现越好。
6.2.2ROC曲线截断值(cut-off)的确定
ROC曲线下面积(areaunder the ROC curve, AUC)是对ROC曲线开展总结的一个综合评价指标,其值越接近1诊断效能越高,越接近0.5则诊断效能越低。在诊断界值点的选择上,通常会综合考虑灵敏度与特异度及其相应的临床意义。约登指数最大法是常用的方法之一。申请人可按照不同疾病特点与临床需求调整阈值,并详细说明理由。在开展阳性判断值形成时,应结合临床需求设定最低可接受标准,该标准应满足产品的预期用途。
ROC曲线研究过程应提交阳性判断值数据研究表。
6.3多靶标联合检测试剂数据研究
具有高灵敏度与特异度的单一靶标较难筛选,申报试剂可选择可归结成两种或多种靶标开展联合检测来提高诊断准确度。申请人应按照产品特性详细提交研究过程,选择具有最优诊断效能的靶标组合、判读方式及算法模型等。
申请人提交申报产品阳性判断值判读规则、数据研究方法选择依据,以下可归结成两种为常见多靶标联合检测试剂的数据研究:
基于单一靶标阳性判断值的规则判读:即多个靶标的检测结果只要有一个阳性就判为阳性,全部结果均为阴性才判为阴性。一般按照基于ROC曲线确定单靶标的阳性判断值,而后按照基于R×C列联表,评估该联合检测策略的灵敏度与特异性。
基于机器学习的多靶标联合诊断模型:将“有病”“无病”作为因变量,以申报试剂的多个靶标结果为自变量,申请人可以按照训练集建模,如逻辑回归(也称为Logistic回归)、支持向量机、随机森林等,确定模型参数。必要时,可按照模型获得的综合得分开展ROC曲线研究。申请人应详细提交靶标组合筛选、算法模型的选择与参数优化、模型性能评估、阳性判断值形成、模型稳定性验证等过程。
6.3.1靶标筛选(如有)
提交靶标及组合筛选的详细过程及支持资料,如文献搜索、数据库筛选、机器学习研究等。其中机器学习对靶标组合的筛选应弄清楚选择方法(如逐步向前/向后法、LASSO回归等)、性能比较参数等。
6.3.2 算法模型选择与参数优化
申请人应提交算法模型选择依据、参数优化与调整过程。
选择合适的机器学习算法对样本数据开展训练,算法的选择取决于多个因素,可以按照样本量与变量开展选择,或者将训练集应用在多种分类模型上开展比较测试,并使用交叉验证、遍历研究等开展模型的训练与性能验证。在通过机器学习算法根本评估指标筛选最适合该输入数据分布的最优分类模型,如准确率、AUC、召回率(Recall)、精确度(Precision)、似然比、拟合优度。
如涉及参数调整,应提交参数调整过程(如网格搜索等),比较不同参数设置下的模型性能,避免过拟合或欠拟合。6.3.3模型性能评估抗干扰能力
基于测试集对算法设计结果开展评估,综合考虑假阴性与假阳性、鲁棒性/健壮性等适用评估要求,以结论显示算法性能满足算法设计目标。
申请人可通过增加干扰样本、调整样本浓度分布(如甲基化比例、突变比例)等比较模型调整前后的变化。
6.3.4模型稳定性验证
训练集大小、非目标肿瘤病例、干扰样本、重要亚组的数量等变化均易对模型参数造成影响,结果算法模型的变化与性能波动。申请人应提交模型的稳定性与泛化能力验证,可基于训练集采取K折交叉验证(如10折交叉验证)、重抽样(Bootstrap)方法(如重复1000次以上)、随机种子多次构建模型(如重复100次)等。
6.3.5综合评分确定阳性判断值(如有)
结合临床需求(如灵敏度、特异性),可按照基于综合评分通过ROC曲线计算最佳阳性判断值,具体要求可参见ROC曲线部分。
7. 研究数据总结表
申请人应提交研究数据总结表,内容至少包括:样本编号、人口学信息(性别、年龄)、样本类型、临床诊断信息、检测结果(包括每个靶标)等。
(二)阳性判断值的验证
申请人应按照训练集一致入组标准,开展阳性判断值的验证。验证研究的样本量应满足统计学要求,以确保对产品性能(如灵敏度、特异性)的估计具有足够的精确度,建议样本量不少于训练集。对于罕见疾病等特殊情况,阳性组样本量也应尽可能满足统计要求,并提供详细的样本量估算依据。
应注意,训练集样本与测试集样本不能交叉、重复使用。阳性判断值验证研究应保持与形成研究一致的入选标准、样本采集与检测要求、质量控制等。
一般以2×2表的形式总结金标准与申报试剂的检测结果,并据此计算灵敏度(阳性符合率)、特异度(阴性符合率)、总符合率、Kappa值等指标及其置信区间。
如有必要,应对获得的数据集按照重要亚组开展分层、分段统计。
对金标准与申报试剂的检测结果纷歧致的样本,应研究原因。
(三)说明书
申请人应在说明书【阳性判断值】中载明经研究确定的阳性判断值。此部分内容应包括阳性判断值确定与验证的基本信息,包括:样本量、入组人群特征与阳性判断值确定按照基于的统计学方法、软件相关内容(名称、版本号、注册证号)。
四、参考文献
[1] GB/T 29791.1-2013,体外诊断医疗器械制造商提供的信息(标示)第1部分:术语、定义与通用要求[S].
[2] CLSI. Defining, Establishing, and Verifying Reference Intervals in the Clinical Laboratory; Approved Guideline—Third Edition. CLSI document EP28-A3c. Wayne, PA: Clinical and Laboratory Standards Institute; 2010.
[3] WS/T 402-2012,临床实验室检验项目参考区间的制定[S].
[4] WS/T 780-2021,儿童临床常用生化检验项目参考区间[S].


1236
