怎样设计医疗器械临床试验方案

发布日期：2025-11-06 21:04:30 浏览次数：

引言：医疗器械临床试验即在具备相应条件的临床试验机构中，对拟申请注册的医疗器械在正常使用条件下的安全有效性开展确认的过程。临床试验是以受试人群（样本）为通过了解对象，通过了解试验器械在正常使用条件下作用于人体的效应或对人体疾病、健康状态的评价能力，以推断试验器械在预期使用人群（总体）中的效应。因为医疗器械的固有特征，其试验设计有其自身特点。

怎样设计医疗器械临床试验方案(图1)

一、确定医疗器械临床试验目的：

临床试验需设定弄清楚、具体的试验目的。申请人可综合研究试验器械特征、非临床研究情况、已在中国境内上市（下文简称已上市）同类产品的临床数据等因素，设定临床试验目的。临床试验目的决定了临床试验各设计要素，包括主要评价指标、试验设计类型、对照试验的比较类型等，进而影响临床试验样本量。

二、医疗器械临床试验设计的基本类型与特点

（一）平行对照设计

随机、双盲、平行对照的临床试验设计可使临床试验影响因素在试验组与对照组间的分布趋于均衡，保证研究者、评价者与受试者均不知晓分组信息，避免了选择偏倚与评价偏倚，被认为可提供高等级的科学证据，通常被优先考虑。对于某些医疗器械，此种设计的可行性受到器械固有特征的挑战。

（二）配对设计

对于治疗类产品，常见的配对设计为同一受试对象的两个对应部位同时接受试验器械与对照治疗，试验器械与对照治疗的分配需考虑随机设计。配对设计主要适用于器械的局部效应评价，具有一定的局限性。例如，对于面部注射用交联透明质酸钠凝胶的临床试验，配对设计在保证受试者基线一致性上比平行对照设计具有优势，但试验中一旦出现系统性不良反应则难以确认其与试验器械或对照器械的相关性，且需要排除面部左右侧局部反应的互相影响。因此，申请人考虑开展配对设计时，需按照产品特征，综合考虑该设计类型的优势与局限性，恰当开展选择，并论述其可靠性。

对于诊断器械，若试验目的是评价试验器械的诊断准确性，常见的配对设计为同一受试者/受试样品同时按照基于试验器械与诊断金标准方法或已上市同类器械来开展诊断。

（三）交叉设计

在交叉设计的临床试验中，每位受试者按照随机分配的排列顺序，先后不同阶段分别接受可归结成两种或可归结成两种以上的治疗/诊断。此类设计要求前一阶段的治疗/诊断对后一阶段的另一种治疗/诊断不产生残留效应，后一阶段开始前，受试者一般需回复到基线状态，可考虑在两个干预阶段之间摆设可靠的洗脱期。

（四）单组设计

单组试验的实质是将主要评价指标的试验结果与已有临床数据开展比较，以评价试验器械的有效性/安全性。与平行对照试验相比，单组试验的固有偏倚是非同期对照偏倚，因为时间上的不同步，可能引起选择偏倚、混杂偏倚、测量偏倚与评价偏倚等，应审慎选择。在开展单组试验时，需要对可能存在的偏倚开展全面研究与有效控制。

三、医疗器械临床试验的受试对象

按照试验器械预期使用的目标人群，确定研究的总体。综合考虑对总体人群的代表性、临床试验的伦理学要求、受试者安全性等因素，制定受试者的选择标准，即入选与排除标准。入选标准主要考虑受试对象对总体人群的代表性，如适应症、疾病的分型、疾病的程度与阶段、使用具体部位、受试者年龄范围等因素。排除标准旨在尽可能规范受试者的同质性，将可能影响试验结果的混杂因素（如影响疗效评价的伴随治疗、伴随疾病等）予以排除，以达到评估试验器械效应的目的。

四、医疗器械临床试验的评价指标

评价指标反映器械作用于受试对象而产生的各种效应，按照试验目的与器械的预期效应设定。在临床试验方案中应弄清楚规定各评价指标的通过了解目的、定义、通过了解时间点、指标类型、测定方法、计算公式（如适用）、判定标准（适用于定性指标与等级指标）等，并弄清楚规定主要评价指标与次要评价指标。指标类型通常包括定量指标（连续变量，如血糖值）、定性指标（如有效与无效）、等级指标（如优、良、中、差）等。对于诊断器械，临床试验评价指标通常包括定性检测的诊断准确性（灵敏度、特异性、预期值、似然比、ROC曲线下面积等）或检测一致性（阳性/阴性一致性、总一致性、KAPA值等），以及定量检测回归研究的斜率、截距与相关系数等。

五、医疗器械临床试验的比较类型与检验要是

（一）比较类型

临床试验的比较类型包括优效性检验、等效性检验、非劣效性检验。按照基于慰藉对照的临床试验，需开展优效性检验。按照基于疗效/安全性公认的已上市器械或标准治疗方法开展对照的临床试验，可按照试验目的选择优效性检验、等效性检验或非劣效性检验。

优效性检验的目的是确证试验器械的疗效/安全性优于对照器械/标准治疗方法/慰藉对照，且其差异相较而言更多预先设定的优效界值，即差异有临床实际意义。因为试验器械特征、对照与主要评价指标等因素的不同，部分优效性检验没有考虑优效性界值，申请人需论述不考虑优效性界值的理由。等效性检验的目的是确证试验器械的疗效/安全性与对照器械的差异不超过预先设定的等效区间，即差异在临床可接受的范围内。非劣效性检验的目的是确证试验器械的疗效/安全性要是低于对照器械，其差异小于预先设定的非劣效界值，即差异在临床可接受范围内。在优效性检验中，要是试验设计可靠且执行良好，试验结果可直接确证试验器械的疗效/安全性。在等效性试验与非劣效性试验中，试验器械的疗效/安全性形成在对照器械预期疗效/安全性的基础上。

（二）界值

无论优效性试验、等效性试验或非劣效性试验，要从临床意义上确认试验器械的疗效/安全性，均需要在试验设计阶段制定界值并在方案中阐明。优效界值即试验器械与对照器械之间的差异具有临床实际意义的最小值。等效或非劣效界值即试验器械与对照器械之间的差异不具有临床实际意义的最大值。优效界值、非劣效界值均为预先制定的一个数值，等效界值需要预先制定优侧、劣侧两个数值。

界值的制定主要考虑临床实际意义，需要被临床认可或接受。理论上，非劣效界值的确定可按照基于两步法，一是通过Meta研究估计对照器械减去慰藉效应后的绝对效应或对照器械的相对效应M1，二是结合临床具体情况，在考虑保留对照器械效应的适当比例1-f后，确定非劣效界值M2（M2=f×M1）。f越小，试验器械的效应越接近对照器械，一般情况下，f的取值在0～0.5之间。制定等效界值时，可用类似的方法确定下限与上限。

（三）检验要是

试验方案需弄清楚检验要是与要是检验方法，检验要是依据试验目的确定，要是检验方法依据试验设计类型与主要评价指标类型确定。附录1提供了部分试验设计与比较类型下的检验要是举例，供参考。

六、医疗器械临床试验的样本量估算

临床试验收集受试人群中的疗效/安全性数据，用统计研究将基于主要评价指标的试验结论推断到与受试人群具有一致特征的目标人群。为实现样本（受试人群）代替总体（目标人群）的目的，临床试验需要一定的受试者数量（样本量）。样本量大小与主要评价指标的变异度呈正相关，与主要评价指标的组间差异呈负相关。

样本量一般以临床试验的主要评价指标开展估算。需在临床试验方案中说明样本量估算的相关要素及其确定依据、样本量的具体计算方法。附录2提供了样本量估算公式的样例，供参考。确定样本量的相关要素一般包括临床试验的设计类型与比较类型、主要评价指标的类型与定义、主要评价指标有临床实际意义的界值、主要评价指标的相关参数（如预期有效率、均值、标准差等）、Ⅰ类与Ⅱ类错误率以及预期的受试者脱落与方案违背的比例等。主要评价指标的相关参数按照已有临床数据与小样本可行性试验（如有）的结果来估算，需要在临床试验方案中弄清楚这些估计值的确定依据。一般情况下，Ⅰ类错误概率α设定为双侧0.05或单侧0.025，Ⅱ类错误概率β设定为不相较而言更多0.2，预期受试者脱落与方案违背的比例不相较而言更多0.2，申请人可按照产品特征与试验设计的具体情形按照基于不同的取值，需充分论证其可靠性。

七、医疗器械临床试验设计需考虑的其他因素

因为器械的固有特征可能影响其临床试验设计，在开展医疗器械临床试验设计时，需对以下因素予以考虑：

（一）器械的工作原理

器械的工作原理与作用机理可能与产品性能/安全性评价方法、临床试验设计是否恰当相关。

（二）使用者技术水平与培训

部分器械可能需要对使用者开展技能培训后才能被安全有效地使用，例如手术复杂的植入器械。在临床试验设计时，需考虑使用器械所必需的技能，研究者技能应能反映产品上市后在预期用途下的器械使用者的技能范围。

（三）学习曲线

部分器械使用方法新颖，存在一定的学习曲线。当临床试验过程中学习曲线显著时，试验方案中需考虑在学习曲线时间内收集的信息（例如弄清楚定义哪些受试者是学习曲线时间段的一部分）以及在统计研究中报告这些结果。要是学习曲线陡峭，可能会影响产品说明书的相关内容与用户培训需求。

（四）人为因素

在器械设计开发过程中，对器械使用相关的人为因素的研究可能会指导器械的设计或使用说明书的制定，以使其更安全，更有效，或让受试者或医学专业人士更容易使用。

八、医疗器械临床试验的统计研究

（一）研究数据集的定义

意向性研究（Intention To Treat，简称ITT）原则即主要研究应包括所有随机化的受试者，基于所有随机化受试者的研究集通常被称为ITT研究集。理论上需要对所有随机化受试者开展完整随访，但实际中很难实现。

临床试验常用的研究数据集包括全研究集（Full Analysis Set，FAS）、符合方案集（Per Protocol Set，PPS）与安全性数据集（Safety Set，SS）。需按照临床试验目的，遵循尽可能减少试验偏倚与防止Ⅰ类错误增加的原则，在临床试验方案中对上述数据集开展弄清楚定义，规定不同数据集在有效性评价与安全性评价中的地位。全研究集为尽可能接近于包括所有随机化的受试者的研究集，通常应包括所有入组且使用过一次器械/接受过一次治疗的受试者，只有在十分有限的情形下才可剔除受试者，包括违反了重要的入组标准、入组后无任何通过了解数据的情形。符合方案集是全研究集的子集，包括已接受方案中规定的治疗、可获得主要评价指标的通过了解数据、对试验方案没有重大违背的受试者。若从全研究集与符合方案集中剔除受试者，一是需符合方案中的定义，二是需充分阐明剔除理由，需在盲态审核时阐明剔除理由。安全性数据集通常应包括所有入组且使用过一次器械/接受过一次治疗并开展过安全性评价的受试者。

需同时在全研究集、符合方案集中对试验结果开展统计研究。当二者结论一致时，可以增强试验结果的可信度。当二者结论纷歧致时，应对差异开展充分的讨论与解释。要是符合方案集中排除的受试者比例过大，或者因排除受试者结果试验结论的根本性变化（由全研究集中的试验失败变为符合方案集中的试验成功），将影响临床试验的可信度。

全研究集与符合方案集在优效性试验与等效性或非劣效性试验中所起作用不同。一般来说，在优效性试验中，应按照基于全研究集作为主要研究集，因为它包括了依从性差的受试者而可能低估了疗效，基于全研究集的研究结果是保守的。符合方案集显示试验器械按规定方案使用的效果，与上市后的疗效比较，可能高估疗效。在等效性或非劣效性试验中，用全研究集所研究的结果并纷歧定保守。

（二）缺失值与离群值

缺失值（临床试验通过了解指标的数据缺失）是医疗器械临床试验结果偏倚的潜在来源，在临床试验方案的制定与执行过程中应采取充分的措施尽量减少数据缺失。对于缺失值的处理方法，尤其是主要评价指标的缺失值，需按照具体情形，在方案中遵循保守原则规定恰当的处理方法，如末次通过了解值结转（Last Observation Carried Forward, LOCF）、基线通过了解值结转（Baseline Observation Carried Forward, BOCF）等。必要时，可考虑按照基于不同的缺失值处理方法开展敏感性研究。

不建议在统计研究中直接排除有缺失数据的受试者，因为该处理方式可能破坏入组的随机性、破坏受试人群的代表性、减少研究的驾驭度、增加Ⅰ类错误率。

对于离群值的处理，需要同时从医学与统计学两方面考虑，尤其是医学专业知识的判断。离群值的处理应在盲态审核时开展，要是试验方案中未预先规定处理方法，在实际资料研究时，需要开展敏感性研究，即比较包括与不包括离群值的可归结成两种试验结果，评估其对试验结果的影响。

（三）统计研究方法

1.统计描述

人口学指标、基线数据一般需选择合适的统计指标（如均数、标准差、中位数等）开展描述以比较组间的均衡性。

主要评价指标在开展统计推断时，需同时开展统计描述。值得注意的是，组间差异无统计学意义不能得出两组等效或非劣效的结论。

次要评价指标通常按照基于统计描述与差异检验开展统计研究。

2.要是检验与区间估计

在确定的检验水平（通常为双侧0.05）下，按照方案计算要是检验的检验统计量及其相应的P值，做出统计推断，完成要是检验。对于非劣效性试验，若P≤α，则无效要是被拒绝，可推断试验组非劣效于对照组。对于优效性试验，若P≤α，则无效要是被拒绝，可推断试验组临床优效于对照组。对于等效性试验，若P1≤α与P2≤α同时成立，则两个无效要是同时被拒绝，推断试验组与对照组等效。

亦可通过构建主要评价指标组间差异置信区间的方法达到要是检验的目的，将置信区间的上限与/或下限与事先制定的界值开展比较，以做出临床试验结论。按照方案中确定的方法计算主要评价指标组间差异的（1-α）置信区间，α通常按照基于双侧0.05。对于高优指标的非劣效性试验，若置信区间下限相较而言更多-?（非劣效界值），可做出临床非劣效结论。对于优效性试验，若置信区间下限相较而言更多?（优效界值），可做出临床优效结论。对于等效性试验，若置信区间的下限与上限在（-?，?）（等效界值的劣侧与优侧）范围内，可做出临床等效结论。对试验结果开展统计推断时，建议同时按照基于要是检验与区间估计方法。

3.基线研究

除试验器械及相应治疗方式外，主要评价指标常常受到受试者基线变量的影响，如疾病的分型与程度、主要评价指标的基线数据等。因此，在试验方案中应识别可能对主要评价指标有重要影响的基线变量，在统计研究中将其作为协变量，按照基于恰当的方法（如协方差研究方法等），对试验结果开展校正，以修正试验组与对照组间因为协变量不均衡而对试验结果产生的影响。协变量的确定依据以及相应的校正方法的选择理由应在临床试验方案中予以说明。对于没有在临床试验方案中规定的协变量，通常不开展校正，或仅将校正后的结果作为参考。

4.中心效应

在多个中心开展临床试验，可在较短时间内入选所需的病例数，且样本更具有代表性，结果更具有推广性，但对试验结果的影响因素更为复杂。

在多个中心开展临床试验，需要组织制定标准操作规程，组织对参与临床试验的所有研究者开展临床试验方案与试验用医疗器械使用与维护的培训，以确保在临床试验方案执行、试验器械使用方面的一致性。当主要评价指标易受主观影响时，建议采取相关措施（如对研究者开展培训后开展一致性评估，按照基于独立评价中心，选择背对背评价方式等）以保障评价标准的一致性。尽管采取了相关质量控制措施，在多中心临床试验中，仍可能出现因不同中心在受试者基线特征、临床实践（如手术技术、评价经验）等方面存在差异，结果不同中心间的效应不尽一致。当中心与处理组间可能存在交互作用时，需在临床试验方案中预先规定中心效应的研究策略。当中心数量较多且各中心病例数较少时，一般无需考虑中心效应。

在多个中心开展临床试验，各中心试验组与对照组病例数的比例需与总样本的比例基本一致。当中心数量较少时，建议按中心开展分层设计，使各中心试验组与对照组病例数的比例基本一致。

九、医疗器械临床试验的偏倚与随机误差

临床试验设计需考虑偏倚与随机误差。偏倚是偏离真值的系统误差的简称，在试验设计、试验实施与数据研究过程中均可引入偏倚，偏倚可结果错误的试验结论。临床试验设计时应尽量避免或减少偏倚。

统计量的随机误差受临床试验样本量的影响。一方面，较大的样本量可提供更多的数据，使器械性能/安全性评价的随机误差更小。另一方面，更大的样本量可能引入更大的偏倚，结果无临床意义的差异变得具有统计学意义。试验设计应该旨在使试验结果同时具有临床与统计学意义。

站点声明：

本网站所提供的信息仅供参考之用,并不代表本网赞同其观点，也不代表本网对其真实性负责。图片版权归原作者所有，如有侵权请联系我们，我们立刻删除。如密切相关于作品内容、版权或其它问题请于作品发表后的30日内与本站联系,本网将迅速给您回应并做相关处理。
北京飞速度医疗科技有限公司专注于药物及医疗器械、诊断试剂产品政策与法规规事务服务，提供产品注册申报代理、临床合同(CRO）研究、产品研发、GMP质量辅导等方面的技术外包服务。

新闻中心

把您的困惑告诉顾问吧

原阳县人民医院

怎样设计医疗器械临床试验方案

联系我们