AI类医疗器械总体上可分为疾病诊断、健康管理、图像分析、手术引导及诊断规划等五大类。其中目前国内申请注册审批的主要为图像分析类AI软件,其主要目的在于使用计算机为医生提供辅助诊断结果,其用途本质就是“诊断”,那么临床试验设计思路就是待评估的方法与金标准或同类产品对图像分析的准确度的比较。图像分析诊断试验中,考虑到医生的评价差异性,建议使用多阅片者多病例MRMC(Multireader multicase)研究。
MRMC研究设计思路是分别选取合适数量有代表性的患者(包括金标准确诊待研究疾病的患者与非患者)和阅片者作为样本,每个患者分别接受两个及以上诊断试验,然后由阅片者独立盲态下对患者关于试验的影像检测结果进行解释。 在对诊断结果进行分析和评价时,这种设计可以将阅片者自身以及不同阅片者之间的各种效应考虑进去。MRMC研究需要分别考虑病例和阅片者两部分的代表性,并分别估计两者的样本量。
MRMC研究类型分为完全交叉和不完全交叉。完全交叉,需要所有阅片者阅读所有患者数据,同时可以提供最大的统计效能,当在前瞻性研究中由所有阅片者阅读同一患者数据不可行时,可以使用不完全交叉。在多次阅读的情况下,同样的患者被多次阅读,建议将每次阅片的时间间隔至少为四周,以避免阅片者的记忆偏倚。
评价指标:主要评价指标为根据预期助诊断的结果确定为经典ROC曲线,定位ROC曲线(LROC),因变量自由ROC曲线(FROC)以及感兴趣区域ROC曲线(ROI-ROC),(当同一病例存在多个病变时,使用FROC和ROI-ROC法,而LROC法仅限于单个病变的情况。)次要评价指标为灵敏度,特异度和召回率(包括患者水平和非患者水平)。
比较两种诊断试验准确度的评估方式:(1)最常用的方法是DBM法,采用Jackknife法计算病例、阅片者和试验间每一组合的ROC曲线综合指标伪值,分析单位是病例,对Jackknife伪值建立标准的混合效应线性模型。(2)OR法,对于阅片者与试验每一组合的ROC曲线综合指标(如ROC曲线下面积)估计值,建立两因素的混合效应方差(ANOVA)模型。(3)Bootstrap(WBC)法,使用与DBM方法相同的方差模型混合效应分量来检验模型精度,但是采用Bootstrap法计算混合效应线性模型的六个方差分量,同时对各方差成分量的分布不做任何假设。(4)边际回归模型(SZ)法。与其他三种方法不同,仅限于AUC作为测试准确性的衡量标准,可以在分析时可以合并患者水平和阅片者水平的协变量,对于研究病例的样本量要求较低。
目前样本量计算方式:
(1)R软件中的“RJafroc ”安装包;
(2)根据样本量计算公式进行估算;
(3)https://perception.lab.uiowa.edu/power-sample-size-estimation下载相应的样本量估算软件安装包