新研发的ML-MEDIC工具,可应用于医学探索和临床实验!

   电工小二        

将机器学习方法与临床研究结合起来并减少所需编程经验的可访问的交互式工具是推动科学发展的必要条件。在这里,研究人员展示了用于医疗探索和数据启发护理的机器学习(ML-MEDIC),这是一个具有可视界面的交互式工具,可以促进临床研究中的机器学习和统计分析。研究人员在美国心脏协会(AHA)的精准医疗平台上部署了ML-MEDIC,以提供安全的互联网接入并促进合作。通过与临床领域专家合作的两个案例研究,研究人员评估了ML-MEDIC促进机器学习应用的有效性。还进行了领域专家审查,以获得可用性和潜在限制的印象。


相关论文以题为“ML-MEDIC: A Preliminary Study of an Interactive Visual Analysis Tool Facilitating Clinical Applications of Machine Learning for Precision Medicine”发表在《Applied Sciences》上。




在提取新的生物医学见解或预测临床结果方面,机器学习继续显示出巨大的潜力,这要求医学研究人员能够以临床可翻译的方式理解和解释机器学习模型。由于临床解释、机器学习模型的验证、临床研究人员的编码专业知识、与生物医学数据集相关的安全性以及在临床环境中运行机器学习管道的计算工具的可获得性,这些模型的翻译往往具有挑战性。


使用互联网接入设置中访问的单击式交互工具,可以成为促使医学研究人员进行数据分析的有效媒介,因为它们为与机器学习临床应用相关的挑战提供了潜在的解决方案。反应性和可视化的点击工具限制了在参数化和优化机器学习管道时重新编写分析的需要,并使用户能够在不需要编码专家的情况下可视化地比较和解释多个模型。


研究人员展示了用于医疗探索和数据启发护理的机器学习(ML-MEDIC),这是一款具有视觉界面的交互式工具,用于促进临床研究中的机器学习和统计分析。通过与临床领域专家合作的两个案例研究,研究人员评估了ML-MEDIC促进机器学习应用的有效性。作为初步研究,还进行了领域专家审查,以获得关于工具可用性和潜在局限性的初步证据。


工具设计


ML-MEDIC的总体设计目标是提供一个点击即可使用的用户工具,可以促进机器学习和数据科学在医疗设置中的应用。研究人员将可视化和反应性计算方法集成到设计中,以创建一个易于使用的应用程序,能够吸引领域专家,独立于他们的编码专长。研究人员选择R/Shiny作为一个框架来实现ML-MEDIC,因为它的开放源代码的本质、交互能力以及根据用户输入重新计算计算的能力。


研究人员在云环境中部署了ML-MEDIC,以实现可访问性和可重现性。基于云的环境最近被开发用于改善数据访问、共享和协作,以及提供管理计算负载和与存储和分析大数据相关的挑战的方法。研究人员选择将ML-MEDIC部署在由美国心脏协会(AHA)构建的用于精确心血管药物的Amazon Web服务云环境中。精准医疗平台是一个安全、健康保险便携性和问责法案(HIPPA)和联邦风险和授权管理计划(FedRAMP)认证的基于云的生态系统,是一个促进数据共享、协作和强大计算的交互式环境。该平台由常用的机器学习工具和生物医学数据集组成,使研究人员能够轻松地存储、分析和协作构建分析管道,而无需担心通过使用工作区的数据安全性。


鉴于临床领域专家的输入,研究人员选择关注ML-MEDIC的监督机器学习方法,因为它们能够提供更多与临床相关的结果,而领域专家认为著名的监督模型是他们进行数据分析最经常依赖的一些模型。然而,ML-MEDIC是模块化设计的,以促进其他模型的添加,包括无监督的模型。机器学习算法是使用插入符号实现的,通过并行选项来优化计算时间和提高反应性。


研究人员在精准医疗平台上部署了ML-MEDIC,以限制与重用或在多台计算机上安装工具相关的挑战,为该工具提供安全的互联网访问,并允许用户实时协作(图1)。AHA的HIPPA和fedramp认证的精准医疗平台通过创建虚拟环境和工作区,将计算与底层硬件和主机的操作系统隔离开来,从而促进了可重用性和再现性。该平台目前使用Chef来确保正确的版本控制和配置在任何规模中得到一致的应用。基于云的生态系统还包括一个数据市场,数据提供者可以安全地与公众共享数据集和分析,即使数据已经被编成数据使用协议(DUAs)。通过该平台可以访问各种数据集,用户可以通过GitHub等传统方法共享分析管道、结果和代码,也可以通过平台本身共享分析管道、结果和代码。



图1.精准医疗平台。(A)支持多个协作者(红框)在安全虚拟环境中工作的精准医疗平台中基于云、高性能计算的平台ML-MEDIC的工作空间登陆页面。(B)在平台上部署的ML-MEDIC,可重现性和可访问性。ML-MEDIC,用于医学探索的机器学习和数据启发的护理。


为了创建一个“易于使用”的界面,研究人员构建了菜单设计,以反映典型的预测分析流程,使界面设计与构建预测模型时期望实现的步骤保持一致。研究人员确定了以下步骤:(1)加载数据;(2)建立一个或多个模型进行比较,包括能够在两个不同的数据集上建立同一个模型;(3)设置可选的培训和控制参数;(4)测试与评估(图2、图3)。



图2.(A) ML-MEDIC的总体布局。可扩展和可折叠的面板与结果的表格和图形显示相结合,允许用户在ML工作流的任何时刻定制输出和必要的可视化。(B) Analysis下拉菜单允许用户定义一个或多个分析和自定义数据输入、培训协议、评估指标,并一次运行多个ML和统计模型。




图3.可用于分析的菜单和选项的概述。培训协议包括bootstrap、交叉验证和hold out方法。可用于分类以及数值型或多类模型的精度指标。每个可用的方法都包含一个自定义菜单下拉菜单,用于定义调优参数,默认值根据标准实践设置,并加载用于分析的数据。每个可用的方法或参数都以模块化方式定义,以便于添加其他方法和特性。


视觉分析和计算方法


交互式可视化被实现来促进模型的实现和解释。交互式表格和图形摘要显示加载数据的变量数和总样本量,和每个变量的分布和missingness实施视觉支持用户在设置变量和结果变量输入到模型额外的表格和图形显示摘要显示每个变量的分布,当响应变量被设置(图4),模型参数的默认值交叉验证指标,和把数据分成训练集和测试集添加到促进模型实现。表格和图形显示模型性能和变量的重要性被添加到提供洞察每个模型是如何预测(步骤4)(图4和图5)。图形和表格显示并排显示,为用户自定义设置。增加了布局和显示,便于多型号的比较(图3、图4、图5)。



图3.可用于分析的菜单和选项的概述。培训协议包括bootstrap、交叉验证和hold out方法。可用于分类以及数值型或多类模型的精度指标。每个可用的方法都包含一个自定义菜单下拉菜单,用于定义调优参数,默认值根据标准实践设置,并加载用于分析的数据。每个可用的方法或参数都以模块化方式定义,以便于添加其他方法和特性。




图4.使用ML-MEDIC进行案例研究1的结果。使用美国心脏协会(AHA)/美国心脏病学会(ACC) CVD风险评分中的因素,进行了三个机器学习模型来评估其预测心血管疾病(CVD)的潜力。为了比较,随机森林(RF),支持向量机(SVM),和弹性网图显示。数据表显示分布分裂的结果CVD(反应变量)在左边。训练数据(75% 10倍重复CV)与左侧测试数据的ROC曲线比较。




图5.案例研究2的结果。带有可扩展行的数据的表格视图,以从机器学习输出中获得与数据中的变量和具有给定重要性的变量相关的额外信息(左)。变量重要性表格布局,显示了输入到模型中的所有变量从1到100的重要性度量。在已知的变量中,每周食用红肉是最重要的。


结论


在医学上,有效的机器学习应用的开发和实施通常需要跨多个学科的协作。促进机器学习在医学中的应用的一部分是降低与共享和重用数据和分析相关的障碍,以及支持所需的协作努力。在这里,研究人员展示了ML-MEDIC,这是一个在安全的、基于云的环境中实现的用户交互工具。研究目的是启用可访问性和可重用性,并支持安全的数据共享。这允许非技术用户访问机器学习工具并执行分析,同时能够在已经开发的管道基础上进行构建。


论文链接:https://www.mdpi.com/2076-3417/10/9/3309/htm



最新评论(0)条评论
取消

还没有人评论哦,抢沙发吧~

相关新闻推荐