如果没有透明度谷歌的预测乳腺癌的人工智能研究将毫无用处

时间：2020-10-28 10:59:34来源：互联网

早在一月份，Google的分支机构Google Health专注于与健康相关的研究，临床工具以及医疗保健服务合作伙伴关系，发布了经过90,000例X射线X射线训练的AI模型，该公司表示，该模型取得了比人类放射线学家更好的结果。Google声称该算法比以前的工作可以识别更多的假阴性-看起来正常但含有乳腺癌的图像，但是一些临床医生，数据科学家和工程师对此说法表示怀疑。在今天发表在《自然》杂志上的反驳中麦吉尔大学，纽约城市大学(CUNY)，哈佛大学和斯坦福大学的19多位合著者表示，谷歌研究缺乏详细的方法和代码“破坏了它的科学价值”。

总体而言，科学存在可再现性问题-2016年对1,500位科学家进行的民意测验报告，其中70%的人曾尝试但未能再现至少另一位科学家的实验-但在AI领域尤为严重。在ICML 2019上，到会议开始时，有30%的作者未提交其代码及其论文。研究通常提供基准测试结果来代替源代码，当基准测试的完整性受到质疑时，这将成为问题。最近一份报告发现自然语言处理模型给出的答案的60%至70%嵌入了基准培训集中的某个位置，这表明这些模型通常只是记住答案。另一项研究(对3,000多篇AI论文进行了荟萃分析)发现，用于对AI和机器学习模型进行基准测试的指标往往不一致，跟踪不规律且没有特别的信息意义。

在《自然》评论的共同作者的反驳中指出，谷歌的乳腺癌模型研究缺乏细节，包括模型开发以及所使用的数据处理和培训管道的描述。Google省略了模型架构的几个超参数(模型用于做出诊断预测的变量)的定义，并且也未公开用于增强训练模型的数据集的变量。《自然》杂志的合著者声称，这可能“显着”影响性能。例如，谷歌使用的一种数据扩充可能导致同一患者的多个实例，从而使最终结果产生偏差。

“在纸面上和理论上，[谷歌]的研究中是美丽的，”博士本杰明Haibe-Kains，在玛嘉烈医院癌症中心和第一作者的资深科学家自然评论，说。“但是，如果我们不能从中学习，那么它几乎没有科学价值……研究人员更有动力发表研究发现，而不是花费时间和资源来确保他们的研究可以重复……科学进步取决于研究人员进行审查的能力。研究的结果，并再现主要的发现以供学习。”

Google表示，用于训练模型的代码对内部工具，基础架构和硬件有很多依赖性，因此其发布不可行。该公司还引用了这两个培训数据集的专有性质(均已获得许可)以及患者健康数据在不发布它们的决定中的敏感性。但《自然》杂志的合著者指出，原始数据的共享在生物医学文献中已变得越来越普遍，从2000年代初的不足1%增长到如今的20%，并且模型预测和数据标签可以在不损害个人信息的前提下发布。

“ [Google对大型机器学习应用程序的多个软件依赖性要求对软件环境进行适当的控制，这可以通过包括Conda的程序包管理器以及包括Code Ocean，Gigantum和Colaboratory在内的容器和虚拟化系统来实现，”合着于“自然”。“如果证明内部工具的虚拟化很困难，那么[Google]可能会发布计算机代码和文档。作者还可以创建玩具示例，以显示必须如何处理新数据才能生成预测。”

《自然》杂志的合著者断言，对于危及人类生命的努力(如将其模型部署到临床环境中的Google模型而言)，应该有很高的透明度。他们写道，如果由于许可或其他无法解决的问题而无法与社区共享数据，则应建立一种机制，以便训练有素的独立研究人员可以访问数据并验证分析，从而可以对研究及其研究进行同行评审。证据。

他们写道：“我们对AI方法在医学中的应用寄予厚望。”“但是，要确保这些方法发挥其潜力，就要求这些研究具有可重复性。”

确实，部分由于不愿发布代码，数据集和技术，当今用于训练用于诊断疾病的AI算法的许多数据可能会使不平等长期存在。一组英国科学家发现，几乎所有眼疾数据集都来自北美，欧洲和中国的患者，这意味着眼疾诊断算法不太适合于代表性不足国家的种族群体。在另一项研究中，斯坦福大学的研究人员声称，美国有关人工智能医学用途的研究数据大部分来自加利福尼亚，纽约和马萨诸塞州。一个一个联合健康保险算法的研究确定，它可以通过半低估需要更加小心的黑人患者的数量。和越来越多的工作这表明，在黑人患者身上使用皮肤癌检测算法时，其精确度往往会降低，部分原因是AI模型主要是针对浅肤色患者的图像进行训练的。

除了基本的数据集挑战之外，缺乏足够的同行评审的模型在实际环境中部署时可能会遇到无法预见的障碍。哈佛大学的科学家发现，经过训练以识别和分类CT扫描的算法可能会偏向某些CT机器制造商的扫描格式。同时，谷歌发布的白皮书揭示了在泰国医院实施眼病预测系统的挑战，包括扫描准确性问题。由巴比伦健康公司(Babylon Health)这样的公司进行的研究被反复质疑，该公司声称自己能够通过短信对多种疾病进行分类，这是一家资金雄厚的远程医疗创业公司。

“如果不适当解决，在AI的掩盖下传播这些偏见有可能夸大已经负担疾病负担的少数民族人口所面临的健康差距，”最近发表在《美国医学信息学杂志》上的论文的共同作者说，他们认为有偏见的模型可能会进一步加剧冠状病毒大流行对有色人种的不成比例的影响。“这些工具是根据反映了偏倚的医疗保健系统的偏倚数据构建而成的，因此，即使明确排除了种族或性别等敏感属性，它们本身也存在极高的偏倚风险。”

《自然》杂志的合著者主张不惜一切代价进行医学模型的第三方验证。他们说，如果不这样做，可能会降低其影响并导致意想不到的后果。他们写道：“不幸的是，生物医学文献中充斥着未能通过可重复性测试的研究，其中许多研究与无法完全披露软件和数据而无法进行研究的方法学和实验方法有关。”“ [Google]未能共享关键材料和信息，使他们的工作从开放的科学出版物转变为验证已成为一种封闭技术的推广。”