新的训练方法提高了人工智能模型的准确性和透明度

科技日报讯(记者 张门兰)人工智能(AI)模型决策的可解释性在医疗诊断、自动驾驶等高风险场景中具有重要意义。据麻省理工学院官网最新消息,为了增加透明度,该校的一个团队开发了一种新方法,可以自动从经过训练的计算机视觉模型中提取重要概念,并迫使模型使用这些人类友好的概念进行解释和预测。这一发展预计将提高模型准确性并增强用户对“黑匣子”人工智能的信心。概念瓶颈模型是提高人工智能可解释性的常用技术。这是指在模型的决策过程中添加中间步骤。首先识别与图像中的任务相关的“概念”,然后根据这些概念做出最终预测。例如,在诊断中对于肿瘤,模型可能首先识别出棕色斑点集合的概念,然后再确定它是否是黑色素瘤。然而,传统方法依赖人类专家或大规模语言模型来预定义一组概念,这些概念可能与特定任务不密切相关或细节不足,这可能会影响模型性能。此外,模型还可能在训练过程中“秘密”使用定义之外的其他特征,导致解释不再符合现实。这次,团队使用了一个经过大量数据预先训练的视觉模型,相信它已经包含了完成任务所需的知识。他们设计了一个处理器,分两步来提取和转换这些知识。首先,使用称为稀疏自动编码器的特殊模型提取最相关的特征并将其压缩为少量核心概念。然后,大规模多模态语言模型将这些特征转换为简洁的自然语言l 语言描述并自动标记这些概念是否对数据集中的图像有效。最后,使用这些带注释的数据训练概念瓶颈模块并将其集成到原始模型中,迫使模型仅使用这组提取的概念进行预测。在此过程中,团队将模型限制为每次预测最多五个概念,迫使模型排除最重要的特征,以便生成的解释得到完善并直接相关。测试过程中,鸟类物种识别和皮肤病变诊断等任务的结果表明,新方法不仅提供了接近图像的准确概念描述,而且能够实现比现有概念瓶颈模型更高的预测精度。这意味着该方法不仅可以更好地“读取”模型的思维过程,而且可以保持更好的性能。团队未来的工作还将重点解决诸如作为信息泄漏并使用更强大的大规模多模态模型来注释大规模数据,进一步提高方法的效率。
(编辑:韩璐)

推荐文章

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注