首页 资讯正文

实现通用人工智能的单模态通用技术探讨

实现通用人工智能的单模态通用技术探讨

什么是通用人工智能

随着以深度学习为代表的人工智能技术的飞速发展,机器已经能够通过大数据学习完成语音识别、图片理解、人脸分辨、目标追踪、语言识别等任务, 并在技术上取得了巨大突破。有些模型或系统在某些任务上已经超越了人类选手,更有甚者宣称已经 通过了图灵测试。例如,1997年,IBM深蓝系统(Deep Blue)战胜了国际象棋大师加里·卡斯帕罗夫(Garry Kasparov);2011年,IBM沃森(Watson)问答系 统在“Jeopardy !”(《危险边缘》)节目中战胜了两位人类选手;2017年,DeepMind 的AlphaGo在围棋竞赛中碾压了人类冠军,并且能够通过自我博 弈学习到未曾有过的“妙招”;2020年,OpenAI发布了具有超大参数集合(1750亿)的自回归语言模型GPT-3,在众多自然语言处理任务中,特别是小样本场景下取得了出色效果。但是,这些模型或系统均是在单一场景下,基于训练数据、针对单一任务进行优化,实现有限框架内的感知、理解、推理、 控制等行为,因此被称为“窄人工智能”(Artificial Narrow Intelligence,ANI)。相较而言,人们更加希望机器能够像人类一样思考和推理,具备处理各种任务的能力,而不是仅仅局限于单一模态、场景或者任务。产业界称这种智能为“通用人工智能”(Artificial General Intelligence,AGI)。

通用人工智能的单模态通用关键技术

在单一模态下,实现人工智能通用技术的关键 难点是解决小样本条件下模型的学习、推广和推理,以及模型的场景迁移学习等问题。只有这样,已有模型才能实现同一模态、任务下的场景通用。

(1)小样本学习

近年来深度学习范式取得了巨大的成功,但是其对于标注数据的大量需求严重制约了深度神经网络等方法的应用范畴。以图像识别为例,数据集CIFAR-10包含了10种不同类别物体的数万例图像,而ImageNet更是包含多达120万张经人工标注的图片。没有充足的训练数据就很难训练出一个满意的模型。在很多场景下,收集数据往往成为应用深度学习最初也是最大的瓶颈,因为数据收集有时非常昂贵(如医疗数据),有时还涉及隐私、机密乃至法律问题。海量的数据需求制约了当前人工智能的发展,也暗示着深度学习的学习方式和理解思维不同于真正通用且高效的人类智能。

在这种情境下,小样本学习应运而生。顾名思义,小样本学习就是通过非常少的样本就能完成某一项新任务,或者学会一个好策略的学习过程。人类的小样本学习是基于大量的生活经验所积累的某种“知识”或者“表征”所达到的。因此,目前机器小样本学习的研究思路也试图通过学习 和积累大量的先验知识,从而可以在新的且类似的任务上,只通过极少数据的训练学习便可达到 很好的表现。这涉及两个重要的问题:(1)如何从经验或者历史数据中提炼知识并进行高效表示;(2)如何利用新任务中少量的数据来准确激活学习模型或智能体在已有任务上学到的特征或者知识。在实际的人工智能应用中,如何界定或者刻画任务间的相似性,如何引入无标签数据和辅助信息(如属性标注),如何构造结构化知识图谱,如何实现知识的融合与迁移,都是小样本学习需 要研究的问题。由此可见,小样本学习与下面提 到的迁移学习、元学习、多任务学习、持续学习、多模态学习等方面关系密切,其发展需要从这些相关方向中广泛借鉴并吸收思想。

(2)迁移学习

当前人工智能的应用领域已经较为广泛。机器视觉学习中的任务有图像分类、检测、像素分割,自然语言处理中的任务有对话问答、语句生成、关系抽取、文本理解,音频场景的任务有语音识别、声源分离、音频生成,等等。通常,每一个场景的各种任务之间有着深层的共通性和相似性,因此,真正的人工智能应该拥有“举一反三”的能力。这 种举一反三既体现在某一个任务的不同数据集(例如CIFAR、ImageNet、CoCo等)上,更体现在不同的任务(例如文本理解和生成)之间。

迁移学习即是实现上述目标的重要途径。在机器学习领域,迁移学习已经有大量的相关研究工作。在早期,迁移学习关注的是训练数据与测试数 据存在分布偏移的情况。例如,如果现有一个对普通话识别准确率很高的模型,那么这个模型应该也可以只需要相对轻松的训练,就能识别带有口音的方言,而不需要重新标注大量的方言数据。深度学习兴起后,迁移学习在视觉任务之间得到了大量应用。研究者们通常首先在大规模的图像分类数据集ImageNet上训练所谓的骨干模型(backbone model),然后在新的任务(如图像分割、物体检测 等)上对骨干网络的参数或者结构进行微调,从而使模型在新的任务上加速收敛并且达到较好的泛化 效果。虽然这类方法在特定的情况下确实展示了很好的效果,但对其深层次的理解仍然比较匮乏。有研究表明,在卷积网络中真正具有可迁移的部分依然只是非常底层的滤波器,并没有包含高层复杂的 语义特征。最近Open AI公开的 GPT-3 模型在自然语言处理任务上优异的可迁移性,似乎让人们看到了在海量无标注数据上训练通用、可迁移模型的可能性。

未来,迁移学习的发展既需要对已有的方法进行深层次的理解与反思,更需要跳出当前单模态数据学习的框架,探索与人类学习更为接近的高效知识迁移机制。当然,人们期待跨度更大、知识载体更丰富的迁移学习,例如将视觉、听觉、文字乃至触觉的信息共同编码成为某种表征,实现跨模态数据间的融合学习与迁移。

(3)在线学习

在目前的很多领域,训练和学习发生于一个 独立而静止的环境,模型在完成收敛和测试之后就不再变化。这种情境一般被称作离线学习(offline learning),意即模型的训练学习过程完全是脱离于前期的数据收集和后期的测试使用的;与之对应的 则是在线学习(online learning),它是一个完全闭环的系统:模型基于目前的参数和架构将预测结果发送给用户,收集用户反馈,并用以更新优化模型,从而完成一个不断接受信息并更新迭代的优化过程。换言之,模型需要动态地接受序列性数据,更新自身,以优化表现。

在线学习是一个非常重要的领域,这不仅是因 为在实际应用中,很多数据都是以流(stream)形式传递的,根本无法将它们全部存储,还因为在很多具体的实用环境中,针对每一个用户小样本数据的动态更新(例如各种电商和互联网APP有针对性地推荐算法)尤为重要。在具体的工业实践中,常用的有贝叶斯在线学习、FTL(Follow The Leader)和 FTRL(Follow The Regularized Leader)等算法。

目前,在线学习在推荐系统等领域取得了巨大的成功,但是也存在很多问题。首先,目前的在线学习算法大多只能处理简单的数据和小规模问题,对于深度神经网络等含有大量参数和不可解释的复杂模型,以及对于图像和声音等冗余性强、复杂度高的数据往往无能为力,其实际应用有较大局限性;其次,在线学习存在较严重的遗忘问题,在学习新知识或拟合新数据的过程中,倾向于很快遗忘曾经学习的内容,这也大大制约了在线学习算法的发展。

(4)多场景学习

多场景学习指的是训练数据中包含了来自多个不同场景的样本,且在学习过程中利用该场景信息 提升任务性能的学习方法。传统迁移学习中的场景 自适应方法通常只实现原场景到目标场景的知识迁 移,而多场景任务学习鼓励多场景之间的双向知识迁移。现有的多场景学习方法大致可以分为两类:场景独立的方法和场景相关的方法。前者在保留不 同场景共有特征或模型的前提下,为每个场景引入 独立的模型参数来刻画场景特定的信息;而后者则在此基础上显式地为不同场景之间的关系建模, 通过事先定义或自适应学习场景之间的相似性,调整或约束特定场景的对应参数。多场景学习在自 然语言处理和计算机视觉中获得了广泛应用,例如用于解决多产品的情感分类、多用户的垃圾邮件过滤、多目标的视觉追踪等。这里的场景分别指不 同产品、不同用户以及不同追踪目标。

虽然多场景学习在多个应用场景中展现出了有效性,但还有一系列问题亟须解决:(1)在多场景学习中,如何界定场景以及如何评估场景划分的优劣?(2)多场景学习在什么情况下有效,包括:不同场景需要具备什么样的特点?如何利用场景特有的性质?

(5)知识蒸馏

知识蒸馏是模型压缩和加速的经典技术,近年来逐渐成为一种模型跨场景泛化的重要方法。在知识蒸馏中,通常有一个已经训练好的“老师模型”和一个待学习的“学生模型”。老师模型和学 生模型所面向的场景、任务有可能不同,通过老师模型监督指导的方式,使知识从老师模型迁移到学生模型,从而实现模型的跨场景、跨任务泛化。其中,老师模型提供监督指导的知识包括:基于响应的知识(模型输出)、基于特征的知识(模型中间层)和基于关系的知识(不同层及不同样本间的关系)。常见的知识蒸馏算法包括:对抗蒸馏、多老师蒸馏、基于图的蒸馏、注意力蒸馏、量化蒸馏、终身蒸馏等。近年来,基于知识蒸馏的模型学习在许多跨场景应用中取得了一系列进展。

虽然知识蒸馏引起了越来越多研究者的关注,但其仍面临着一系列关键问题亟待突破,包括:(1)由于知识种类的不同,目前的知识蒸馏方法通常会根据特定的知识种类设计特定的模型,缺乏统一的框架 对所有的知识类型建模;(2)知识蒸馏背后的理论 基础仍然比较欠缺,需要进一步探索;(3)作为知识蒸馏中的关键,知识迁移的泛化能力和有效迁移的保证尚待理论探索。

(6)知识推理

知识推理是指在计算机或智能系统中模拟人类的推理方式,依据推理控制策略,利用形式化的知识进行机器思维和求解问题的过程。知识推理最初 大多采用逻辑推理等符号运算方式进行。近年来,随着深度学习技术的快速发展,基于深度神经网络的知识表示和知识推理受到了越来越多的关注。在这样的背景下,陆续出现了不同场景的场景知识图谱。作为一种语义网络,场景知识图谱刻画了场景知识,为场景内的推理任务提供了基础。在场景知识图谱的基础上,研究人员尝试研究具备场景泛化能力的知识推理方法,包括知识图谱的向量化表示、基于翻译的知识推理模型、基于路径的知识推理模 型和图神经网络模型等。同时,作为知识推理的应用,基于知识图谱的问答系统取得了长足发展。

基于知识图谱的推理代表了人工智能符号主义和连接主义的融合发展,体现了第三代人工智能的特点。目前,如何将人的逻辑结构和机器擅长的优化或计算进行有机结合,仍然是一个尚未有效解 决的问题。为此,神经符号计算(neural-symbolic computing)开始成为学术界关注的焦点之一。一方面,研究人员尝试把体现符号计算的知识图谱向量化,变成适合机器计算的表示方式;另一方面,一些研究人员尝试在知识图谱上构建神经网络模型,图神经网络模型在知识推理任务中已经获得了经验性的成功。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.chinaai.com/zixun/6712.html

发表评论

评论列表(0人评论 , 6541人围观)
☹还没有评论,来说两句吧...