当前位置:首页 > 资讯 > 正文

抛弃真实数据集?生成式AI“踢馆”人工智能下半场

抛弃真实数据集?生成式AI“踢馆”人工智能下半场  第1张

前段时间,一款突然“蹿火”的AI自动绘画程序Disco Diffusion,在朋友圈刷屏。

只需输入描述场景的关键词,程序便会自动绘制渲染出对应的图像,效果堪称惊艳。

图:Disco Diffusion绘画作品

值得称道的是,这并非是现实中某幅画作的复刻版,而是完全原创的全新作品。

AI绘画,玩兴大发,新奇之外,其背后的隐藏“发动机”——生成式AI正成为人工智能战事风云的新焦点。

日前,Gartner发布了2022年重要战略技术趋势。其中,生成式人工智能(Generative Artificial Intelligence)位列12项重要战略技术之首,同时也被选入2022年银行和投资服务行业的三大热门技术趋势之一,Venture Beat则在3月20日更为直接指出深度生成模型可以为人工智能提供最有希望的前景。

在最新的“Hype Cycle for Artificial Intelligence,2021”报告中,生成式 AI 作为 2-5 年即可成熟的技术出现。

来源:

Gartner Hype Cycle for Artificial Intelligence, 2021

所以,生成式AI是什么?为什么被赋予如此高的期待?

1.AI训练的福音:

合成数据“取代”真实数据?

“因为生成式AI解决了人工智能最为“头疼”的数据问题”。一位人工智能从业者向算力智库表示。

作为“数据驱动型”技术,获取正确的数据是构建强大AI最重要和最具挑战性的部分,但现实是:无“数”可用和采样偏见已成为行业核心瓶颈,这也导致了人工智能普遍存在的“黑盒子”问题——可解释性缺乏和数据歧视。

曾经美国使用的犯罪风险评估算法COMPAS 被证明对黑人犯罪嫌疑人造成歧视,导致白人更多被评为低犯罪风险人群,而黑人更多被评为高犯罪风险人群,这一逻辑让COMPAS 臭名昭著,而其主因则要归咎于采样过程中人为主观因素的掺杂和介入。环环相扣,连锁反应,“数据歧视”带来了“决策歧视”。

不仅是采样偏差问题,在数据可获得性上,也阻碍重重。

比如说科研人员想要训练一辆自动驾驶汽车的计算机视觉模型,往往需要投喂大量完整、干净、正确标注的高质量图像数据,而这些数据(集)却并没有那么容易获得,一是需遵守日益严格苛刻的数据隐私法规,数据共享必须慎之又慎。二是特定任务的模型训练需要特定领域的专业数据,这种专业型有效数据,本身样本就是稀缺的。

既然仰赖真实数据容易处处“碰壁”,麻烦连连,那么是否可以“另辟蹊径”?让AI自己合成数据,自己创造自己,自己进化自己?在这个设想上,生成式AI的出现有望让其成真。

对于生成式AI,Gartner这样定义:通过各种机器学习(ML)方法从数据中学习工件的组件(要素),进而生成全新的、完全原创的、真实的工件(一个产品或物品或任务),这些工件与训练数据保持相似,而不是复制。其关键技术是生成式对抗网络(GAN, Generative Adversarial Network ),在原理上,生成式对抗网络使用两个神经网络相互对立,一个生成器和一个判别器,这两个神经网络都经过交替周期训练,生成器不断学习生成更逼真的数据,判别器则更善于区分假数据和真实数据,双方在对抗中不断完善,最终生成接近于源数据的新数据或内容。

这种“新数据或内容”也即我们所说的“合成数据”,理论上来讲GAN可以创建无限数量的数据样本,这也是其被寄予厚望的重要原因。

合成数据集与真实数据集拥有相同的数学与统计学属性,但不会明确指代真实个体,也可以将其理解为真实数据的一种数字化镜像,能够在统计学层面反映实际情况,在数据稀缺的某些情况下,使用合成数据可以增加(称为数据增强)或改变训练集中的数据量以达到训练目标。如此一来,就意味着可以在完全虚拟的场域中训练AI系统,并且能更轻松地针对医疗保健、零售、金融、运输乃至农业等各类用例实现数据定制。

据 Gartner 预测,预计到 2025 年,生成式 AI 将占所有生成数据的 10%,尽管目前这一比例还不到 1%,但生成式AI与合成数据的崛起,已是可预见的必然,并且无疑会成为人工智能下半场竞逐的“新前线”,由此掀起的AI 2.0浪潮也在逼近。

2.赛道开“卷”,谁显锋芒?

Forrester Research最近明确将生成式AI及合成数据列为实现“AI 2.0”的必要因素之一,并且认为其能本质上扩展AI的应用可能性,是推动多个领域数字化进程的关键技术,可支撑下一代的自动编程、内容开发、视觉艺术、社交、商业服务、工程设计与流程自动化。

这些以生成式AI为主要驱动力的应用场景,正是目前中国AI数字商业链亟待填补的拼图。

“尽管GAN已诞生六年多,但遗憾的是,目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察,国内知名的人工智能企业(如商汤、云从、旷视、依图等),他们的主要商用场景基本都是人脸识别、语音智能等,以识别与检测为主,可以说生成式AI是国内计算机视觉领域被遗落的‘一方宝藏’ ”。新加入人工智能创业公司ZMO.ai的马里千在公开采访中如是表示。

确然,在前瞻产业研究院《中国AI数字商业展望2021-2025》的报告中也指出,从目前各人工智能技术在落地应用环节的表现来看,生成式AI和组合式AI为代表的人工智能新兴技术最具增长潜力。