当前位置：首页 > 资讯 > 正文

抛弃真实数据集？生成式AI“踢馆”人工智能下半场

woniu
资讯
2022-07-05
7773

前段时间，一款突然“蹿火”的AI自动绘画程序Disco Diffusion，在朋友圈刷屏。

只需输入描述场景的关键词，程序便会自动绘制渲染出对应的图像，效果堪称惊艳。

图：Disco Diffusion绘画作品

值得称道的是，这并非是现实中某幅画作的复刻版，而是完全原创的全新作品。

AI绘画，玩兴大发，新奇之外，其背后的隐藏“发动机”——生成式AI正成为人工智能战事风云的新焦点。

日前，Gartner发布了2022年重要战略技术趋势。其中，生成式人工智能（Generative Artificial Intelligence）位列12项重要战略技术之首，同时也被选入2022年银行和投资服务行业的三大热门技术趋势之一，Venture Beat则在3月20日更为直接指出深度生成模型可以为人工智能提供最有希望的前景。

在最新的“Hype Cycle for Artificial Intelligence，2021”报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

来源：

Gartner Hype Cycle for Artificial Intelligence, 2021

所以，生成式AI是什么？为什么被赋予如此高的期待？

1.AI训练的福音：

合成数据“取代”真实数据？

“因为生成式AI解决了人工智能最为“头疼”的数据问题”。一位人工智能从业者向算力智库表示。

作为“数据驱动型”技术，获取正确的数据是构建强大AI最重要和最具挑战性的部分，但现实是：无“数”可用和采样偏见已成为行业核心瓶颈，这也导致了人工智能普遍存在的“黑盒子”问题——可解释性缺乏和数据歧视。

曾经美国使用的犯罪风险评估算法COMPAS 被证明对黑人犯罪嫌疑人造成歧视，导致白人更多被评为低犯罪风险人群，而黑人更多被评为高犯罪风险人群，这一逻辑让COMPAS 臭名昭著，而其主因则要归咎于采样过程中人为主观因素的掺杂和介入。环环相扣，连锁反应，“数据歧视”带来了“决策歧视”。

不仅是采样偏差问题，在数据可获得性上，也阻碍重重。

比如说科研人员想要训练一辆自动驾驶汽车的计算机视觉模型，往往需要投喂大量完整、干净、正确标注的高质量图像数据，而这些数据（集）却并没有那么容易获得，一是需遵守日益严格苛刻的数据隐私法规，数据共享必须慎之又慎。二是特定任务的模型训练需要特定领域的专业数据，这种专业型有效数据，本身样本就是稀缺的。

既然仰赖真实数据容易处处“碰壁”，麻烦连连，那么是否可以“另辟蹊径”？让AI自己合成数据，自己创造自己，自己进化自己？在这个设想上，生成式AI的出现有望让其成真。

对于生成式AI，Gartner这样定义：通过各种机器学习（ML）方法从数据中学习工件的组件（要素），进而生成全新的、完全原创的、真实的工件（一个产品或物品或任务），这些工件与训练数据保持相似，而不是复制。其关键技术是生成式对抗网络（GAN, Generative Adversarial Network ），在原理上，生成式对抗网络使用两个神经网络相互对立，一个生成器和一个判别器，这两个神经网络都经过交替周期训练，生成器不断学习生成更逼真的数据，判别器则更善于区分假数据和真实数据，双方在对抗中不断完善，最终生成接近于源数据的新数据或内容。

这种“新数据或内容”也即我们所说的“合成数据”，理论上来讲GAN可以创建无限数量的数据样本，这也是其被寄予厚望的重要原因。

合成数据集与真实数据集拥有相同的数学与统计学属性，但不会明确指代真实个体，也可以将其理解为真实数据的一种数字化镜像，能够在统计学层面反映实际情况，在数据稀缺的某些情况下，使用合成数据可以增加（称为数据增强）或改变训练集中的数据量以达到训练目标。如此一来，就意味着可以在完全虚拟的场域中训练AI系统，并且能更轻松地针对医疗保健、零售、金融、运输乃至农业等各类用例实现数据定制。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，尽管目前这一比例还不到 1%，但生成式AI与合成数据的崛起，已是可预见的必然，并且无疑会成为人工智能下半场竞逐的“新前线”，由此掀起的AI 2.0浪潮也在逼近。

2.赛道开“卷”，谁显锋芒？

Forrester Research最近明确将生成式AI及合成数据列为实现“AI 2.0”的必要因素之一，并且认为其能本质上扩展AI的应用可能性，是推动多个领域数字化进程的关键技术，可支撑下一代的自动编程、内容开发、视觉艺术、社交、商业服务、工程设计与流程自动化。

这些以生成式AI为主要驱动力的应用场景，正是目前中国AI数字商业链亟待填补的拼图。

“尽管GAN已诞生六年多，但遗憾的是，目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察，国内知名的人工智能企业（如商汤、云从、旷视、依图等），他们的主要商用场景基本都是人脸识别、语音智能等，以识别与检测为主，可以说生成式AI是国内计算机视觉领域被遗落的‘一方宝藏’ ”。新加入人工智能创业公司ZMO.ai的马里千在公开采访中如是表示。

确然，在前瞻产业研究院《中国AI数字商业展望2021-2025》的报告中也指出，从目前各人工智能技术在落地应用环节的表现来看，生成式AI和组合式AI为代表的人工智能新兴技术最具增长潜力。