当前位置:首页 > 百科 > 正文

人工智能ai合成用什么软件(什么视频软件可以ai配音)

ITDaily & AI 中国

每日最新 IT 圈 AI 圈新鲜事吐槽 给你想看的

原文 | https://towardsdatascience.com/ai-generated-synthetic-media-aka-deepfakes-7c021dea40e1

作者 | Ashish Jaiman 编译 | 亚飞

人工智能ai合成用什么软件(什么视频软件可以ai配音)  第1张

人工智能(AI)和云计算的进步,使得音频、视频和图像处理技术的复杂性得到了快速、便捷的发展。

综述&介绍

想象一下,在选举前几天,一个候选人的视频被发布,显示他们使用仇恨言论,种族污蔑,以及削弱他们作为亲少数族裔的形象。想象一下,一个十几岁的孩子看着一段令人尴尬的露骨视频在社交媒体上传播。想象一下,一个CEO在筹集资金的路上,当一段陈述她对产品的恐惧和焦虑的音频片段被发送给投资人时,毁掉了她成功的机会。

以上所有的场景都是假的、编造的,并不是真实的,但可以通过人工智能生成的合成媒体,也就是所谓的DeepFake[1],使之成为现实。同样的技术,可以让一位因卢伽雷氏病而失声的母亲用合成语音与家人对话,也可以用来生成政治候选人的假演讲,以损害其名誉。同样的技术,可以让老师使用合成视频与学生进行有效的互动,也可以用来制作一个青少年的假视频来损害其声誉。

人工智能(AI)和云计算技术、GPU虚拟机和平台服务的进步,使得音频、视频和图像处理技术的复杂性得到了快速发展。商品化云计算的接入、公共研究的人工智能算法,以及丰富的数据和多样化海量媒体的可用性,为合成媒体的创作民主化创造了一场完美的风暴。这种人工智能生成的合成媒体被称为深层假造。通过社交平台,合成媒体的传播实现了规模化的民主化。

Deepfakes是利用人工智能技术的深度(深度)学习生成的合成媒体(假)。

GAN技术的创新和研究,加上计算的日益普及,使得合成数据的质量以惊人的速度提高。新的工具,其中许多是公开的,可以以越来越可信的方式操纵媒体,例如创建一个公众人物的声音副本或将一个人的脸叠加到另一个人的身体上。GAN和deepfakes已经从研究和学术课题发展到企业创新、娱乐和参与社会活动的实际应用。

Cheapfake是通过简单的常规编辑技术,如加速、减速、剪切等,以及非技术性的操作,如重新编排或重构现有媒体。廉价伪造的一个例子是 "醉酒的佩洛西 "视频[2]。最近,我们看到一些政治广告中使用了重新着色和修饰的手法,这也是一种廉价的假货[3]。

Cheapfakes或Shallowfakes被定义为通过使用更直接的图像和视频编辑技术来传播错误/虚假信息或改变故事的叙事的操纵媒体。

深度伪装的类型

人工智能ai合成用什么软件(什么视频软件可以ai配音)  第2张

Deepfakes已经成为换脸和对口型的代名词。还有很多其他类型的基于人工智能的音频、视频和图像的操作都可以被称为Deepfakes。

换脸

换脸是指一个人的脸被另一个人的脸或另一张脸的关键特征所取代或重构。脸部交换或用滤镜进行操作,几乎是所有社交媒体、视频聊天应用的常见功能。从2014年开始,社交媒体应用Snapchat就有了增强人脸的滤镜。利用人脸检测镜头技术,你可以让自己变老,添加美颜滤镜,或者给自己装上猫耳朵和胡须。这些应用和技术的输出将被定性为AI-Generated合成媒体或deepfakes。大量的免费和付费应用和在线工具让两个人的换脸变得超级简单。开发者可以使用GitHub上的Faceswap和DeepFaceLab的开源代码来创建非常复杂的deepfakes,并在定制代码和训练AI模型方面做出一些努力。

操控术人工智能ai合成用什么软件(什么视频软件可以ai配音)  第3张

操控术是用人工智能渲染操纵的全身动作和行为。它是一种在视频中创建目标脸部和身体的3D模型来作为木偶人的行为和说的技术。它也被称为全身深度假动作。2018年8月,加州大学伯克利分校发表了一篇名为《Everybody Dance Now》的论文[4]。这是研究人工智能如何将专业舞者的动作转移到业余爱好者的身上。日本人工智能公司Data Grid创造了一个AI引擎,可以自动生成广告和时尚的虚拟模型。

唇语同步人工智能ai合成用什么软件(什么视频软件可以ai配音)  第4张

唇语同步是一种渲染嘴部动作和面部表情的技术,让目标人物用声音和正确的语气和音调说事情。AI算法可以将一个人说话的现有视频,改变视频中的唇部动作,以匹配新的音频。这些音频可能是断章取义的旧讲话,也可能是模仿者说话或合成的讲话。演员和导演乔丹-皮尔就用这种技术制作了奥巴马的病毒视频。

语音克隆

人工智能ai合成用什么软件(什么视频软件可以ai配音)  第5张

Voice Coning是一种深度学习的算法,它可以接收个人的语音记录,生成与原声过分相似的合成语音。它是一种创建个人的自定义语音字库,然后用字库来生成语音的技术。开发合成语音的应用和云服务有很多,微软定制语音、Lyrebird AI、iSpeech和VOCALiD,个人和企业都可以使用这样的技术来提高自己的机构。

图像合成

图像生成或图像合成是一种利用计算机视觉技术、深度学习和生成式对抗网络(GANs)来合成新图像的技术。它可以生成计算机生成的人或任何非真实物体的图像。英伟达的一个团队用从Flickr上提取的人脸图片训练了一台计算机,创建了网站ThisPersonDoesnotExist.com。在网站ThisXDoesnotExist.com上还有其他例子。

文本生成

文本生成是利用人工智能技术进行文本和深度学习,自动生成文本,写故事、散文和诗歌,创建长文档的摘要,以及综合的方法。使用RNN(循环神经网络)和现在的GANs,文本生成有很多实际的使用案例。文本生成可以帮助行业中新的自动化新闻或机器人新闻工作。OpenAI的GPT-3可以生成任何文本,包括吉他标签或计算机代码。

正面使用

技术能够增强人们的能力,是一个很好的推动力。技术可以让人们有话语权,有目标,有能力大规模、快速地产生影响。由于数据科学和人工智能的进步,出现了新的赋能理念和能力。人工智能合成媒体有很多积极的应用案例。技术可以为所有人创造可能性和机会,不管他们是谁,也不管他们如何听、如何说、如何沟通。深假技术的进步在某些领域有明显的好处,比如无障碍、教育、电影制作、刑事取证和艺术表达。[我将在以后的文章中探讨积极的使用案例]。

恶意使用

与任何新技术一样,邪恶的行为者会利用这种创新并为他们的利益服务。GAN和Deepfakes已经不仅仅是研究课题或工程玩具。从一个创新的研究概念开始,现在它们可以作为一种通信武器使用。Deepfakes正变得容易创造,甚至更容易在政策和立法真空中传播。

Deepfakes使编造媒体--换脸、对口型和木偶人--成为可能,大多数情况下,无需同意,并给心理安全、政治稳定和商业干扰带来威胁。深度造假可以用来损害名誉、捏造证据、欺骗公众、破坏对民主体制的信任。近两年,利用生成式人工智能模型创建的合成数据被恶意使用的可能性开始引起人们的警惕。该技术现在已经发展到可能被武器化,对个人、社会、机构和民主制度进行破坏和伤害。Deepfakes可以促进事实相对主义,并使专制领导人得以发展。Deepfakes不仅会造成伤害,还将进一步侵蚀人们对媒体已经下降的信任。它还可以帮助公众人物将自己的不道德行为隐藏在Deepfakes和假新闻的面纱中,将他们的实际危害行为称为虚假行为,也就是所谓的骗子红利。

非国家行为者,如叛乱组织和恐怖组织,可以利用Deepfakes来代表他们的对手发表煽动性言论或从事挑衅性行动,以煽动人们的反国家情绪。例如,一个恐怖组织可以很容易地制作一个假视频,显示士兵对宗教场所的不敬,以点燃现有的反国家情绪,造成进一步的不和谐。国家可以使用类似的策略来传播针对少数族裔社区或另一个国家的计算宣传,例如,一个假视频显示一个警察高喊反宗教的污言秽语,或者一个政治活动家呼吁暴力。所有这些都可以用较少的资源、互联网规模和速度来实现,甚至可以通过微目标来激发支持。

[我将在今后的文章中探讨深层伪装的负面使用案例和危害]

反制措施

为了捍卫真相和保障言论自由,我们需要采取多利益攸关方和多模式的方法。任何减轻恶意深层造假的社会负面影响的对策,其主要目标必须是双重的。其一,减少恶意深层造假的风险,其二,将其可能造成的损失降到最低。

恶意深造的有效对策可分为立法行动与法规、平台政策与治理、技术干预和媒介素养四大类。

笔者将在以后的文章中探讨有效的对策。

参考来源:

[1] https://papers.ssrn.com/abstract_id=3213954

[2] https://slate.com/technology/2019/06/drunk-pelosi-deepfakes-cheapfakes-artificial-intelligence-disinformation.html

[3] https://www.msn.com/en-us/news/politics/lindsey-graham-campaign-ad-features-image-of-opponent-with-digitally-altered-darker-skin-tone/ar-BB17itff?ocid=msedgntp

[4] https://arxiv.org/pdf/1808.07371.pdf