首页 百科正文

人工智能方案(生活中人工智能产品)

「AIUI」名词释义

AIUI是科大讯飞最新的人机交互解决方案,融合了远场识别、全双工交互、语音合成、语义理解、私有语义等单点能力,形成了全链路的一体化解决方案。

从传统人机交互到AIUI

人机交互的发展是一个漫长的过程。

从PC时代的键盘+鼠标交互方式,到移动互联时代的多点触摸交互,再到物联网时代语音+视觉的新型交互,人机交互逐渐从以机器为中心交互方式,走向以人为中心的交互方式。

语音交互在这上述的转变起到了重要作用,作为交互方式中最便捷的方式之一,语音交互的发展也备受业内外关注,我们用一张图来了解下语音交互的发展路径:

人工智能方案(生活中人工智能产品)

语音交互从移动互联网时代开始兴起,从一开始出现的具有语音能力的app到现在多模态交互的机器人,语音交互的发展技术也是经过了不断地迭代和更新。

传统人机语音交互的链路环节是先由用户对机器说出需求,机器将用户的语音识别成文字结果,再通过语义理解服务翻译出用户的需求,生成相应的语义协议,最后将生成的语音文本播报出来。

人工智能方案(生活中人工智能产品)

传统语音人机交互链路主要依赖3大核心技术:语音识别、语义理解、语音合成,虽说链路模式没有太大问题,但当时的技术发展不如现在成熟,在实际应用过程中容易受到客观环境的影响。

语音识别率不高、语义理解不对、信息内容不足、系统响应单一…这是传统语音人机交互所面临的主要技术难点。

为了解决这些技术难点,自然人机交互链路在传统的链路基础上增加了语音唤醒系统,同时对3大核心技术进行迭代升级,比如在语音识别技术中增加麦克风阵列和无效拒识技术;在语义理解中增加对话管理和上下文理解、纠错等技术;在语音合成中加入情境和情感分析。

人工智能方案(生活中人工智能产品)

3种不同功能交互的技术原理分析

AIUI的人机交互流程分为感知、认知、处理、表达四部分。

在讲它的技术原理之前,我们先来看个简单的例子:

用户A对着机器说:“我要去北京”,如图所示,语音助手在识别、理解出用户A的意思,会有3种的不同类型的反馈。

人工智能方案(生活中人工智能产品)

这三种反馈在人机交互中都是比较合理的,至于最终采用哪种类型的反馈,还是取决于产品的定位和特性。

了解了三种不同类型的交互反馈,我们来学习下这三种交互中所涉及到的相关技术。

任务完成型的交互理解

任务完成型的交互理解,主要是机器帮助用户解决某些问题,完成相应的任务。

用户B问语音助手:“有没有明天从合肥到北京的航班?”语音助手通过设定好的语义协议框架抓取出这句话中的理解要素:用户意图、用户操作、起点、终点、日期。

借助这些基本理解要素,语音助手便可以将查询结果一一反馈给用户。

这个过程中主要的技术难点就是语义抽取,语义信息单元的抽取一般有2种方式,一是显规则;二是基于深度学习模型的语义抽取。

我们来讲下第二种语义抽取的方式,比如将用户输入的文本“刘德华电影”看成一组序列,每个字都是一个单独的序列,在序列的基础之上机器会做相应的预测,通过深度学习技术建立相应的抽取模型比如RNN或CNN模型,得出每个字符对应的标记。

人工智能方案(生活中人工智能产品)

基于知识图谱的知识问答类型

关于知识图谱,之前我们已经科普过一次,没看过的同学请戳:困于答题游戏无法自拔?AI有一招让你百战百胜!

基于知识图谱的问答类型其实过程并不复杂,用户输入问题文本之后,机器会按照语言学方式去理解分析这个问题,然后再知识图谱种检索相关的知识,同时将语义理解的结果和检索出来的知识做一些推理,最后得出系统答案。

人工智能方案(生活中人工智能产品)

基于问答库的闲聊或问答

闲聊类型的交互过程其实也很简单,机器收到用户所问问题,在相应的问答知识库中计算出相似度较高的几个问答,然后在利用句子语义匹配算法找出最相似的问答,最后输出结果。

这个过程的技术难点是在于如何利用深度学习技术,训练出合适的CNN或RNN模型去计算2个问题之间的相似性。

人工智能方案(生活中人工智能产品)

在闲聊问答过程中,除了在问答库中匹配相似问答之外,还有一种比较常规的是生成式回复。

那在生成式回复中目前比较常用的技术是端到端的翻译模型,也就是Encoder-decoder框架。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.chinaai.com/baike/11623.html

发表评论

评论列表(0人评论 , 6160人围观)
☹还没有评论,来说两句吧...