首页 资讯正文

语音识别技术发展史与行业最佳实践全解析

人工智能技术的探索征程里,语音语义识别技术一直扮演着先驱的角色,不管是在技术探索还是商业落地方面都走在了前面。近两年来随着深度学习技术的进一步深入,其识别准确率更是得以大大提升。为教育、客服、电信等传统行业的产业升级带来了一大助力,在车载、家居、医疗、智能硬件等领域又开辟出了新的商业应用探索实践。

语音语义技术目前发展到了哪个阶段?NLP技术在企业日常业务中能发挥怎样的作用?在十亿级别日活的微信端有何应用案例?在腾讯云海量客户场景下又为企业带来了怎样的助力?9月13日,TVP AI技术闭门会语音语义专题遍邀行业大咖,为行业找寻更多解题思路。

微信语音识别理论和实践

语音识别技术发展史与行业最佳实践全解析

语音识别技术的落地过程中,微信是探索得比较深入的一个代表。现在的微信不仅可以非常方便地将语音转换为文字,甚至可以识别出语音中蕴含的情绪,在转化出的文字中用贴切的emoji表情表达情感。

微信智聆语音技术负责人卢鲤老师向与会者介绍了语音识别技术的发展历程,他表示如果我们想更客观地判断一项技术的今天和明天,回顾其发展历程是很有必要的。

语音识别发展历史回顾

语音识别技术的研究早在上世纪5、60年代就已经开始了,传统语音识别使用Hybrid框架,该系统具备一个明显的层次结构,包括声学模型、词典、语言模型三个部分。对传统Hybrid系统而言,声学模型是其中非常重要的部分,后续技术的诸多改进也是面向声学模型进行的。

语音识别技术发展史与行业最佳实践全解析

2009年以后,语音识别技术迎来了一次较大的发展。业界主流的观点认为这是因为语音识别技术搭上了深度学习发展的快车,卢鲤老师表示这是其中一个重要原因,但不是唯一原因。这个过程中,GPU等硬件设施的发展提供了基础,互联网尤其移动互联网的飞速发展带来更多的场景,使得语音识别技术从实验室到广泛民用市场。

语音识别技术发展史与行业最佳实践全解析

在语音识别技术的发展过程中,卢鲤老师重点介绍了DNN、TDNN、LSTM以及Transformer等模型的发展以及对性能带来的提升。从2014年以后,部分科学家开始在Hybrid系统以外尝试端到端的系统,相比前者,该系统输入语音,输出的就变成了文字。

语音识别技术发展史与行业最佳实践全解析

“语音识别技术领域没有完美的系统。Hybrid系统使用灵活,但整体拟合能力不如端到端系统;端到端系统数据整体建模能力强,但灵活度不及Hybrid系统。”

微信智聆平台

“微信智聆平台起步于2011年底,直到2017年才给自己取了个品牌的名字。当时是觉得效果做得不好,用户想吐槽的时候也没有具体对象。”卢鲤老师开玩笑着介绍了微信智聆平台的发展史,这个腾讯自主研发的语音技术平台,截至目前已经在C端、B端、G端等多个领域落地近百个产品,日请求量超30亿。在独立第三方机构SpeechIO的测试报告中名列前茅。

语音识别技术发展史与行业最佳实践全解析

微信智聆平台是目前在大规模提供服务的厂家中处于最好的几家之一,卢鲤老师介绍了微信智聆平台在性能提升方面所做的一些工作。

首先是TLCBLSTM网络。LSTM网络结构的主要形式有两种,一种是单向,一种是双向。一般情况下,双向LSTM性能比单向的要高出10%左右,但双向LSTM却有着无法用在流式场景下的局限。TLCBLSTM就是一种既可以把LSTM用在流式场景下,同时又能保持双向10%性能优势的解决方案。

语音识别技术发展史与行业最佳实践全解析

在LSTM以外,微信智聆平台还实现了Transformer的网络结构。目前该系统的开发正在有序进行中,卢鲤老师指出这种Transformer的结构可以有效利用运行的并行性,无损地应用在流式系统中。

语音识别技术发展史与行业最佳实践全解析

除了对网络结构的改进以外,语音识别还有一个很重要的问题就是鲁棒性。影响鲁棒性的因素一般有录音设备、环境影响、原始录音的信号处理等几类。为此,微信智聆平台通过SpecAgument技术,强迫网络学习这类糟糕的数据,增强网络适应性。另外还收集了上百种不同的噪声以及房间混响,加入到原始信号去模拟不同场景,以及利用混合频带训练等方式,加强语音识别的鲁棒性。

最后,在系统层面,智聆平台也做了Hybrid和端到端的系统结构,同时在实验室场景下针对二者的互补性做了一些相关的测试,具体见下图。

语音识别技术发展史与行业最佳实践全解析

面向应用场景

训练好模型、做好系统仅仅只是万里长征的第一步,卢鲤老师以智聆平台为例分享了他认为在实用中需要考虑的点。

第一,对语音识别的前端考虑。不同的场景对体验的要求不同,对前端的配置和要求也就不尽相同,也基于此可能造成识别的损失。

第二,在线学习之难。通用的语音识别器无法覆盖所有场景,千万条句子和关键词的在线学习对算法也有很高要求。

第三,方言识别之难。国内方言种类多、某一类方言下的子类彼此不相通,用户到底需要什么样的方言识别也仍旧是个问题。

分享结束后,卢鲤老师在QA环节和观众讨论区都针对用户关注的技术、细节的问题做了细致的回复,此处限于篇幅不再赘述。

腾讯云AI语音语义助力企业发展

语音识别技术发展史与行业最佳实践全解析

腾讯云AI语音语义与应用平台产品中心总经理周超向与会者汇报了腾讯云在AI落地过程中的实践与思考,他表示腾讯云未来将向业界提供深入各行业的全AI能力解决方案。

企业AI需求盘点

根据目前业界对企业AI能力需求的调查报告显示,计算机视觉目前是最受关注的企业AI能力,紧随其后的就是智能语音技术、自然语言处理技术的份额。在对AI技术趋势发展做分类,从技术的触发期、期望膨胀期、泡沫破灭期、启蒙爬升期、再到高原期的曲线可以很清晰地看出各AI技术所处的发展位置。

语音识别技术发展史与行业最佳实践全解析

企业选择部署AI的原因,最主要的3大构成是降低成本、提升效率、创新业务。在IDC 2019年中国人工智能白皮书中显示,目前企业采纳AI后能对业务效能有优秀的提升的占比不高,AI落地企业的效果有较大的提升空间。

语音识别技术发展史与行业最佳实践全解析

今年以来,疫情影响推动了AI落地的应用,腾讯云在疫情期间协助抗疫所广泛采用的AI能力让人们看到了AI的强大。在此期间,企业营业受到极大影响,线上化、数字化的趋势在加速,在后疫情时代,出于降本增效的目的,线上线下结合的实践也会带来更多对AI能力的需求。与此同时,人工智能作为国家的新基建战略7大领域中的重要组成部分,为企业应用人工智能带来了更大的想象空间。

腾讯云将企业部署AI面临的困境总结为两大挑战、三大问题:碎片化和场景化的挑战;行业知识的门槛、行业数据转换成AI所需语料的挑战、业务改造的成本的问题。在这样的背景之下,腾讯云希望向客户提供效果好、门槛低、场景化/个性化的AI能力特质,助力企业发展。

腾讯云AI产品

目前腾讯云AI语音语义产品架构从基础层到产品方案层分为:产品运营平台、基础模型服务、应用Paas服务和应用产品方案四个部分。在每个产品方向上,腾讯云AI都提供了详尽的AI能力,企业可以基于自己的业务场景,选择基础模型服务、应用PaaS服务、应用产品方案等不同层次的产品,降低企业应用AI能力的门槛。

语音识别技术发展史与行业最佳实践全解析

在企业客户的落地过程中,腾讯云观察到客户的需求非常全面,除了对语音语义能力的使用以外,还会用到其他相关能力进行结合。腾讯云也提出了一套全AI能力解决方案,在底层会结合包括人脸、车辆、物体识别、图像AI识别、OCR、生物分析、NLP等全AI能力,基于Ti Matrix云智天枢AI应用平台,深入广泛的行业,打造泛政务民生、泛金融、工业、智慧零售、广电传媒、运营商等AI解决方案。

语音识别技术发展史与行业最佳实践全解析

周超老师以协同办公场景为例,介绍了腾讯云基于实时语音、图像处理的线上实时多人音视频会议案例。会议记录是会议的刚需,方便人们对重要的会议内容进行留档并回顾总结。随着深度学习的出现,语音识别技术越来越成熟,会议记录的整理形式也从极其耗费人力成本的人工记录越来越多的被语音识别自动转录所替代。腾讯云语音语义AI提供语音识别、自然语言处理技术,以及说话人分离、文本摘要提取等功能,解决会议记录场景下存在的各种痛点。

除了协同办公场景,腾讯云AI能力在泛娱乐、政务民生、金融和呼叫中心等多个场景下均有非常具有代表性的案例。周超老师表示,腾讯云会继续深入各个行业去输出场景化的解决方案,同时提供完备的AI基础能力输出,满足客户二次开发、定制化的需求。

“腾讯云AI希望建立一个与合作伙伴共赢的AI生态,在产品合作生态方面进行联合探索、联合开发,在市场共赢生态方面希望聚拢更多战略合作伙伴、渠道共享伙伴、认证合作伙伴。一起共建AI新生态,加速AI的落地化,解决碎片化、场景化的难题。”

针对用户提问的小公司缺乏AI技术人才,但AI能力又是刚需,腾讯云如何帮助解决的问题,周超老师也非常细致地做了解答,他表示不管是底层AI能力的开放还是解决方案的需求,都可以通过腾讯云的AI产品予以解决,非常欢迎各位用户去试用。

腾讯云NLP能力在法务领域的应用实践

语音识别技术发展史与行业最佳实践全解析

法大大合同智能化负责人刘谦带来了腾讯云AI能力在法务场景下的应用实践,也是一次非常典型的腾讯云与客户共建AI产品的代表案例。

法务行业现状与痛点

刘谦老师向与会者介绍了法务人群的工作日常,这个场景下从业人员的工作一般分为合同、合规、咨询、部门需求、争议解决五大类别,这其中又以合同占比最大,一般达到日常工作的70%左右。

语音识别技术发展史与行业最佳实践全解析

刘谦老师总结了合同审查的痛点有以下几类:

合同审阅工作量大,响应时间长;

日常合同审核内容重复,效率低;

合同审核标准不统一,易出错;

内控体系难以贯彻执行,风险高;

相对方风险难以评估把控。

合同审查痛点植根于法务行业长期基于人工服务的传统模式。从源头上来说,法务部门属于职能部门而非销售部门,天生事多人少,有限的部门人力预算需要解决的是持续增长的法务风控需求。从过程上来看,需要人工处理大量合同文本,业务需求排队等待,工作量大且重复繁琐,效率低下。从结果上看,响应滞后。一方面是公司业务快速发展变化,另一方面是职能部门的被动跟进,流程没有打通。

在这样的行业现状与痛点之下,法大大选择和腾讯云合作,联合开发AI产品,提供客户价值。

打造联合AI产品

合同审查领域的人工智能早在2016年就一直有很多人在聊,但最近5年来在国内其实没有一个特别好的产品实例。要么是底层能力的缺失,要么是对行业的理解不够,而在技术层面上还面临着三大核心难题亟待解决。

首先是数据样本非常有限。从2013年最高法的裁判文书网上线以来,陆续被公开的裁判文书有一亿多份。看似样本量很大,但细分在刑法、民法等大类及其下的各个小类之后,可能每个类别数量平均下来不过数千甚至数百份。这在AI的训练集里只能算小样本数。

其次是合同样本差异非常大。对合同数据来说,因为行业、业务类型、每个客户的不同特点,甚至包括一些客户有意或者无意的不规范操作,导致每一类合同,不同场景之间的差异都非常大。

最后是法务审核要求非常准确,精准识别只是前提条件,召回率、准确率都必须同时做到高标准,否则就会有很大的风控漏洞。

法大大选择与腾讯云合作,在底层采用腾讯云AI的技术支持,同时加上法大大自身在法务行业的多年积累,通过连接优图实验室、腾讯云AI语义算法团队与法大大开发团队一起精诚协作,最终打造了这样一款解法务场景燃眉之急的AI产品。具体合作模式如下:

语音识别技术发展史与行业最佳实践全解析

该产品目前已可满足三层合同审阅需求,最终的目的是希望基于业务场景、系统流程和法律Know-how,给参与合同全生命周期的多种角色人群,提供7x24的智能法务合同审核支持。

语音识别技术发展史与行业最佳实践全解析

“目前实际使用中,可以帮助客户提升平均85%的效率,合同审核环节从以前的小时计到现在的六七分钟。一些普通、常见的合同审核甚至已经不再需要法务人力支持,业务人员可以自己审核完成,客户满意度相当高。”

分享最后,刘谦老师也对评论区讨论问题做了精彩的解答,由于篇幅所限,此处不再赘述。

圆桌论道:AI在产业落地中的难与不难

语音识别技术发展史与行业最佳实践全解析

鲍捷:人工智能已经有过多次高潮和低谷,我最早接触人工智能是在1998年,当时是针对医疗影像的应用。后来也在法务、国防等领域有过从业经历,可以说人工智能传统四大领域的医疗、法务、政府、金融我都有过涉及。我个人目前在做金融方向的AI应用,也非常看好金融这个领域。在人工智能的各个落地方向上,其实有一些共同的特性,核心就是三个方面:一个是数据必须有边界,第二个是业务必须有边界,第三个是一旦出错是否会导致不可逆的后果。因此在人工智能落地的方向上也可以按照这几个维度去套用检测,L5级别的自动驾驶在我看来就不是一个值得追求的方向,因为它的三大要素都不具备。但在金融、医疗、工业、政务等方向却是值得探索的,我个人认为目前凡是跟流程自动化有关的工作,其实都是值得去探索的方向,这是我的考虑。

语音识别技术发展史与行业最佳实践全解析

徐增林:学术界对人工智能的关注可能与工业界不同,我们所关注的技术未必在当下就能推向落地,但却有非常大的研究价值,例如我们研究的认知启发的神经网络和量子启发的神经网络是解决当前深度学习对大数据和海量计算资源依赖问题的重要途径。我比较赞同鲍捷老师关于AI边界的观点,AI落地确实要抓好赛道和场景。技术层面上,因为现在是基于5G和互联网基础设施(包括边缘计算和云计算),再加上人工智能+增强现实算法的结合,技术上可能会有一定的突破。如果让我预测一个未来AI爆款产品的领域,我个人认为可能会出现在医疗健康领域,未来的AI会越来越懂医生,医生会慢慢的AI化。

周超:腾讯云AI帮助各类企业做业务的落地,首先关注的是AI入场以后可以帮助企业降低成本,第二关注AI的替换可以提高企业效率,第三这个替换本身就是具备创新性的。在这个原则判断下,目前腾讯云的AI已经在多个行业,包括医疗、教育、政务、文旅、金融、能源等行业企业中深度落地。腾讯云所提供的全AI能力的解决方案都是可以做一个应用和落地去改善行业、企业的业务流程。在这个过程中腾讯云不会做到面面俱到,而是会以提供开放的基础能力以及与合作伙伴深度共建的方式共同探索。

卢鲤:个人认为语音识别技术还远未到非常成熟的地步,单纯准确率数字目前来说本身没有太大意义。这背后的逻辑其实就两个原因,第一无法覆盖全部场景,第二无法覆盖所有人群。使用场景、使用人群、地域口音方言等因素综合影响下,语音识别技术还有很长的路要走。我们未来努力的方向也就是覆盖更多的场景,覆盖更多的人群,让更多的场景、更多的人都能很方便的使用语音识别这个技术来提高效率。

刘谦:法大大在做AI产品落地的过程中,首先考虑的产品规划就是围绕合同展开的,在想明白这个产品逻辑和实际痛点以后延伸开去,发现用户的需求又不断处于变化中,从简单的电子合同签署到管理诉求再到分析诉求,这样反过来也给我们的产品发展规划带来了益处,因为我们找到了真实的客户价值所在。和腾讯云的合作给了我们非常强的模型调优能力和数据处理的准确性,大大提升了产品效果,客户也十分信任。这对法务、业务和公司都是一个多方共赢的局面。

在圆桌讨论环节,几位嘉宾还就AI创业方向选择、学术研究方向等议题做了精彩的论述。本场闭门会主持人腾讯云AI语音语义与应用平台产品中心专家产品经理王天也给出了自己对AI落地的未来趋势判断:

语音识别技术发展史与行业最佳实践全解析

结语

人工智能寻觅了60年的价值,要从实践中追寻。

TVP组织的这次AI技术闭门会,以计算机视觉、AI语音语义2大热门技术风口为话题,为业界输出了6小时无保留的经验分享,邀请12位学术界、工业界从业大咖论道技术与商业趋势,只为穷尽AI技术跨过概念鸿沟走向落地的那些可能。

在这场技术交流与商业思维碰撞的盛宴上,我们看到了计算机视觉的全新应用,看到了AI语音语义的发展脉络,看到了从灵感迸发到产品落地的创业故事,也看到了死磕技术永不言败的探索精神。

时代赋予技术以风口,商业赋予技术以舞台,开发者赋予技术的,是无限的可能。

关于TVP技术闭门会

TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云授予云计算领域技术专家的一个奖项。TVP 计划致力打造与行业技术专家的交流平台,构建云计算技术生态,实现“用科技影响世界”的美好愿景。

TVP技术闭门会,是为TVP打造的专属技术闭门研讨会,旨在为大家提供一个开放、平等、知无不言的交流环境,便于 TVP们针对热门技术、前沿科技、技术管理等话题进行深入探讨。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:https://www.chinaai.com/zixun/1096.html

评论