在最近由百度开拓者中央主理、极客邦科技承办的 74 期百度技能沙龙上,百度理解与交互技能 UNIT 技能卖力人孙珂分享了有关《UNIT:措辞理解与交互技能》的演讲。除他之外,百度 AI 技能生态部高等运营顾问张扬、百度语音技能部架构师李超、百度 AI 技能生态部高等产品经理吴延宇,也分别从语音和语义理解运用实践、远场语音识别方案、百度开放平台利用指南这几个维度,对百度智能交互技能进行全方位解读。
1 UNIT 是什么?能给开拓者带来什么?
在演讲中孙珂首先整体回顾了 AI 是什么。AI 的根本,是希望让机器拥有人的能力。首先,机器能听懂我们在说什么,也能说出我们的话,这便是语音能力;其次,人接管信息时,70% 以上的信息通道都来自于视觉,我们也希望机器同样如此,这便是图像能力;第三层我们不只让机器听懂我们在说什么,还要知道这背后的含义,这便是措辞能力;末了一层,我们希望机器听懂我们的指令后,还能够方案自己的行为:比如自动驾驶中,机器除了能够看到所有路况以外,还能够操作汽车去规避所有路障,这便是行动能力。在这些表层能力之外,内层能力还要包括思考能力、知识能力、学习能力。这是人工智能时期我们希望机器拥有的能力。
既然措辞对付人工智能来说这么主要,我们就期望让措辞技能为人工智能做事,这也是对话即平台观点的核心——我们可以通过自然流畅的措辞形式去掌握智能设备,来表达我们的需求。
对话系统的组成首先便是语音,ASR 要做语音识别,从语音识别到笔墨,这是百度在语音层面做的事情。接着进入 NLP,首先要把笔墨进行措辞理解 (即 NLU),把一段笔墨里面的意图具像化出来,之后把这一段笔墨里边最关键的信息点提炼出来,常日情形下我们做到这一步的时候很多运用可以知足了。
但是我们人类的措辞互换并不是每一句话都会把前面的信息带上,以是须要机器能够把之前的关键信息记录下来,下一次再说就不须要一直重复,这便是对话状态管理;之后,如果想让机器根据对话过程中所网络到的关键信息来决定下一步该当实行什么动作,就须要动作侯选排序模块来处理并选择了;接下要通过措辞天生的模块,利用刚才解析出来的关键信息到数据库里面找到终极信息内容,去实行出终极对用户的反馈。当然,我们现在说的话是笔墨,我们要有 TTS 语音合成能力,这样才能进行语音的展示。
在这样一个业内最常见的对话系统组成架构中,个中的每一个部分都须要相称规模的团队来进行深入的技能研发与积累才能达到可用状态。百度把这些拥有深厚技能秘闻的能力开放出来,其目的便是为了让一个两三个人的创业团队也能够开拓出颠覆某个行业的产品。为什么叫 UNIT?由于百度希望让 UNIT 成为每个产品里面的组件,希望大家直接用这个组件来搭建自己须要的任意智能产品。
在 UNIT 中,百度拥有技能上风、强大的定制化能力以及海量真实的大数据,对付百度而言,其代价在于末了把技能开放出来与大家分享、让开发者把最好的技能嵌入到自己的产品中,由此带来生态的共建。UNIT 的核心技能,紧张包括措辞理解、多轮交互和 NLP 根本剖析技能等方面。
在措辞理解方面,如果对付“今晚六点帮我在全聚德预约一个包间,十个人”这样一句话,如果我们要想理解它,其关键是须要理解它背后的意思。我们的理解模型可以剖析出来它的意图是要预定餐馆。除此之外,它里面有关键信息,比如餐厅是“全聚德”,韶光是“6 点”,人数是“10 人”等等,这些信息都是需求理解所须要完成的事情。但理解并不是对话系统的全部,与之合营的交互也非常主要。
例如,信息的影象与利用是一种交互,要把对话中的关键信息记住并应时地运用于对话过程中;除此之外,大概用户一开始并没有见告系统所有的关键信息,这时候须要对话系统能够主动讯问出来;其余系统帮用户做完一件事情之后,可能还会按照关联场景推举其他的关联需求。这些整体组成了面向意图和词槽的理解与交互所能供应的能力。
这只是对外供应接口时候的一个全貌,背后 UNIT 供应了更多的定制化能力,分别是领域知识的定制化、交互逻辑的定制化、模型演习的定制化。
进一步的,对付开拓者而言,更关心的可能是 UNIT 的整体框架。UNIT 在学习模块部分供应了浩瀚定制与学习能力,包括快速生效、持续优化、预置能力、对话逻辑四大部分。通过学习模块,开拓者可以自行定义舆图、场景、词槽,并供应一定量演习样本,并终极通过这个模块学习出自己的对话模型。接下来 UNIT 会把模型推送到在线做事模块中。在这里,在线做事模块会整体理解用户确当前需求与历史状态,完成意图和词槽的解析事情。之后,解析结果会被传入到对话管理部分去进行对话状态更新和实行动作决策,并最终生产出对用户的回应。
目前 UNIT 供应的系统词槽识别能力有 20 多种,与之搭配的是词槽灵巧的组装能力。除此之外还有十几个预置的对话场景,比如景象、商超、舆图、外卖等,百度很快会把这些场景开放给第三方利用。除此之外还有一些基于海量用户数据的演习数据扩展能力,并在个中整合了主动学习能力。
基于一个传统的双向 GRNN 和 CRF 的意图识别网络,UNIT 进一步增强了对知识的整合能力。领悟了知识的理解模型可以帮助开拓者用更少的语料得到更好的理解模型,减轻开拓者的数据标注本钱。
刚才大家可能在视频里边也看到了零门槛的演习师模式——开拓者定制一个任务机器人,用来与用户进行互换。但是 UNIT 在这个中增加了响运用户反馈的逻辑,努力让对话变得更顺畅,让用户更轻松地纠正任务机器人的缺点。同时也让机器完成了对缺点的学习,随时随地去消灭一些缺点,一次缺点就会被记住并被纠正。
除此之外,我们还须要根据自己的业务流程来管理对话单元之间的跳转逻辑,以便让用户能够通过对话系统更流畅更场景化地达成自己的任务。例如,对话单元与对话单元之间,对话单元与问答单元之间,都可以通过定制规则进行串联与勾引。同时,UNIT 的对话管理也可以很轻松的完成意图切换、意图澄清、词槽切换、词槽澄清等对话功能。所有的对话流程管理,都被梳理为衔接规则,开拓者可以自行通过多种规则与手段完成对话逻辑的定制。
2 从百度语音及 UNIT 运用案例 看背后的技能打破
张扬的分享侧重在浩瀚语音交互及 UNIT 运用案例的展示。第一个场景是语音导航探求清华大学西门的一个实际运用处景,是一个比较范例的人机交互场景,是为百度舆图开拓的一个语音交互运用。通过语音能够做出一些语音指令、语音交互,它的背后是怎么实现的呢?背后经由了四步。第一步语音唤醒,呼叫“小度小度”,让机器设备知道这个话是你对它说的;第二步语音识别,便是把语音转成笔墨;第三步便是 UNIT 平台,这是一个语音交互的开放对话配置平台;第四步将配置好的指令或者对话结果通过语音合成把它说出来。经由这四步往后,就跟两个人之间说话是一样的,有问有答。
现在百度支持十个唤醒词,个中三个是可以自定义的,在 AI.BAIDU.COM 平台上,有一个唤醒词测试,开拓者在确定唤醒词的时候,可以在平台上进行测试。
语音识别便是把语音变成笔墨,分为短语音和长语音,短语音最大支持 60 秒,现在支持中文、英文、广东话、四川话。如果是天津话、东北话,正凡人不经由演习也能听懂,这是口音,口音用标准的普通话版本端口就能够识别。在比较安静的环境下,比较正常的语速,比较标准的普通话识别准确率已经能够达到 97%。长语音现在支持没有限时,没有韶光限定。
现在的语音合成已经不像早期科幻片那样,像机器说话一样,而是已经非常靠近人声,目前支持四种音色,普通女声、普通男声、情绪合成 - 度逍遥、情绪童声 - 度丫丫,支持中英混读办法,还有离在线稠浊办法。
从有线电视的运用案例展示中,我们可以看到个顶用到了语音、UNIT 以及其他一些人工智能端口。通过语音加上 UNIT 这两个端口,创造出非常有趣的一个运用处景——它在摇控器上集成一个麦克风,通过语音办法进行一些很便捷的操作,而且还能创造出一些原来在摇控器上所实现不了的新功能,比如查询演员是谁。如果是综合端口,可运用的场景就更多了,智能家居便是语音加 UNIT;商业机器人、智能客服、语音翻译是语音加上百度翻译。
3 如何破解远场语音识别难度
在当前这场人工智能和物联网的浪潮里,语音识别又一次被推到了风口浪尖。而语音识别技能也在这场潮流中发生着变革,在李超看来,现在变革的方向便是远场语音交互。大家会创造市情上大量的公司都在做智能交互设备,有做智好手表的,还有做智能音箱、智能电视、智能电冰箱、智能空调的。但是这些设备有多智能呢?大部分实在只是加上了语音掌握,好一点,有语音唤醒和命令词,最牛的是可以完针言音交互的全链条,像本日讲的 speech + UNIT, 还有 DUEROS, ALEX。
远场的语音交互是个大系统,李超聚焦在远场的语音识别技能和解决方案。远场的语音识别有什么难度呢?当麦克风和说话人的间隔足够远的时候,语音识别就要考虑全体空间的声学特性。就像演讲的会议室,这里面有空调、净化器、风扇的噪声,有感兴趣的说话人,同时会有其他滋扰说话人在窃窃密语,房间里的扬声器发出的声音会再次传到麦克风形成混响,地板墙壁天花板会产生反应。这些所有的成分构成了我们所属的 3D 声学空间,要从噪声、混响、反应、滋扰声中把感兴趣的声音提取出来,并顺利的识别成笔墨。相对付传统的 20cm 旁边的近场语音识别,远场语音识别须要更前辈的旗子暗记处理前段算法,泛化能力更强的后端神经网络模型,而这些正是百度语音技能部现在努力在做的事情。
这是百度远场语音系统的整体框架。首先,多个麦克风采集到声音旗子暗记,连同当前扬声器正在播放的声音的参考旗子暗记一起传给 AEC 模块,进行混响肃清。然后是一个实时的声源定位模块,定位当前主声源的位置。同事 AEC 会输出一起旗子暗记进行后处理增强后传给唤醒模块,唤醒就像一个开关,它掌握着后面的链路是否启动。当唤醒成功往后,多路旗子暗记和位置信息会传给 beamformer,得到一起空间滤波后的语音,经由后处理送到 ASR 模块。全体的前端旗子暗记处理,百度语音技能部有专门的一个团队进行算法研究和硬件设计。
下图是一个端到真个办理方案。Google home 提出来,我们正在跟进,这是继 CTC 之后,语音识别声学模型的又一个划时期的技能,把前端和后端打通,领悟在一个深度神经网络里面。除了技能的高大上,实在这是一个更适宜工业界的方案,2 个 mic 就可以和 6mic 一样的识别率,不再须要旗子暗记处理芯片进行繁芜的 beamorming 和后处理,直接发送到远端,让高性能的做事器打算,更低的端上本钱,广泛的适用性。我们相信这是语音识别技能的未来,百度也在积极的朝着这个方向提高。
远场语音交互由于受限于设备的通用性,现在还没有一个比较通用的示范性比较强的模型供应给开拓者。
4 AI.BAIDU.COM:你要的它都供应
吴延宇的分享侧重在先容 AI.BAIDU.COM 平台的威力。刚才有一位朋友说他想做机器人,能不能用 UNIT 直接来做,实在机器人的视觉理解、语音理解…所有的技能在百度 AI 平台(AI.BAIDU.COM)上都有,你怎么玩都可以自己去拿。我们分为图像技能、自然措辞技能、语音技能、视频技能、知识图谱、数据智能、增强现实、深度学习等多个维度。
这些所有的技能,只要放到导航栏上,在我们的平台现在都可以利用。同时我们还包装一些办理方案,例如在比较火的人脸上,商用比较多的人脸核身方案——会场签到。包括像机器人视觉、呼叫中央等等,这些办理方案现在都可以对外开放。不过由于全体办理方案比较繁芜,不能说给你一个产品立时就能用,须要集成,根据你的业务场景思考怎么跟业务结合。
我们在平台上供应了很多开拓支持,比如 API、SDK、参考代码、示例、配置系统等等,此外还包括人工的咨询解答。其余我们也供应一系列的管理功能,包括运用管理、个性配置、调用统计、工单系统、计费系统等等。
我们的官网供应了很多 SDK,包含客户端和做事端,在 SDK 下载页,供应所有方向的 SDK 下载。这里边包含做事端,也包含客户端,也包含语音开拓包,便是给你集成好的模块包。首先你要下载 SDK 文件,这个时候拿到还不能用,要进行授权。人脸识别比较分外,人脸识别把人脸的活体算法离线写到了 SDK 里面,不须要联网要求,以是人脸的 SDK 必须完成认证,先完成一个资质审核。
在概览页的时候,像现在已经开通付费的笔墨识别、人脸识别,在概览页的时候每个接口都可以独立单独开通付费,开通付费之后可以在里面选择你要开通详细的接口,不开通付费的话接口每天送你调用次数供你做测试,每个人账号每天都会免费送,而且往后只会扩大免费量。