作为语音产品经理,这部分在我们的事情中可能不会涉及到,但是一定要清楚,对付一次语音交互的流程来说,最具寻衅性的部分并不是语音和语义本身,而是“音频旗子暗记处理”。
音频旗子暗记处理的结果,即音频数据的质量,直接影响到终极的语音识别效果。而语音识别的效果,又直接影响到语义理解的结果。这就像一条链,每个环节都紧密相连,缺一不可(没录上人声总不能指望机器无中生有吧)。
每一环到下一环都会导致有效信息的损耗,而我们要做的便是尽可能减少每一个环节的信息损耗。
以是旗子暗记处理环节核心目标便是一个:提高有效声源的接管质量。如何做到呢?第一提高有效声源的质量;第二降落滋扰声源的影响。
对付影响旗子暗记处理的缘故原由,用我们生活中的案例类比👇
1.玩绝地求生如果只戴一只耳机,是不是脚步来源的方向就不愿定了?
2.在卫生间唱歌,在KTV包厢里唱歌和在操场上唱歌自己听的效果是不是完备不一样
3.如果教室上大家都在说话,要听清楚老师讲课的内容是不是很困难?
对应到上面三个例子中“旗子暗记处理”的影响成分紧张是【硬件】、【空间】、【噪音】。现在看看他们分别可以在哪些地方做文章。
一、硬件音源拾取1. 麦克风阵列定向收音
和旗子暗记处理强干系的硬件,紧张是麦克风,一个麦克风很难定位出声音的位置,这里引入一个新的观点,叫“麦克风阵列”,它可以进行”声源定位“,用来确定声源发出的详细方向,乃至是位置(间隔)。一样平常情形下,麦克风数量越多,定“向”的精准度越高。如下图空想汽车麦克风布局图示意,采取四麦克风阵列的办法,这些麦克风的组合在一起共同去完成指定声音的采集,这些采集好的声音,实在便是“旗子暗记处理”的“输入”。
(车厂一样平常采取双麦方案,若支持四音区识别的一样平常采取四麦阵列方案)
2. 麦克风阵列定向抑制
从事理上看,既然多麦方案可以分辨出声源的方向,那我们就可以在这根本之上,增加“定向抑制”的哀求,从而达到,在一个合理角度区域内采集的声音进行增益,对这个区域之外的声音进行抑制。进而可以降落其他区域产生的声音的滋扰。
硬件会影响旗子暗记处理,但公司用谁的麦克风产品,或者开拓什么收音设备不是一个软件产品经理可以影响,并且目前大部分语音公司的根本硬件能力都够用了。以是关于硬件就先这儿。
二、空间降落自身噪音
初中物理讲过声音在传播过程中会涌现反射和混响,简而言之便是声音会在一个空间内不断的反射,并且稠浊其他声音一起反射。比较大,吸音做的比较好的空间可以让人耳分不清原声和反应,但是这些声音是存在,会被麦克风收入影响后续的旗子暗记处理。
举例:车载场景,在导航态和音乐播放态下 用户说:“打开座椅推拿”。
在这个例子中,麦克风采集到的音频包含:
声源原音:“打开座椅推拿”的原声音频,打开座椅推拿”的反应音频N内部噪音:比如车载音乐的音频,导航的播报音频外部噪音:比如车噪,风噪麦克风直接懵掉,这么多声音稠浊在一起,该提取哪一个呢?
这里引入一个新的观点,叫“反应肃清”(AEC),紧张的事情事理便是将由设备所发出的声音,比如车载音乐,导航播报,见告“旗子暗记处理”,这是我自己说的话,麻烦处理掉。
当然,语音助手的回答也会被一起处理,不然就会涌现车载助手说话,然后识别自己的话,再回答自己的话,陷入一个无意义的循环。
补充一下AEC的效果影响成分:音频设备的质量、空间的大小/形状、声源与麦克风的相对位置、背景噪声的影响、AEC算法的繁芜度(常日越繁芜,须要的算力越高,效果越好)
为什么要补充这个,由于车载的场景尤其繁芜,车型,车内空间,车窗,车速,空调,景象等等缘故原由都远影响AEC的效果,每一个AEC的算法都有其最佳的适用范围,以是我们也要知道AEC不是万能的,看到漏网之鱼要知道缘由,并能给出阐明
(拓展一下:AEC虽然好用,但是也不能杜绝所有的反应情形,以是你会创造在车载场景,在语音助手被唤醒后,其他声源的音量都会被主动降落,以此来担保用户说话的清晰度;同时在语义处理阶段,也会有拒识的能力参与,将非用户声源或者用户声源的无意义query过滤掉)
三、噪音降落外部噪音
从语音产品的角度,除了声源之外的所有声音都是噪音,旗子暗记处理的一个主要职责便是降噪,或者叫噪声抑制等。
以车载场景为例,噪音可以分为自身噪音、景象噪音、路况噪音、车速噪音、风速噪音、环境噪音(城市&村落庄)、空调噪音、人声噪音等等。
在这个阶段,旗子暗记处理会通过“噪音抑制技能”来减少这些噪音的影响,紧张包括:
优化噪音抑制的算法(研发)调度麦克风阵列(抑制非声源方向噪音)(硬件)利用深度学习技能演习更好的噪音模型,通过高质量的噪音素材演习提高模型效果(研发+产品)硬件改进(硬件)咱们产品可以做的比如说详细的利用场景,供应高数量高质量该场景下的噪音音频,用于模型演习
四、其他自动增益掌握(AGC)
当检测到用户的声音忽高忽低的时候,通过AGC对较低语音旗子暗记的某些属性进行调度(如音量,腔调,清晰度等)来实现。这可以使语音旗子暗记在 录音质量较差或背景噪声较大的情形下仍旧清晰可辨。
以上均是在旗子暗记处理阶段可能会影响音频质量的成分,我们不用更深入的去理解背后的事理,但是作为PM,要理解这个阶段的影响成分,才能更好的考虑产品的落地效果。
参考:
《智能座舱颠覆传统,蔚来改变出行体验》湘怡聊汽车
《头疼的音频处理》秋歌
《想知道|空想ONE的听声辩位》产品想知道
本文由 @大鱼 原创发布于大家都是产品经理。未经作者容许,禁止转载
题图来自Unsplash,基于CC0协议
该文不雅观点仅代表作者本人,大家都是产品经理平台仅供应信息存储空间做事