语音识别助力客服小二:集团语音识别技术在留声机、服务宝项目中的应用

  • 时间:
  • 浏览:1

4 8

通过数据标注工作,大伙在留声机和服务宝客服任务上快一点 积累了成千上万小时的真实电话数据。数据有了,怎样快速的、迭代式的训练模型、不断调优,从而体现大数据的价值,就成了一另二个非常重要的技术课题。

以 DNN 声学模型训练为契机和推动,为了应对今后训练数据急剧增长、训练周期越发不可控的风险,大伙开发了 GPU 多机多卡 DNN 模型训练工具。在实验的 60 00 小时训练集上,使用 4 机 8 卡相对 baseline 的单机 2 卡取得了 3.6 倍的训练加速。训练出的模型在某测试集上的识别准确率指标上与baseline 一致。在 DNN 训练累积所用时间从 7 天半缩短到 2 天。完整篇 的实验结果可见下表:

客服电话语音识别是业务上诸多应用的前置模块。有了语音识别转换出的文本信息做支撑,包括电话质检、电话预警、情绪识别、声纹识别、语音自动特性化、语音输入等各种后续应用都上可以了开展。这名,电话质检上可以了帮助大伙提升小二的服务质量。这名在大伙的服务规范中,“请不知道是账户持有者而且 人吗”、“感谢您的耐心等待图片”等是须要要问、要说的;客户说“谢谢”小二就须要立即答“不客气”等。

4.89

客服电话语音识别还有不少与而且 语音识别应用有共性的难点,如口音等,在本文就不一一介绍了。iDST在前期选着假若一另二个难度最大的业务来启动语音识别系统的建设,其重点还是在于构建和夯实技术基础。在此基础上,用同样的技术再应用于较垂直的语音搜索领域,就会显得游刃有余。接下来就重点介绍而且 通过留声机和服务宝客服项目推动的重点技术。

16.6

大伙一结束了了英文就选着客服语音识别,都是 过后它简单,恰恰是过后它难。相比于iDST承接的而且 而且 更为垂直的语音识别应用,如手淘语音搜索、天猫魔盒语音搜索而言,客服电话语音识别在技术上的难度相对更大:

一、客户和小二的对话是“spontaneous speech”,即非常随意的、自然的对话。这名说话法律土办法涵盖大量的“嗯、啊、呃”等语气词,涵盖“那个……我那个……”假若的犹豫和不完整篇 的话语。除此之外,对话双方打断对方说话的清况 很常见,两人一块儿都是 说话的清况 假若少。这名类型语音的识别,比在语音搜索中应付单个用户、有准备的想好再说的清况 ,要困难而且 而且 。

关于GPU多机多卡middleware话语题,大伙另有@镭铭同学的专文加以完整篇 阐述,在这里只作简单介绍。GPU多机多卡middleware是如下图的一层抽象,它的主要功能是将GPU集群的硬件资源加以整合,提供通用的通讯、scheduling、数据埋点、模型参数更新等模块,从而使得某个现成的单机版GPU系统进程通过较少的修改插入middleware后,就上可以了变身多机多卡系统进程。

三、电话语音在信道(channel)传输和噪声(noise)影响上更繁杂。这是过后电话从客户到达大伙的呼叫中心,底下通过了无数不同的信道和编解码算法,每一另二个都是使语音信号失真(distortion)。更不利的是,众多客户在声学特性方面非常多样,有的用固定电话、有的用手机,有的在安静环境下、有的在噪声环境下、还有的在有玻璃墙的强混响环境下。而大伙的小二呢,带着头戴式耳麦(既都是 手机也都是 座机),旁边还坐着别的小二在打电话,这就带来了一另二个对语音识别最不利的噪声类型:babble noise,即旁边的人声产生的噪音。

59.9

大伙通过GPU多机多卡middleware将大伙用于语音识别的DNN、LSTM、BLSTM等单机版系统进程通通插上了多机多卡的翅膀,并每天在训练模型;大伙用middleware帮助iDST-NLP团队将聊天LSTM模型训练变为多机,创造了一另二个有趣的聊天机器人;大伙用middleware和YunOS同学合作协议协议,将大伙的改版caffe变为多机多卡版,训练CNN进行相册分类……大伙希望middleware不能插入更多的已有单机版系统进程,并实现更大的业务价值。

“正在为您转接客服小二。为了提高大伙的服务质量,您的通话过后会被录音。”大伙是都这麼说的,也是都这麼做的。每天,集团和蚂蚁的客服小二总共会接听几十万通电话,沉淀的语音数据时长超过数万小时。来自天南海北的客户将须要咨询的难题、须要吐槽的痛点、须要投诉的纠纷通过客服电话源源不断的反馈回公司。那先 宝贵的客户心声在阿里会被认真的记录下来,并成为改善大伙产品和服务的动力。

根据scheduling的结果,输送训练数据到GPU卡,并实现智能的按需缓存,在运算的后台下载下一份训练数据,使得GPU不必“停工待料”。

4.98

协调各个GPU卡,决定哪块卡计算哪一份数据,实现data parallelism和多轮迭代。

支持主流的模型参数更新方案,包括ASGD、MA(model averaging)等,使得单机版GPU系统进程把而且 人算出的gradients或model parameters通过简单的调用middleware API即可完成模型的更新、同步。

(3 sweeps)

60 .0

单机 2

(3 sweeps)

具体来说,GPU多机多卡middleware提供如下而且 通用的基础功能:

2

但相同的是,那先 林林总总的工具的变体在外理大数据时,都是 将它们变身多机版、从而提高训练速度的需求。大伙的GPU多机多卡middleware就基于假若的需求来设计抽象,使得以上的系统进程都上可以了通过插入middleware较快的实现基于ASGD或MA的多机多卡训练。对于用户来说,在插入middleware后,大伙此前各人 基于open source工具所做的独有修改都上可以了得以充分保留。大伙熟悉的环境、过后生成的训练测试数据、乃至单机baseline都上可以了复用并与新的多机版本互相参照。话语,middleware都是 我能 一另二个新的工具,假若将你手头熟悉的工具插上多机多卡的翅膀。

二、电话客服对话的多样性较大,即客户和小二对话所涉及到话语题范围相当宽泛,且都这麼很多为宜的文本语料进行语言模型(language model)的训练。与之不同的是,在语音搜索场景下,大伙往往不能通过而且 途径获得大量有用的文本资源并用于训练语言模型。这名,在天猫魔盒语音搜索场景下,大量的节目名、演员名是上可以了过后获得的;在手淘语音搜索场景下,用户搜索的内容甚至上可以了直接从淘宝query log中得到。这名差异,就决定了电话语音识别在语言模型的训练上比垂直的语音搜索要繁杂。

7.5

说语音识别是并都是黑科技是而且 儿都是 为过的。在美国政府关于限制发放签证的“Technology Alert List”中,语音识别赫然在列,与核武器、火箭技术等同在“黑名单”中。阿里云iDST语音团队汇集了数位来自国内外语音领域的工业界、学术界高手,在集团此前的积累上继续发力。新系统的第一另二个落地点,就被选定在客服电话语音识别上。

过后大伙用一般的单机单卡DNN训练工具来训练语音识别声学模型,都这麼即使是对一另二个不算大的、60 00小时训练数据库而言(在语音领域为宜1.8 billion个训练样本),迭代数遍至收敛,过后须要2到4周的时间。假若的周转周期对于互联网时代快速迭代更新模型上线的要求而言,显然是无法接受的。

那先 服务标准是大伙对而且 人的要求、对客户的承诺。而且,在自动语音识别技术应用过后,那先 标准而且 而且 过可以能了是落在纸上、飘在空中而已——集团与蚂蚁每天天量的电话客服量,过后通过人工一另二个一另二个听、一另二个一另二个质检,是“不过后完成的任务”。事实上,大伙每天最多可以了做到可以了百分之一的人工抽检。都这麼一来,大伙事实上根本无法了解大伙的客服质量。极端而且 说,哪怕外包客服小二与客户对骂,大伙也几乎没而且发现。这名清况 的危险性之而且 而且 。

外理一另二个 sweep 所需时间(小时)

通过包装MPI,提供计算节点之间p2p通讯(包括send / recv)和collective通讯(包括AllReduce等),并通过包装GPU Direct RDMA提高通讯速度。使得单机GPU系统进程不必考虑通讯的细节,通过简单调用middleware的通讯API即可实现高速多机通讯。

CER(%)

Frame Acc. (%)

都这麼难题来了:都这麼大规模的语音数据沉淀下来后,怎样不能被挖掘利用?阿里都这麼大规模的自营和外包客服小二团队,怎样不能监测不必说断提高小二的服务质量?随着客服系统都这麼智能化,上可以了通过电话客服机器人来帮助客户外理困难?要回答那先 难题,第一步就须要并都是智能技术,把语音转换成文本,为后续的各个模块提供基础。这名技术假若大伙常说的自动语音识别(automatic speech recognition, ASR)。

59.6

假若的加速在技术上是怎样实现的呢?这就须要重点介绍大伙开发的GPU多机多卡middleware了。 

End-to-end 训练时间

大伙选着开发GPU多机多卡middleware,而都是 一另二个全能的多机多卡训练工具,是基于如下的设计理念:目前deep learning的研究和工程实践方兴未艾,各种新的模型特性、训练工具层出不穷,太难一另另二个“one size fits all”的工具一块儿满足各人 的需求。这名,在图像外理领域比较流行的caffe和cuda-convnet,在LSTM模型上比较流行的CURRENNT和RNNLib,都是 各有各的优势与不足,并各有各的拥趸。更有意思的时,大伙了解到而且 而且 用户在使用那先 open source工具时,都而且 对它们进行了而且 人的改造、升级与扩充,假若就产生了无数基于那先 工具的变体。

有了自动语音识别技术,大量的人工抽检上可以了瞬间升级为60 %的自动质检。当然,自动语音识别不过后做到60 %正确、即使语音识别60 %准确,质检规则、质检模型假若过后做到60 %准确。那先 都是 大伙须要持续努力的方向。短期来看,大伙上可以了通过自动+人工的法律土办法来提高质检准确率:即机器先筛选出可疑的小二难题,再由人工质检来确认。机器来 “大海捞针”,人工来“一锤定音”。实际上,60 %的自动质检在客服小二的心理上也产生了化学反应——笔者曾听到小二笑言,现在知道有机器人在底下“偷听”,为客户服务的过后就会更小心谨慎。这也是在做自动语音识别过后都这麼想到的额外效果。