Apollo小度车载系统语音语义设计思路和核心架构

摘自:Apollo开发者社区

在 2017 年的百度世界大会上,发布了全球首款人车 AI 交互系统——Apollo 小度车载系统。此次公开课百度车联网语音语义整体技术负责人陈聪,带大家从车外走到车内,揭秘 Apollo 小度车载系统语音语义设计思路和核心架构。

每次谈到 AI,我们都感觉它是一堆冷冰冰的算法和模型,如何把 AI 的能力转换成带有人性化的产品?这是 Apollo 在思考的。

我们希望基于 Apollo 小度车载系统做到“四个你”:听懂你,看懂你,关爱你,守护你。

无人驾驶|自动驾驶论坛(点击图片可以放大)

想打造好的语音语义系统,关键路径要解决三个问题,一是听清,二是听懂,三是满足。

 

百度是做搜索起家,语音语义理解是百度比较擅长的事情。关于语音,小度的目标非常明确,就是唤醒识别够精准。百度拥有情感语音识别系统,同时还有靠机器学习生成的语音系统。关于语义,小度能够很好的理解用户的意图,在理解意图的基础上,通过对话、场景做更人性化、拟人化的对答。

在听清方面,百度目前做到的核心指标,一是识别上,字准率 97%;二是拥有全球首个超大规模情感合成系统;三是唤醒上,目前在高速 100 迈开窗的唤醒率达到 95%。

在听懂方面,要谈一下百度语义系统背后的一套对话系统。通常说语义包含三方面:技术、数据和内容。包括小度车载系统中的前端对话服务、技能框架和技能数据。数据足够多,技术足够深,是打造对话系统的必要条件。

在满足方面,百度体系内支持 1 万种信息垂类,在百度搜索框里搜索到的东西,都可以在小度的搜索语义中用到。百度挑选了 100 种原生对话技能,是在车载场景下典型使用的原生的对话技能,包括优质资源、知识体系、百亿级知识实体关系。

无人驾驶|自动驾驶论坛(点击图片可以放大)

 

从分层的角度看看我们这套架构做了什么:

第一层是设备层,面对所有车载设备提供标准解决方案;

第二层是核心层,是小度车载系统的核心能力,用于保证 TTS、ASR、IOV 大脑;

第三层是技能层,是需要可以满足需求的技能。百度目前在全球有 1.4 亿 POI,已经部分开放给行业和开发者。

无人驾驶|自动驾驶论坛(点击图片可以放大)

Apollo 小度车载系统希望做最能听懂用户的对话系统,谈到数据、技术、内容层面。我一直说 AI 能力的赋能,百度第一期开放七大 AI 能力,接下来百度越来越多的 AI 能力会被融入,我们希望做百度 AI 能力的集大成者。

 


欢迎加入交流QQ群: 519 034 368

(非常欢迎您关注无人驾驶论坛的微信公众号)




(非常欢迎您关注Apollo官方公众号)



发表评论