产品服务
语音技术
图像技术
人脸与人体识别
视频技术
AR与VR
自然语言处理
数据智能
知识图谱
硬件产品与服务
定制化训练平台
深度学习开放平台
硬件产品
官方认证的硬件产品与百度AI协同应用
百度推出的软硬一体化服务机器人
软硬一体化的人脸识别开发套件
硬件与软件开源的机器人视觉产品方案
硬件赋能
快速赋能移动设备及智能手机
实现自建模型端计算SDK的自动生成
深度学习在终端设备加速的软硬一体方案
端云协同
为抓拍机厂商提供端云对接协议及产品推广
硬件合作
开放评测认证让您的产品加入AI生态
开放与芯片合作,让AI深度走入终端设备
可视化训练模型服务平台,获取高精度定制图像识别、声音识别、文本分类服务
自助定制专属模板,实现海量单据卡证的结构化识别
智能对话系统开发平台,让产品快速拥有对话交互能力
集合代码环境、算法算力和数据集的线上一站式开发平台
提供深度学习系列公开课与商业案例
最符合中国开发者需要的深度学习框架
基于真实样本的超大规模的开放数据集
实现自建模型端计算SDK的自动生成
AI加速器
AI市场
资讯
社区
【交通出行案例】嘀嗒出行大规模应用语音合成技术
发布日期:2018-02-05 11:07:58浏览量:841次
相关标签 语音合成 行业案例

客户简介

嘀嗒出行品牌隶属于北京畅行信息技术公司。 嘀嗒出行是一个出租车、顺风车兼具且全行业排名第二的出行平台,以让出行变得愉悦和有趣为使命,让路上没有空车为愿景,致力于成为用户出租车和顺风车出行的首选应用”。

 

核心诉求

嘀嗒出行在两个重要的场景中,需要将文字的订单信息通过语音播报的的方式(语音合成)传给客户端,提升在行车过程中的交互便捷性与安全性。

一个是出租车业务的“听单功能”,让出租车司机可以通过语音播报的方式准确接收到新订单内容;

一个是顺风车业务的“听单功能+派单服务功能”,其中派单服务对于并发的要求就会很高。

基于上述业务需求,需要依赖于语音播报的极高准确性、并发量保证、清晰自然的发音。

 

 解决方案

场景一】:出租车业务“听单功能”

在嘀嗒出行的出租车业务中,出租车司机可以通过客户端APP打开听单功能。嘀嗒出行平台会根据车主的当前位置等其他因素将合适的出租车订单发送给司机。客户端会提醒司机有新的订单请求到达。司机可以做出响应,选择抢单或者忽略。客户端提醒的方式除了传统的视觉交互之外,还同时提供语音播报提醒。平台将需要语音播报的信息通过文字的方式传给客户端,客户端调用百度语音合成功能实时播报。

在这个场景下,我们产品选择语音播报并不是一个新奇的做法。在传统的出行产品的设计中,这已经成为了默认和标准的做法。

采用语音播报的主要原因主要有两点:

一是为了提升交互体验。出租车司机人群,对于数字设备的使用熟练程度上有一定的学习成本;而由于年龄,职业习惯等原因,他们对于文字和图形的辨识度有比较高的要求。在产品的设计上,设计师不仅需要在UI设计上引入特殊的字体和设计元素来强化,增加语音作为交互方式也会增强司机对订单信息的辨识力。

另外一个重要原因是安全性。 绝大多数司机实在行车过程中听单,视觉交互不仅是不安全的,在很多国家的安全法规中都是不允许的。

【场景二】:顺风车业务听单功能+派单服务

在顺风车业务中,私家车主认证后,可以选择实时听单功能来接收最新的顺路订单需求。此时与出租车司机的核心诉求几乎完全一样。

嘀嗒出行将语音播报用于派单服务,而派单服务是整个平台中性能要求最高的一个服务。同时在线的车主数量越高,并发的订单量越大,派单语音播报的数量也就越高。我们根据过去的数据,语音播报峰值会轻易突破10Kqps,峰值的小时调用量可能会达到数千万甚至上亿次,所以性能是一个重要的考虑因素。 

百度语音合成技术能将用户输入的文字,转换成流畅自然的语音输出,并且可以支持语速、音调、音量、音频码率设置,打破传统文字式人机交互的方式,让人机沟通更自然。

 

应用示例

以下是嘀嗒出行应用百度语音合成的核心产品流程。

S1:出租车车主注册为认证车主之后,进入应用“嘀嗒出租司机”首屏,点击“出车”按钮开始听单,接收附近的订单。
语音合成案例

S2:车主可以随时修改听单的设置,除了针对出行的听单设置之外,车主也可以随时打开和关闭语音播报功能。
语音合成案例

S3:当车主接收到附近的新订单时,APP会弹出订单的详细信息,同时APP调用百度语音服务播报订单的详细信息,包括行程的起始点和播报。
语音识别案例

 

 合作成果

从2017年10月开始接入百度语音合成SDK。随着嘀嗒业务的增长,调用量每日都在攀升,日调用超过千万次以上,而错误率几乎为零。百度语音高可靠高性能的服务保证了核心派单功能的稳定服务。

首先,百度语音合成技术为我们的用户提供了非常好的产品体验

传统的TTS技术一般会出现播报机断句和多音字错误,播报机械化,不自然不流畅,有时甚至无法让用户理解。经我们测试,对于我们场景中经常出现的地址这样的专有名词,百度语音合成的效果高于一般的TTS技术,即使对比苹果公司的SIRI,优势也非常明显。

其次,百度语音SDK的开放程度和灵活度都是对开发者非常友好的

SDK支持各种语言接入,同时官方提供了详尽的支持文档。嘀嗒出行客户端从开发到集成测试通过不到1天

第三,性能方面

百度语音服务作为百度AI开放平台的子服务,服务于千万开发者。开发者可以在控制台轻松监测调用量数据。随着调用量的攀升,嘀嗒出行的日调用量很快突破了默认上限。嘀嗒出行和百度AI开放平台迅速沟通,及时提高了相关限额,保证了用户体验,避免了嘀嗒在金钱和时间上的损失。

 

嘀嗒出行已经逐步将百度语音技术大规模应用于APP内的交互反馈实现上,并且设计和开发了基于百度语音的语音广告、通知等内容运营型产品。在未来,嘀嗒出行将在更多的产品功能和交互上继续优化使用百度的语音合成技术,考虑引入百度的语音识别,语音唤醒等功能,为数千万私家车主和出租车司机提供优质的服务。

客户感言

 
段剑波  嘀嗒出行联合创始人技术副总裁 

 嘀嗒出行引进百度 AI 语音合成技术,为近千万顺风车车主和几十万出租车车主构建实时语音派单系统,实现了最为关键的听单功能。嘀嗒出行很荣幸和百度AI 站在一起,为用户提供便捷和安全的出行服务。 

 

语音技术产品详细介绍:语音识别语音合成语音唤醒

语音技术社区交流:http://ai.baidu.com/forum/topic/list/166