8月8日,搜狗推出了一款实时语音转文字速记工具“搜狗听写”,使用了搜狗知音引擎的长时语音转写技术,为文字工作者提供会议、采访、写作等场景下的速记要求,用户可以在App商店免费下载。

会后,搜狗公司语音交互技术中心总经理王砚峰与智东西等媒体就搜狗听写、搜狗AI技术、知音OS、以及搜狗智能硬件做了相关交流。

前瞻技术,搜狗语音交互

一、一款专注采访场景的笔记产品

正如智东西之前的报道中写道,目前市场上已经有同类的产品,比如讯飞录音宝等,搜狗听写跟其他家的差异点在哪里呢?在回答智东西的这个问题时,王砚峰表示,搜狗听见与其他的差异在于两点:

1、其他产品不能像搜狗听写那样支持长时间录音+免费转写支持;

2、搜狗听见更面向垂直场景,在记者采访、作家写作等场景下进行了功能优化(比如加入远程蓝牙标注重点技术),为用户带来更好的产品体验。

前瞻技术,搜狗语音交互

在会后的采访中,王砚峰补充道,除了语音文字转录外,搜狗听写还有对笔记进行分享、记事、管理等功能,其实更类似一个云笔记,是专门为了解决文字工作者切身遇到的问题而打造的产品。

二、远场噪声环境下的识别转录

记者在发布会现场体验了,发现“搜狗听写”在吵杂、远距离环境下的语音识别效果其实并不是太理想,这其实也是市场上不少语音转录产品所存在的共同问题之一——在安静、近距离环境下的转录效果很好,但处理远场、噪声、尤其是发布会上经由麦克风及扬声器处理过一遍的声音时效果很差。

为此,王砚峰提出了两点解决方案:一是继续进行数据积累与产品迭代,在嘈杂噪音环境中累积更多数据用于模型训练,才能提升准确率;二则是搜狗听写中有“转写”模式,系统可在离线状态下录音,录音完成后一次性获取文字结果,此时因为不需要实时转录出结果,引擎速度不需要那么快,因此可以搭建更深、更复杂的模型,从而也能有更好的识别效果。

不过,由于搜狗听写App使用的是手机麦克风,手机本身的收音硬件差异也会导致识别效果差异。目前搜狗听写尚不支持外部录音导入,只能依靠手机进行录音。

三、智能硬件是搜狗目前的战略重心之一

搜狗知音是搜狗一年前发布的语音交互引擎,主打“自然交互+知识计算”的技术战略。王砚峰海表示,知音引擎指的是技术:语音识别、机器翻译、语音合成等技术的集合,对于搜狗来说是语音AI的技术平台。

前瞻技术,搜狗语音交互

基于知音引擎,搜狗打造了“知音OS”语音交互平台,这是一款面向手机、电视、可穿戴、车载设备等智能设备的语音交互平台。目前,知音OS已经在小米、魅族、创维、海尔等产品中落地应用。

王砚峰海表示,智能硬件现在是整个搜狗的战略重心之一,随着移动互联网时代逐渐向IOT时代进军,智能硬件已经成为抢占用户入口的最重要渠道。在未来一年里,搜狗还将会在可穿戴、车载、客厅场景内自主研发更多搭载知音OS的智能硬件,并进一步推广知音OS平台与其他厂商的合作。

“搜狗在能做智能硬件的品类下做智能硬件,电视、手机等(不适合搜狗做的)场景下,说服好的合作伙伴进行合作,形成用户入口。”