解密人工智能产业上游:智能语音合成背后,谁在默默耕耘

作者:admin  发表时间:2021-01-05  浏览:29  海淘动态

前百度首席科学家吴恩达曾说:语音是人类交流、人机交互最自然的方式。过去的70年,人机交互形式不断进化,从计算机时代的键盘,到智能手机时代的触摸屏,如今语音交互正在引领人工智能为主导的下一个人机交互的新时代,它能够在社交、导航、搜索、机器人等领域大规模应用。根据智研咨询发布的《2017-2022年中国语音产品市场运行态势及投资战略研究报告》,2016年,中国智能语音市场规模59.3亿美元,较2015年增长47.2%。2017年,全球智能语音市场规模预计100.7亿美元,较2016年增长69.8%。语音交互市场的高速增长,也催生了语音合成和语音识别产业的兴起。人工智能语音产业链分析:数据服务领域是蓝海人工智能语音产业链分为芯片层、数据层、技术层和应用层。具体如下:芯片层主要是基于GPU、TPU、FPGA技术的芯片公司,包括NVIDIA、谷歌、华为等;数据层是一个新兴的行业,因为深度学习需要大量高质量的语音数据,因此催生了一批数据服务提供商,例如标贝科技。技术层包括一些AI技术方案提供商,包括科大讯飞、捷通华声、云知声、思必驰等;其实绝大多数的AI公司均处于应用层,覆盖领域包括机器人、出行导航、智能家居、智能客服等,典型公司包括亚马逊、苹果、百度、Rokid、滴滴出行等。目前看来,人工智能产业链总体处于行业初期。近日IT桔子发布了《人工智能产业分析与创业投资盘点》报告指出,人工智能正值发展初创期,初创期(A轮之前)企业占比高达67%,成长发展期(B-C轮)企业占比28%。虽然人工智能产业处于早期阶段,但是数据层却呈现一片蓝海之势。根据互联网数据中心(IDC)统计和预测,2016全球大数据市场规模年增长率达40%,在2017年将达530亿美元。基于数据量增速和其潜在的价值挖掘,所能产生的财富价值正被创新者所觊觎。国内一家数据服务提供商标贝科技就是一个具备标志性的案例。标贝(北京)科技有限公司成立于2016年2月,短短一年时间,已经成功为多个互联网巨头公司AI产品提供了不同的数据服务。在整个语音产业链条当中,标贝科技处于数据服务环节,具体而言,包括语音合成和语音识别项目,其中技术含量较高的语音合成又包括发音人选择、语料设计、语音采集、数据处理、语音深度加工等步骤,为客户提供一整套的定制化数据服务。数据类型上包括文本数据、语音数据等。标贝科技创始人刘博表示,标贝科技目前核心业务是语音合成,今年会加大语音识别领域投入。基于深度学习的智能化预处理程序,提升10倍效率如果要追溯语音合成技术,还要回到上世纪90年代,当时国内主要有两家公司在做,分别是科大讯飞和捷通华声。早期的语音合成技术应用很受局限,主要应用在汽车导航、银行叫号、医院叫号和车站播报系统,那时候的合成技术处于萌芽期。合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。标贝科技合成部负责人王艳茹表示,无论客户用哪种合成技术,都离不开专业的语音数据服务,而标贝最核心的任务恰恰是提供优质的语音数据,让客户可以专心于合成技术的研发,快速实现高质量的合成系统。提供优质的语音数据只是结果,过程还包括语料设计,语音采集,音字标注、韵律标注、声韵母切分等模块。传统的人工标注算是一种劳动密集型工作,难以大规模拓展和复制,但是基于深度学习的预处理系统,不仅可以大幅改善自动处理的正确率,而且效率提升达10倍之高,可以大大降低数据加工周期。层层风险把控保证语音质量数据标注行业的核心难点在于质量控制。标贝科技有一套专业化业务流程,大致包括语料设计、语音采集和数据处理环节。作为定制化的数据服务提供商,由于流程繁复,贯穿每个环节的质量控制成为保质保量的生命线。为了让从业者更好认识语音数据服务商的操作流程,我们做了简单的剖析。语料设计:前期针对客户需求制定不同的语料设计方案,不同领域采用特定的语料。语音采集:语音采集是整个流程当中考验细致、经验、耐心的环节,核心是对录音质量的把控,发音人在录音棚长时间录制,一个音节的理解错误,都会导致语音质量不能符合客户需求,这时就需要有专人、全程监督,确保源头语音素材就是高品质。语音采集之后进入数据处理环节,标贝先通过计算机程序预处理,再由人工完善。数据处理的工作十分复杂,假若人工标注,低效且不现实,但是通过程序预标之后已经很准确,能大大提高工作效率,减少人工干预。总结标贝科技的数据标注流程,每一步都有非常严格的质量把控,而且通过技术让繁杂的数据标注流程变得智能化。刘博坦言2017年目标将继续推动业务智能化,人工智能比较厉害在于不仅把简单的标注处理好,还可以把后期的合成,通过技术手段提升准确度,最终接近真人发声的状态。此外,标贝科技还有让客户惊喜的增值型服务,一套专业化的评测系统。王艳茹阐述一个小案例:曾经有客户反应,他们录制几万句的合成库,合成效果并不理想,但往往找不出解决方案,无从下手。基于对语音合成系统的理解,我们无偿做了一个很专业的分析评测报告,从文本处理、韵律层级预测、声学参数和声码器四个方面进行分析,帮助客户快速找出问题原因。这种增值性服务正是区分标贝科技的专业性和定制化特点。当然,这一套专业化系统也离不开团队丰富的经验。标贝科技TTS负责人表示:在TTS音库制作过程中,语料设计、音字标注、韵律标注、声韵母切分,包括客户特殊需求的ToBI和Pitch标注服务,只有行业沉淀10余年,对合成系统有深刻的理解,才能很好的完成,并对可能出现问题有一定预判,这也是标贝科技语音合成业务在行业领先的条件。据悉,标贝科技还有着一支庞大的识别项目团队,提供语音采集、转写、语音标注、平行语料、图片采集、图片标注业务,其中语音采集包括情感采集、国内方言和普通话、少数民族语言(藏维蒙)、定制年龄语音采集(包括儿童老年人)以及国外语种(50多个国家),图片采集包括人脸(自然和情感)、道路(汽车、街景)、手写体等。历经数十年发展,随着技术不断沉淀以及交互场景的不断补充,语音技术发展即将突破大规模商用节点,行业将进入爆发期。与此同时,语音数据服务领域也将迎来快速增长期,当我们在使用流畅、自然交互的语音产品时,在背后默默耕耘的正是以标贝科技为代表的语音数据提供商。本文作者许伟军,亿欧专栏作者;微信:xuweijun24(添加时请注明姓名-公司-职务方便备注)
海客讨论(0条)

头像

0/300

微博发布

部分图片内容来自于网友投稿

570.47ms