标贝科技: 让机器的声音听起来更像人声,专注语音合成前端技术

yuelaosan 坐标: 151864 目录:婚姻家庭
我们找到第

首先,从音库质量入手。标贝科技认为不同的产品需要不同的音库,举个简单的例子,我希望夜晚为我读书的声音是温柔的,但是倘若音库本身采集的是播音员字正腔圆的声音,无论对数据如何处理,都很难产出匹配产品调性的声音;而风格只是标贝科技重塑语音库的一个元素。

大量语音库在标贝科技看来是没有太大意义的,他们需要精准的数据。为了采集合适的人声,标贝科技的数据专家需要和发声人做大量的前期沟通,设计包含尽可能多素材的语料,指导发声人的说话风格、语调和停顿方式等,还需要听环节对发声人不同的片段进行对比、确保风格一致。采集完成后,团队再对音字、韵律和音节音素进行标注。

但是,即便技术优秀,作为一家小企业如何拿到大公司的订单呢?标贝科技凭借 10 年以上语音合成的经验,为客户的语音产品做免费评测,分析出合成语音不自然的原因:可能是音库质量不佳、数据加工的问题、前端模块或者后期算法的问题。通过免费和专业的测评让潜在客户认识到自己的技术和专业能力,标贝科技获得了百度、滴滴、腾讯、喜马拉雅小雅音箱、芋头科技 Rokid、Roobo 机器人、暴风、出门问问等众多大客户,并保持长期稳定的合作关系。

标贝科技的核心竞争力得益于他们对前端音库和技术的关注,以及他们在数据和产品结合方面的经验。团队的技术合伙人在人工智能完全没有进入大众视野的 2002 年,就开始从事语音方面的研究工作,曾就职于百度,并获得百度语音合成 TTS 最高奖,从事语音行业十五年,有着丰富的项目经验。

专注音库和前期技术服务的语音公司并不多,所以标贝科技把市场定价权掌握在自己手里。公司的盈利方式有两种:一种是直接向采购方售卖标贝科技的自有语音库;另一种是为企业定制音库以及整体的语音解决方案,正如上文中描述的。成立于 2016 年 2 月,标贝科技在半年内收回全部前期投入,实现盈利;今年至今,30 人的团队已完成了近 2000 万人民币的营收。

今年 10 月标贝科技完成首轮千万级人民币融资,接下来会把重心放在语音合成 TTS 业务规模的深入和扩大。之前的发展模式发展上限明显,整体解决方案不是标准化的产品,因此难以在规模化的同时,实现边际效益递增。所以在标准化和规模化的方向上,标贝科技有可能开发标准自有库,企业可以更方便地使用标贝科技合成语音库,迅速投入研发。

最新标贝科技: 让机器的声音听起来更像人声,专注语音合成前端技术可以看看这篇名叫语音合成技术: 业界 | 历经一年,DeepMind WeNet 语音合成技术的文章,可能你会获得更多标贝科技: 让机器的声音听起来更像人声,专注语音合成前端技术

专题栏目
最新