首页 > 科技 > 正文

7×24小时无间断合成有声书,语音AI能让有声内容生产成本降

[摘要] “通过tts合成方式,可以7*24小时无间断合成,只要在输入端读取文本内容,便可源源不断地输出相应的有声内容,打破了传统有声内容生产局限性壁垒。这对于视障群体有着特别的意义,要知道市面上有声书的数量是

作为一种获取知识的便捷方式,“随时随地听你想听的”的生产成本是多少?

有声读物正在悄然兴起,但制作有声读物的成本并不低,最大的瓶颈是“人”。相应地,高生产成本也使得有声读物的总量发展缓慢。

对普通消费者来说,有声读物只是一种新的内容方式,但对视力受损群体来说,有声内容有着特殊的意义。因此,如何低成本、高质量地连续输出有声读物,已经成为微软语音人工智能团队和中国最大的视障公益组织红丹丹(Red Dandan)的重要研究课题之一。

“tts合成允许连续合成7*24小时。只要在输入端读取文本内容,相应的音频内容就可以连续输出,打破了传统音频内容制作的限制壁垒。这对视力受损者来说特别重要。我们应该知道市场上有声读物的数量远远少于文本的数量。在这方面,我们可以通过将文本转换为音频自动化技术,极大地丰富这一群体的音频阅读数据源。”

几天前,钛媒体采访了微软语音人工智能和红色丹丹团队。微软亚洲互联网工程研究所人工智能语音组高级产品总监丁正毅向钛媒体表达了微软语音人工智能的技术优势。

就在今天,恰逢国际盲人节(10月15日),微软语音人工智能团队和瑞德丹丹的有声图书《肖骁合成有声图书》也已上传到云音频图书馆“心灵图书馆”,可以立即在一个小程序中打开。

微信搜索“思维库”将能够搜索小程序。目前,以微软肖骁为读者的有声读物已经推出。钛媒体在体验过程中发现,肖骁的阅读语音语调与真人基本相同,非常自然友好。

在某种程度上,技术的优势往往转移到成本节约的层面。

在过去的100页纸质书籍中,视障群体需要400到500页才能转换成既定的产品形式,这需要将近100元的生产成本,不包括邮费。然而,有声读物只有在制作完成后才能通过云无限量地传播,这是节约的第一个维度,也就是产品的再利用水平。

另一方面,对于一些将文本内容记录到有声读物中的专业录音公司来说,它们经常受到时间和空间的限制。原因是需要很长时间才能找到相关的录音人员和工作室。举个简单的例子,当录制高质量的声音,即市场上的高质量书籍时,可能需要半天时间来录制数百个句子。

鉴于此,微软语音人工智能通过tts合成技术和算法集成的人工智能语音输出模型,大大减少了有声书籍的制作时间。

具体而言,成本降低维度可以分为以下两种情况。一是提供实时合成(real-time synthesis),基本实现毫秒级反馈,一般用于智能对话、助手等场景。另一个是非实时合成场景。例如,整个有声读物的长文本合成需要大约1/3的时间维度的音频时间。

当被问及tts及其特征的区别时,丁强调tts和asr是可以比较的。例如,语言模型可以在asr中使用,而相似的模型在tts中扮演相似的角色。随着tts的声音变得更加自然,它也在反馈asr的节奏。事实上,这也是一个非常热门的领域。微软在培训和识别时有几个相对困难的领域,例如如何收集和识别这些数据。如何使用tts合成语音来模拟真实的语音场景?

值得一提的是,考虑到使用该产品的便利性,肖骁的合成有声图书于10月15日在国际盲人节上传到图书馆,可以在一个小程序中立即打开。

微软大中华区公益事务总监王玲告诉钛媒体,微软与红丹丹的合作可以追溯到2006年。从一开始,简单的志愿者服务,如告诉视力受损者电影和维护电脑,就与云技术的兴起相吻合。微软利用其良好的语音技术将图书馆从离线转移到在线,并与红丹丹携手建立了一个基于云的图书馆。迄今为止,创意图书馆已经覆盖了全国105所视障学校。

应该注意的是,与2014年首次构建云音频库不同,现在在市场上获取音频资源非常方便。除了技术优势之外,控制集团的需求以打造特色也至关重要。

对于视力受损的人来说,更多的需求往往是学习或成长产品,市场往往是空的。举一个简单的例子,参加法律考试或公务员考试的团体很难在市场上购买这类音频教材。这是微软和瑞德丹丹的机会。

对于有声读物来说,阅读效果非常重要。

随着大量视障人士需求反馈(如阅读速度和情绪水平)的早期积累,微软和瑞德丹丹(Red Dandan)共同打造的有声图书已经能够像真人一样阅读,而不是过去冰冷的机器声音,让用户更容易替换场景。

在现场演示中,钛媒体观察到,微软和瑞德丹丹(Red Dandan)联合创作的有声读物可以将新闻、情感故事、助手、客户服务、历史、歌唱等不同的故事结合在一起。即使在汉英混合文本中,推特和个人电脑等词汇也可以自然表达。这里,应用深层神经网络进行混合计算,最终完成合成的无缝切换。无缝切换到不同风格是植根于现场的技术表现。”

那么,当不同类型的文章以不同的情绪阅读时,微软的人工智能发音是如何工作的呢?

微软亚洲互联网工程研究所语音组产品经理、微软人工智能女声小小语音产品负责人刘岳影向钛媒体介绍了这一原理:

“目前,我们已经能够提供不同风格的解释,但是由于人工智能对整篇的理解还没有达到人们希望在整段或整篇中表达的内容,我们选择使用标记来帮助选择不同的声音类型。举个简单的例子,人工智能通过上下文理解自动标记,以便机器知道文章是什么类型,然后选择不同的情感反馈给用户。因此,我们现在的首要任务是定义这些文章的类型。”

当谈到目前语音技术在盲文书籍合成过程中的改进时,丁正毅对钛媒体说:

写作时,理解上下文和文本通常是一个非常困难的问题。当人们阅读一篇文章时,他们实际上已经分析了这篇文章。话题和对话应该用什么样的情感来表达,这种情感根植于人的大脑,可以自然解构。然而,计算机不是人,我们面临的最大困难是自然语言理解或文本理解的方向。

”目前微软人工智能的声音仍然是一步一步的。一方面,声音本身应该做好,例如,不同的情感强度应该通过声音和声音来表达。另一方面,本着科学和技术促进美好和包容的愿景,微软希望在公共福利层面与红丹丹合作取得更多进展,并与当地社区更紧密地融合。”(本文从钛媒体开始,作者/桑·强明,编辑/赵宇航)

欲了解更多精彩内容,请关注钛媒体微信号(id: taimeiti)或下载钛媒体应用。