关于语音转文字,大部分想起接触过的会是在聊天软件中出现。除此之外,语音转文字还有许多应用场景。对此,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。推荐对语音转文字市场感兴趣的小伙伴阅读。
与以往从国内市场角度的分析不同,本文将以国内市场为支点,以全球市场视为目标,探寻语音转写产品的诸多可能性。
本文说的语音转写,聚焦于面向C端用户的带语音转文字功能的产品,不包括企业服务中的智能客服、Fintech、车载语音、智慧医疗场景下的泛语音转写。
一、名词解释
语音转写:使用将音视频信息转化成文本信息的一种服务。
- 实时转写,即流式上传-同步获取,可将不限时长的音频流实时识别为文字,并返回带有时间戳的文字流;一般用于直播实时播放字幕、实时会议记录;也可以配合机器翻译,实现同传功能
- 非实时转写,即已录制音频文件上传-异步获取,非实时语音转写将长段音频数据转换成文本数据,可用于影视字幕制作、会议访谈记录转写、智能客服录音质检等场景。
ASR:指自动语音识别技术(Automatic Speech Recognition),是一种将人的语音转换为文本的技术。
NLP:自然语言处理(Natural Language Processing,NLP)是利用计算机对自然语言文本进行理解、处理,并提取文本语义的过程。
二、如何介绍清楚语音转写
笔者的安排是这样的:
- 语音转写的基本定义和概念科普,帮助读者和笔者同频;
- 语音转写所在的前置背景,这是它发展的前提;
- 语音转写的市场规模,这决定了它是否值得被研究;
- 语音转写的产业链,这可以帮我们从合作视角看我们关注点所在的位置;
- 语音转写的竞争格局,这里是重点,用竞争视角从行业玩家身上直观感受语音转写的用户-场景-需求和商业模式,并且笔者不仅会纵向对比国内不同语音转写产品,也会横向对比国内外语音转写产品的区别,最后通过详细拆解Notta这款明星PLG产品作为行业经典案例,希望带来启发;
- 语音转写的发展趋势,这里主要是通过展示相关创业公司来阐述其可能的发展路径;
- 语音转写的综合评价,总结笔者对于语音转写行业的认知。
三、语音转写发展的前置条件
这事能成,主要有赖于三点,因为语音转写是有三个步骤组成的:
- 输入得更多,说明场景更多,市场需求更多;
- 转码得更快,说明成本更低,使用没有障碍;
- 输出得更准,说明结果需要更少的修改加工,结果更满意。
这三点如何发生了改变:
1. 输入方面:无纸化程度极大提高,大部分的数据都是以数字化形式存储
理论上,只要是人与人之间发生的信息的传递,都是有数字化的需要的,主要是以非结构化数据的形式:
- 比如开会讲话的内容,是多人之间相互的信息传递,需要沉淀成会议纪要;
- 比如老师讲课的内容,是一个人单方面向多个人的信息传递,需要沉淀成学习笔记;
- 比如采访对话的内容,是一个人和另一个人的信息传递,需要沉淀成实录文档;
- ……
这些沉淀的信息肯定不能以手写稿作为载体,而是要以文本形式存储:
- 手写稿存储成本太高,纸多了你总会弄丢吧,时间长了纸总会坏吧,要记的内容多了,我得随时准备各种各样尺寸的纸,以备不时之需;
- 传输更麻烦,手写稿只有作者自己能看懂,况且一次只能给一人看,这还不如印刷术发明前的人类社会呢,信息的传输效率限制了世界的发展。
在未来,协作越来越多,人与人发生信息传递的场景就越来越多,越来越多的信息需要被数字化记录沉淀。
这是电子信息技术带来的结构性变化。
2. 转码方面:ASR性能提升,带来了转录的实时响应
单纯的无纸化,只能催生速记员、打字员,比谁能快速输出文本信息,这个活又脏又累还贵,可重复性可替代性极强,简直就是人工智能的最佳瞄准对象。
输入输出本身就很麻烦