发布信息

免费离线语音识别神器whisper安装教程框架

作者:软荐小编      2023-04-12 01:07:26     210

本文框架

语音合成工具(文字转换语音软件) 注册码_语音软件_朗读女语音软件 注册码

一、简介

大家好,最近chatgpt挺火的,我也体验了一下。 文章的标题由它给出。 标题有点意思,意思还不错。

之前发过一篇《Free Offline Speech Recognition Tool耳语安装教程》。 由于 whisper 的安装比较耗时,为了方便起见,本文介绍了其他几个免费的语音转文本工具。

我也测试了这些工具并比较了它们的识别准确率。 文章第五部分会给出识别准确率排名。 根据测试结果选择语音识别工具,文末也给出了几点建议。

2.工具使用

Speech-to-text 可以快速轻松地将会议、讲座和课堂录音整理成文本手稿。

3、工具推荐:第一个:Buzz(windows和macOS都支持)

Buzz 是一款离线工作的语音识别软件。 它有两个功能,一个是录音到文本,另一个是实时语音识别。 它的底层依然使用耳语的语音识别功能。 但它的好处是只需要下载一个安装包,安装后直接运行即可语音软件,不像配置whisper那么麻烦。

如何使用

下面简单介绍一下它的录音转文字功能。 第一次转录时会下载模型,下载后可以离线运行。

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

单击“文件”,然后单击“importAudioFile...”导出您需要转换为文本的录音文件。

稍后会弹出一个设置框,

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

如图所示:

左侧框中的选项允许您选择转录的质量。 从上到下,质量逐渐提高,转录的准确率也会增加,相应的花费的时间也会变长。 一侧选择的五个选项对应“小、基、小、中、大”五种耳语模式。

右框中有两种类型的任务,我们通常选择“Transcribe(转录)”模式,“Translate(翻译)”模式是将语音文件翻译成英文文本。 图中“ExportAs(导入为)”是选择导入格式。

第二款:飞书妙记,剪报笔记本版

这两种模式都需要连接到互联网才能使用。 为什么把这两个放在一起呢,因为都是抖音的产品。 右图中,右边是飞书的公司,右边是建英的公司。

朗读女语音软件 注册码_语音软件_语音合成工具(文字转换语音软件) 注册码

虽然都是抖音旗下的,但鉴定结果还是有区别的。 识别的准确率也不同。 文章的第五部分给出了识别准确率的排名。

如何使用:

飞书小贴士:

注册登录后,直接上传文件即可。

朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码_语音软件

飞书妙记可以区分音频中不同的说话人,可以导入txt和srt格式。

裁剪笔记本版:

您需要下载并安装剪报笔记本版本。 此功能是为了方便您剪辑带字幕的视频,在线运行。 目前是免费的。

使用方法:新建工程>导出音频>将音频拉到下轨道>点击“文本”>“智能字幕”,生成后直接点击导入字幕文件。

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

第三项:网易建外工作台

网易出品,需要联网。 目前每晚有2小时的免费识别名额。

如何使用:

登录网易建外工作台,新建语音转录工程,上传文件。

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

第四项:Windows系统自带语音识别

win10和win11系统自带语音识别,但是这个不支持语音转文字。 它只支持实时语音识别,需要联网运行。

如何使用:

win10或win11系统下,打开一个txt文件,点击文件空白处使光标处于等待状态,按快捷键win+h调出语音输入工具,此时开始说话,工具将实时识别您所说的内容,手动 txt 文件。

第 5 节:其他

阿里云、腾讯云、百度云、讯飞听力等都提供录音转录服务,不仅讯飞听力还有web端服务(新用户自带15分钟免费时间),而且都需要能够编程和调用套接字,对吗? 会编程的人不友好。 其实,如果你会编程,你可以试试这些公司的服务,不同的公司会给你一定的免费额度。

以录音转录服务为例,每个百度账号赠送10小时,腾讯赠送每个月10小时,阿里信科赠送3个月试用期,讯飞赠送15分钟免费额度。 规则可能随时变更,详情请以相关服务商官网为准。

4. 不同工具识别准确率对比

我用了3个音源,一个是自己录的Excel小方法视频语音软件,30s左右,一个是podcast的聊天音频片段,5分钟左右,一个是董事长2023元旦寄语,13分钟左右。

三段音频使用whisper的tiny,base,small,medium,large-v1,large-v2,large模型,还有飞书妙记,网易简外工作台,win11自带的语音识别工具,简音和笔简是5个免费的语音识别工具来转录,并比较它们之间的准确率。 由于嗡嗡声语音识别的核心是耳语,但是嗡嗡声的语音转录模式只有5个选项,而耳语有7个选项。 推测应该是少了large-v1和large-v2这两个模式,所以用了whisper,没用buzz。

文本相似度比较方法:

利用python中difflib库的SequenceMatcher类,可以实现估计文本相似度的功能。

估计值在0-1之间。 如果待比较的两个文本之间的相似度越高,估计值就越大。

代码:

from difflib import SequenceMatcher
def similarity(a, b):
    return SequenceMatcher(None, a, b).ratio()

以下是 2 个运行示例:

>>> similarity('我是文本A', '我是文本A')
1.0

>>> similarity('我是文本A', '我是文本B')
0.8

文本比较前的相关处理

因为有的工具转换出来的文本标点符号比较丰富,有的空格和回车比较丰富,为了防止英文标点、空格和回车影响文本相似度的比较结果,我用python全部清除。

消除英文标点符号:

from zhon.hanzi import punctuation
import re
striped_txt = re.sub("[{}]+".format(punctuation),"",txt) #txt为待处理文本

消除回车和空格:

dealed_txt = txt.replace(" ","").replace("\n","") #去空格、去回车

因为在识别数字的时候,有的数字会被识别为英文,有的会被识别为阿拉伯数字,并不代表识别错误,所以对于数字较多的文本,语音转写后,我统一改成英文数字。

另外whisper转录的时候可能会有简体英文,所以我用在线工具把它转成繁体。

五、对比结果

语音合成工具(文字转换语音软件) 注册码_朗读女语音软件 注册码_语音软件

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

语音软件_朗读女语音软件 注册码_语音合成工具(文字转换语音软件) 注册码

补充说明:由于buzz底层是whisper,所以我用whisper来测试,但是我没有用buzz。 Whisper可以实现buzz,所以你没有安装whisper。 我觉得 whisper 表现不错,可以尝试用 buzz 代替。)

六、结果分析

虽然这些声源各有特点。

30s 视频是一个带有少量文本的小型 Excel 教程。 总共只有100多个字。 没有尴尬的话。 结果与原稿相似度可达96%以上。

5 分钟的音源是聊天播客的片段。 内容是一些日常生活用语,有很多语调词,比如“啊啊啊”。 虽然对于飞书妙记,我的比较方法并不公平。 是的,因为它的识别结果不仅包括语调词,而且语调词比正确的手稿少很多,自然相似度比较低。

13分钟的音源是董事长2023年元旦寄语。 里面用了很多谚语,比如“艰难困苦,玉如成”,“不畏风雨,披荆斩棘”,“遇到最难的,才会走得更远”。 》、《路虽长,行必来;事虽难,行必成》,《愚公移山》,《千里之行,积步成》 ”等等。对于那些窃窃私语,疗效不是很好,但其他工具更好。 而且尽管如此,我们也可以看到,whisper识别出的文本与源文本的相似度达到了95%以上,这对于一个开源的离线软件来说已经非常不错了。

观察测试结果,我们发现了。

对于 whisper 来说,并不是绝对的说模型越大,识别的准确率就越高(至少对于英文不是)。 例如,对于5分钟声源的识别,small mode的准确率要高于more middle mode。 耳语中间模式的语音识别准确率在日常语境中(用词和典故较少)可以强于某些在线服务。 剑影和笔剑在三项测试中的识别准确率均排名前三。 谷歌语音识别和耳语分别进入两项测试的前三名,但耳语的两种识别模式不同。 飞书妙记一次进入前三。7。 建议

通过文章第五部分三组声源的数据,可以给出一些建议:

男朋友,我听说了,请给我一个赞鼓励~

相关内容 查看全部