一、注册账号
1. 打开https://console.cloud.google.com
2. 首先要注册google账号,有gmail就可以直接用;
3. 使用云平台服务需要填写一些信息,其中绑定信用卡是关键,最好使用VISA卡。当然google的说法是确定非机器人操作,并不会扣款;
二、新建工程
初次进入时会要求新建工程,如无特殊要求使用默认名称也可以。
三、生成密钥
在调用云平台API时要有身份认证,依据便是密钥。密钥生成以后记得复制下来,后面调用API时要用到。
四、启用API
google云平台包含了相当多的服务,而我们本次的目的是实现将音频识别为文字,所以需要查找并添加speech recognition方法。
-
在左侧菜单的“API和服务”下找到“库”,并输入“speech recognition"。
-
点击进入后选择启用即可。
五、准备音频文件
speech-to-text API对音频文件的编码格式有具体的要求。
无论是录音还是从影视文件中分离音频出来,都必须按照上述格式选取一种进行编码。
我使用的是开源工具ffmpeg进行音频处理,示例如下:
ffmpeg -i one.mp3 -ss 00:03:00 -t 30 -ac 1 -ar 16000 -f flac one4.flac
命令行解释:
-ss:要处理的起始位置,示例中表示从第3分钟开始处理;
-t:要处理的时长,示例中表示处理30秒的内容;
-ac:单声道mono设置;
-ar:采样率为16000
-f:文件封装格式为flac
参考网址:
https://cloud.google.com/speech-to-text/docs/encoding#audio-encodings
六、开通存储并上传文件
文件处理好之后便可以通过预先上传到google云存储上再进行处理。打开左侧“存储”->“浏览器”,选择创建存储分区,会要求输入一个不可重复的名称。创建成功以后就可以上传文件了。上传以后一个重要的步骤便是要设置文件可以公开访问了,否则音频到文本的转换会失败,报访问权限受限错误。
-
在右侧选择“修改权限”项;
2. 点击“添加一项”,名称设置为“allUsers",访问权限为读取者。
七、调用API完成转换工作
-
首先编辑一个配置json文件,内容如下:
"config":
"encoding":"FLAC",
"sampleRateHertz": 16000,
"languageCode":"cmn-Hans-CN"
"audio":
"uri":"gs://audio_migu/one4.flac"
2. 使用curl命令行进行API调用的工作,示例如下:
curl -H "Content-Type: application/json" -d @config.json "https://speech.googleapis.com/v1/speech:recognize?key=AIzaSyA7baQsAp"
注意:key值便是第三步生成的密钥值。
等待一段时间后会有结果返回,我是从一段影视文件中截取的30秒内容,从结果来看并不理想,不过也可能是时长不够,仅供参考:
"results": [
"alternatives": [
"transcript": "柔然发来西文称陛下是符串位同室操戈正山东各方陶华碧想和任泉岗工人背叛",
"confidence": 0.94101095
"alternatives": [
"transcript": "大成功显然",
"confidence": 0.74435216
"alternatives": [
"transcript": "电邮他们一个动力臂下原列王子后来进重我大会想来这次对比一下只执行Ruby下能释放高阳王让高阳王对只小雨大雨",
"confidence": 0.91948324
参考网址:
https://cloud.google.com/speech-to-text/docs/basics
一、注册账号1. 打开https://console.cloud.google.com2. 首先要注册google账号,有gmail就可以直接用;3. 使用云平台服务需要填写一些信息,其中绑定信用卡是关键,最好使用VISA卡。当然google的说法是确定非机器人操作,并不会扣款; 二、新建工程初次进入时会要求新建工程,如无特殊要求使用默认名称也可以。三、生成密钥在调用云...
同步识别(REST 和 gRPC)将
音频
数据发送到
Speech
-to-
Text
API,对该数据执行识别,并在所有
音频
处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的
音频
数据。
异步识别(REST 和 gRPC)将
音频
数据发送到
Speech
-to-
Text
API 并启动长时间运行的操作。使用此操作,您可以定期轮询识别...
Google
Cloud
Speech
API是由谷歌
云平台
提供的,利用机器学习技术将语音
转
换为
文字
的服务。这个API能识别超过80种语言和语言变体,包括中文、日语、英语甚至广东话。这次,我总结了使用
Google
Cloud
Speech
API的基本流程。
花5秒钟试用
Cloud
Speech
API吧
在
Cloud
Speech
API概览页,我们可以体验将语音
转
换为
文字
的效果。只需要选择一种...
Speech
2
Text
在这里使用ffmpeg / flac /
Google
和ruby的功能是一个简单的界面,可以将语音
转
换为文本。
在本文的帮助下,使用来自
Google
的新的未记录语音API: /
我们能够在Ruby中提供一个非常简单的API,以将简单的
音频
解码为文本。
Google
的API尚未公开,因此可能会更改。 它似乎也非常脆弱,因为它多次返回500,因此该库具有内置的重试代码-对于较大的
音频
文件,可能会在检索成功结果之前返回10多个失败…
似乎API也只喜欢较小的
音频
文件,因此有一个内置的分块器,使我们可以将
音频
分成较小的块。
将此行添加到您的应用程序的Gemfile中:
gem '
speech
2
text
'
然后执行:
$ bundle
或将其自己安装为:
$ gem install
speech
2
text
您还必须在本地计算机上安装ffmpeg
恒定的倾听者
该存储库是作为家庭自动化系统的实用程序创建的。 它在后台侦听,并使用
Speech
-to-
Text
API 提供通过队列所说的文本。 背景噪声水平根据过去 30 秒的数据进行校准,以启用动态功率阈值。
选择您的 STT 引擎并按照那里的说明进行操作。 您将配置文件参数传递给 background_
speech
_to_
text
,它是一个包含相关凭据的字典。
Google
:将“密钥”映射到有效的
Google
开发人员密钥。
按照“步骤 1”操作(此外,文章中提出的问题是有效的。)
如果没有指定密钥,将使用默认密钥,该密钥来自 。 该页面上的讨论数量惊人,其中一些甚至很有用。
AT&T:将“ATT_APP_ID”映射到您的 APP ID,将“ATT_APP_SECRET”映射到您的 APP SECRET 您可以注册这些东西。
Sphinx:如果您使用的是
https://
cloud
.
google
.com/
speech
-to-
text
https://
cloud
.
google
.com/
text
-to-
speech
google
账号
双币visa信用卡
注册
google
账号
访问https://
cloud
.
google
.com/
speech
-to-
text
,点击免费试用,跳
转
到信息补全。此处需要完善个人信息和绑定
探索
Google
SDK
Speech
-to-
Text
:实时语音
转
文本的强大工具
项目地址:https://gitcode.com/opensourceteams/
google
-sdk-
speech
-to-
text
在今天的数字化时代,语音识别技术已经变得无处不在,从智能手机助手到智能家居设备,它们都在帮助我们以更自然的方式与机器交互。
Google
的 SDK
Speech
-to-
Text
就...