新一代开源语音库CoQui TTS冲到了GitHub 20.5k Star_coqui-ai tts微调

link管理
链接快照平台
输入网页链接，自动生成快照
标签化管理网页链接
Coqui TTS 项目介绍

Coqui 文本转语音（Text-to-Speech，TTS）是新一代基于深度学习的低资源零样本文本转语音模型，具有合成多种语言语音的能力。该模型能够利用共同学习技术，从各语言的训练资料集转换知识，来有效降低需要的训练资料量。
这个模型库现在已经在GitHub上开源，并有高达 20.5K+ 的star量。似乎和以前讲过的Mozilla 的 TTS 有着千丝万缕的联系，但是如今Mozilla TTS 已经停止更新，而 Coqui TTS 更新稳定，是目前少数几个更新比较稳定的开源语音库。
coqui官网： https://coqui.ai/
开源地址： https://github.com/coqui-ai/TTS/
Arm架构离线安装 coqui TTS

要在 ARM 架构的设备上离线安装 Coqui TTS，可以按照以下步骤进行操作：
1. 安装必要的依赖项： Python 3 、 Pip 和 Git .
2.克隆CoquiTTS 的Git 仓库.
git clone https://github.com/coqui-ai/TTS
3.安装所需的Python包. 
pip install -r requirements.txt
4.下载所需的语音模型和配置文件，并将其放在IIS/tts/mode1s 目录下.可以从 CoquiTTS 的GitHub 页面上下载这些文件. 
5.运行测试脚本来验证安装是否成功. 
python demo_cli .py
 注意，由于 ARM 架构的设备通常性能较低，因此可能需要更长时间才能完成编译和训练等操作。此外，如果您希望在 ARM 架构的设备 上进行 TTS 实时推理，则可能需要使用较小的模型或调整一些模型参数以提高性能。 
python 命令行安装及使用
 
pip install tts
 注意 TTS 是依赖 torch 的，由于 torch 庞大的体积，所以可能是要等很久。但是我这里由于环境问题，只能用特定版本的 torch，否则用不了 GPU。 
2.安装完成后测试 
tts --list_models
输出模型的信息，说明OK 
Name format: type/language/dataset/model
 1: tts_models/multilingual/multi-dataset/your_tts
 2: tts_models/en/ek1/tacotron2
查看模型信息 
tts --model_info_by_name tts_models/tr/common-voice/glow-tts
> model type : tts_models
> language supported : tr
> dataset used : common-voice
> model name : glow-tts
> description : Turkish GlowTTS model using an unknown speaker from the Common-Voice dataset.
> default_vocoder : vocoder_models/tr/common-voice/hifigan
文本生成语音 
tts --text "text for TTS" --out_path ./test_speech.wav
100%|████████████████████████████                                                                                                                                                    █████████████████████████████████                                                                                                                                                          █████████████████████████████████                                                                                                                                                          █████████████████████████████████                                                                                                                                                          ████████████████████| 113M/113M [                                                                                                                                                          05:58<00:00, 315kiB/s]
> Model's license - apache 2.0
> Check https://choosealicense.c                                                                                                                                                          om/licenses/apache-2.0/ for more                                                                                                                                                           info.
> Downloading model to /root/.lo                                                                                                                                                          cal/share/tts/vocoder_models--en-                                                                                                                                                          -ljspeech--hifigan_v2
100%|█| 3.80M/3.80M [00:01<00:00,
> Model's license - apache 2.0
......
Removing weight norm...
> Text: text for TTS
> Text splitted to sentences.
['text for TTS']
> Processing time: 0.78575992584                                                                                                                                                          22852
> Real-time factor: 0.4602105388                                                                                                                                                          021246
> Saving output to ./test_speech                                                                                                                                                          .wav
离线安装TTS
 
以下是在Linux系统上离线安装CoquiTTS的步骤： 
1.下载CoquiTTS的代码. 
git clone https://github.com/coqui-ai/TTS
2.安装依赖项. 
sudo apt-get install python3-pip libsndfile1
pip3 install -r requirements.txt
3.下载所需的模型，例如英文的Tacotron2模型. 
wget https://github.com/coqui-ai/TTS/releases/download/tts_models/tts_models_tacotron2_anon.tar.bz2
tar xvf tts_models_tacotron2_anon.tar.bz2
4.设置环境变量. 
export PYTHONPATH=$PYTHONPATH: /path/to/TTS
5.启动TTS服务器. 
python3 server.py --model_path /path/to/tacotron2 --config_path /path/to/tacotron2/config.json --port 8000
其中/path/to/tacotron2 为第3步中下载的Tacotron2模型的路径，/path/to/tacotron2/config. json 为Tacotron2模型的配置文件的路径。 
6.连接到TTS服务器并进行语音合成. 
import requests
import ison
r = requests.post('http://localhost:8000/api/tts', data=json.dumps(
    {"text": "hello", "model_name": "ntacotron2"}
with open ("output .wav", "wb") as f：
    f.write(r.content）
这将生成一个名为 output .wav 的WAV文件，其中包含语音合成的结果。 
有兴趣的有条件的同学可以下载体验一番，试一试！欢迎关注公粽号：Python兴趣圈，学习更多Python技能、开源项目推荐。
                    Coqui 文本转语音（Text-to-Speech，TTS）是新一代基于深度学习的低资源零样本文本转语音模型，具有合成多种语言语音的能力。该模型能够利用共同学习技术，从各语言的训练资料集转换知识，来有效降低需要的训练资料量。这个模型库现在已经在GitHub上开源，并有高达20.5K+的star量。似乎和以前讲过的Mozilla 的 TTS 有着千丝万缕的联系，但是如今Mozilla TTS 已经停止更新，而 Coqui TTS 更新稳定，是目前少数几个更新比较稳定的开源语音库。
				玛丽TTS
 这是多语言开源MARY文本语音转换平台（MaryTTS）的源代码存储库。 MaryTTS是用纯Java编写的客户端-服务器系统，因此它可以在许多平台上运行。
 有关准备使用的可下载软件包，请参见。
 较早的文档也可以在发现 ， 和 。
 该自述文件是MaryTTS源代码存储库的一部分。 它包含有关编译和开发MaryTTS源代码的信息。
 该代码位于次级通用公共许可证LGPL版本3下-有关详细信息，请参阅LICENSE.md。
运行MaryTTS
 运行./gradlew run （或gradlew.bat run在Windows上）启动MaryTTS服务器。 然后使用Web浏览器访问 。
 如果要在其他地址和端口上启动MaryTTS，则可以使用以下选项： 
./gradlew run -Dsocket.port=5920 -Dsocket.addr=0.0.0.0 --inf
				按照固有的思维方式，如果想要语音克隆首先得有克隆对象具体的语言语音样本，换句话说，克隆对象必须说过某一种语言的话才行，但现在，coqui-ai TTS V2.0版本做到了，真正的跨语种无需训练的语音克隆技术。
coqui-ai TTS实现跨语种、无需训练克隆语音的方法是基于Tacotron模型，该模型使用了一种音素输入表示来鼓励在不同语种之间共享模型容量。此外，还引入了对抗损失项，以鼓励模型将说话者身份与语音内容进行解耦。这使得模型能够在不同语种之间进行语音合成，而无需在任何双语或平行示例上进行训练。
				科奎STT （  :frog: STT）是一个开源的深度学习工具包，用于培训和部署语音到文本模型。  :frog: STT在生产和研究中都经过了实战测试 :rocket:
 安装，使用和培养模式文档，可以在 。
 有关最新版本（包括预先训练的模型和检查点）的信息，。
 有关贡献准则，请参阅 。
 有关联系和支持信息，请参见 。
				★★★★★★ 软件介绍 ★★★★★★一，软件名：TTS-Reader版本号：1.5二，功能介绍 ⒈功能清单 ①英文全文朗读　　英语朗读新增语气符号：陈述句语气符号为"."，感叹句语气符号"!"，疑问句语气符号为"?"。添加新的语气过滤后，更加接近真人发音！不信？您听听！^&^ ②中文全文朗读 ③中英文混合朗读 ④直接导入外部文本文件★⑤文本文件 → WAV音频文件（有转换进度条及时间提示） ⑥可进行暂停朗读、继续朗读、停止朗读等操作 ⑦朗读时亦可调整音量和语速 ⑧特有鼠标选定朗读、录入朗读功能 ⑨新增朗读角色选项，分别有3个角色朗读英文（2男1女），目前只有一个男中文朗读者★↘↓↙★★★↘↙★★★↘↓↙★欢迎您选用本版软件，该版本绝对不用其它任何体积庞大的语音库支持，真正无须金山词霸语音驱动支持，功能强大，体积娇小！采用XP界面方案，赏心悦目！希望她能给您的生活、生习和工作带来便利！同时，若您对本软件有任何意见、建议或是发现Bug（水平有限，Bug难免），请EMail我，没有您的支持就没有我的进步，谢谢使用！☆☆本软件采取自愿交费注册，注册后可在软件上提供个性服务（如：嵌入个性照片、个性文字、程序源代码等等）。 ★ 风之竹 20030718 QQ122512447 信息安全工作室 [email protected] fengzhizhu@hotmail.com http://isxuzhu.myrice.com
				TTS是用于高级文本转语音生成的库。 它以最新研究为基础，旨在在易于培训，速度和质量之间取得最佳平衡。 TTS带有，用于测量数据集质量的工具，并且已经以20多种语言用于产品和研究项目。
 :loudspeaker: 和
 :man::cooking: 
 :page_facing_up:
 :speech_balloon: 在哪里问问题
请使用我们专用的渠道提问和讨论。 如果帮助是公开共享的，则帮助将变得更加有价值，以便更多的人可以从中受益。
 :police_car_light: 错误报告
 :white_question_mark: 常问问题
 :wrapped_gift: 功能要求和想法
 :woman::laptop: 使用问题
 :right_anger_bubble: 一般讨论;一般交流
 :link: 链接与资源
 :floppy_disk: 安装
 :school:教程和示例
 :rocket: 发行型号
 :laptop: Docker镜像
 :desktop_computer: 演示服务器
 :robot: 在终端上运行TTS
				Coqui TTS GUI解决方案
AceOfSpadesProduc100提供的图形用户界面，用于以文本编辑器的形式使用发布的TTS和声码器模型，该文本编辑器是使用Tkinter制作的。 这是TTS 0.0.10的附加组件，因为它应该已经成为TTS 0.0.10版本的一部分。
从此存储库下载或克隆：  : 
 将gui.py和synthesize.py复制到TTS / bin中，覆盖现有的synthesize.py
 按照资源库自述文件中的说明从源代码安装：
pip install -e .
 安装simpleaudio： 
pip install simpleaudio
 运行以下命令： 
tts --start_gui
 （Linux用户）请先安装以下软件： 
sudo apt install python3-tk
sudo apt-get install -y pytho
				Coqui TTS是一种基于开源技术的语音合成引擎，它使用Tacotron 2和WaveGlow模型，能够生成自然流畅的语音。对接Coqui TTS需要以下步骤：
1.准备数据：
要对接Coqui TTS，需要准备声音数据库、音素数据库以及语音标注数据。语音数据库是指人们在日常生活中发出的语音音频记录，音素库是指语音的最小语音单位，需要用音素辅助提高语音合成质量，语音标注数据是将语音数据与文字文本建立对应关系。
2.训练模型：
使用训练数据集训练机器学习模型Tacotron 2和WaveGlow，让它们能够根据输入的文本输出对应的语音音频。
3.配置及调试：
配置Coqui TTS的环境，包括安装必要的软件和依赖、配置训练用的硬件设备等。通过模型输出音频，检查语音合成的质量，调整参数以得到更好的效果。
4.应用：
将Coqui TTS与需要语音合成功能的应用程序进行对接。例如，将其应用于智能家居、语音助手、机器人等领域，使用户能够通过语音与设备进行交互。
总的来说，对接Coqui TTS需要一定的技术积累和实践经验。但使用Coqui TTS可以实现自然流畅的语音合成，在使用与交互方便性上都有极大的提升。