如果运行的是 32 位 Windows,请选择 x86。
选择“确定”,然后选择“关闭”。
本指南介绍如何安装用于 .NET Core 控制台应用的语音 SDK。 .NET Core 是一个实现了 .NET Standard 规范的开源跨平台 .NET 平台。
本指南需要:
适用于 Windows 平台的 Microsoft Visual C++ Redistributable for Visual Studio 2019。 首次安装此包时,可能需要重启。
.NET Core SDK。
Visual Studio 2017 或更高版本。
创建 Visual Studio 项目并安装语音 SDK
启动 Visual Studio 2019。
确保“.NET 跨平台开发” 工作负荷可用。 在 Visual Studio 菜单栏中选择“工具”>“获取工具和功能”,以打开 Visual Studio 安装程序。 如果此工作负荷已启用,请关闭对话框。
否则,请选择“.NET Core 跨平台开发”旁边的框,然后选择对话框右下角的“修改”。 安装新功能将花费一些时间。
创建新的 Visual C# .NET Core 控制台应用。 在“新建项目”对话框中,从左侧窗格中展开“已安装”>“Visual C#”>“.NET Core”。 然后,选择“控制台应用(.NET Core)” 。 在项目名称处,输入 helloworld 。
安装并引用语音 SDK NuGet 包。 在解决方案资源管理器中,右键单击该解决方案,并选择“为解决方案管理 NuGet 包” 。
在右上角的“包源”框中,选择“nuget.org”。搜索“Microsoft.CognitiveServices.Speech”包,并将其安装到“helloworld”项目中。
接受显示的许可证即可开始安装 NuGet 包。
安装此包后,在包管理器控制台中会显示一条确认消息。
本指南介绍如何安装用于 Unity 的语音 SDK。
适用于 Unity 开发的语音 SDK 支持 Windows 桌面版(x86 和 x64)或通用 Windows 平台(x86、x64、ARM/ARM64)、Android(x86、ARM32/64)、iOS(x64 模拟器和 ARM64)和 Mac (x64)。
本指南需要:
适用于 Windows 平台的 Microsoft Visual C++ Redistributable for Visual Studio 2019。 首次安装此包时,可能需要重启。
Unity 2018.3 或更高版本,以及支持 UWP ARM64 的 Unity 2019.1。
Visual Studio 2019。 也可以使用 Visual Studio 2017 版本 15.9 或更高版本。
为了支持 Windows ARM64,请安装适用于 ARM64 的可选生成工具以及适用于 ARM64 的 Windows 10 SDK。
在 Android 上,需要一台可用于开发的基于 ARM 的 Android 设备(API 23:Android 6.0 Marshmallow 或更高版本),并配备正常工作的麦克风。
在 iOS 上,需要一台可用于开发的 iOS 设备 (ARM64),并配备正常工作的麦克风。
在 macOS 上,需要 Mac 设备 (x64) 和最新 LTS 版本的 Unity 2019(或更高版本),以便在 Unity Player 设置中实现对麦克风访问的集成支持。
安装适用于 Unity 的语音 SDK
若要安装适用于 Unity 的语音 SDK,请执行以下步骤:
下载并打开适用于 Unity 的语音 SDK。 该程序打包为 Unity 资产包 (.unitypackage),应该已经与 Unity 关联。 打开资产包后,会显示“导入 Unity 包”对话框。 可能需要创建并打开一个空项目才能执行此步骤。
确保选择所有文件,然后选择“导入”。 片刻之后,Unity 资产包即会导入到项目中。
有关将资产包导入 Unity 的详细信息,请参阅 Unity 文档。
本指南介绍如何创建通用 Windows 平台 (UWP) 项目并安装适用于 C# 的语音 SDK。 通用 Windows 平台允许开发在支持 Windows 10 的任何设备上运行的应用,包括电脑、Xbox、Surface Hub 和其他设备。
本指南需要:
适用于 Windows 平台的 Microsoft Visual C++ Redistributable for Visual Studio 2019。 首次安装此包时,可能需要重启。
Visual Studio 2019(版本不限)。
创建 Visual Studio 项目并安装语音 SDK
若要为 UWP 开发创建 Visual Studio 项目,需执行以下操作:
设置 Visual Studio 开发选项。
创建项目并选择目标体系结构。
设置音频捕获。
安装语音 SDK。
设置 Visual Studio 开发选项
若要开始,请确保已在 Visual Studio 中正确设置以用于 UWP 开发:
打开 Visual Studio 2019 以显示“开始”窗口。
选择“继续但无需代码” ,转到 Visual Studio IDE。
在 Visual Studio 菜单栏中,选择“工具”>“获取工具和功能”以打开 Visual Studio 安装程序并查看“修改”对话框。
在“工作负载”选项卡的“Windows”下,找到“通用 Windows 平台开发”工作负载。 如果已选中该工作负载旁的复选框,请关闭“修改”对话框,然后转到步骤 7。
选中“通用 Windows 平台开发”复选框,然后选择“修改”。
在“准备工作”对话框中,选择“继续”以安装 UWP 开发工作负载。 安装新功能可能花费一些时间。
关闭 Visual Studio 安装程序。
接下来,创建项目并选择目标体系结构:
在 Visual Studio 菜单栏中,选择“文件” >“新建” >“项目” 以显示“创建新项目” 窗口。
查找并选择“空白应用(通用 Windows)”。 确保选择此项目类型的 C# 版本(而不是 Visual Basic)。
选择“下一步”。
在“配置新项目”对话框的“项目名称”中,输入“helloworld”。
在“位置”中,转到并选择(或创建)要用于保存项目的文件夹。
选择“创建”。
在“新建通用 Windows 平台项目”窗口的“最低版本”(第二个下拉框)中,选择“Windows 10 Fall Creators Update (10.0;内部版本 16299)”。 这是对语音 SDK 的最低要求。
在“目标版本” (第一个下拉框)中,选择与“最低版本” 中的值相等或更高的值。
选择“确定”。 返回到 Visual Studio IDE,其中新项目已创建并显示在“解决方案资源管理器”窗格中。
选择目标平台体系结构。 在 Visual Studio 工具栏中,找到“解决方案平台” 下拉框。 如果找不到,请选择“查看”>“工具栏”>“标准”以显示包含“解决方案平台”的工具栏。
如果运行的是 64 位 Windows,请在下拉框中选择“x64”。 64 位 Windows 也可以运行 32 位应用程序,因此可以根据自己的偏好选择“x86” 。
语音 SDK 支持所有与 Intel 兼容的处理器,但仅支持“x64”版的 ARM 处理器。
设置音频捕获
允许项目捕获音频输入:
在“解决方案资源管理器”中,双选“Package.appxmanifest”,以打开包应用程序清单。
选择“功能”选项卡。
选中“麦克风”功能对应的框。
在菜单栏中,选择“文件”>“保存 Package.appxmanifest”以保存所做的更改。
安装适用于 UWP 的语音 SDK
最后,安装语音 SDK NuGet 包,并在项目中引用语音 SDK:
在“解决方案资源管理器”中,右键单击你的解决方案,然后选择“管理解决方案的 NuGet 包”以转到“NuGet - 解决方案”窗口。
选择“浏览”。
在“包源”中,选择“nuget.org”。
在“搜索”框中,输入 Microsoft.CognitiveServices.Speech。 在该包显示在搜索结果中之后选择该包。
在搜索结果旁的“包状态”窗格中,选择“helloworld” 项目。
选择“安装” 。
在“预览更改”对话框中,选择“确定”。
在“接受许可证”对话框中,查看许可证,然后选择“我接受”。 包安装随即开始。 安装完成后,“输出”窗格会显示类似于以下文本的消息:Successfully installed 'Microsoft.CognitiveServices.Speech 1.15.0' to helloworld
。
本指南演示如何创建 Xamarin 窗体项目并安装语音 SDK。 Xamarin 是一个开放源代码平台,用于通过 .NET 为 iOS、Android 和 Windows 构建现代的高性能应用程序。
适用于 Xamarin 开发的语音 SDK 支持 Windows 桌面版(x86 和 x64)或通用 Windows 平台(x86、x64、ARM/ARM64)、Android(x86、ARM32/64)和 iOS(x64 模拟器和 ARM64)。
本指南需要:
适用于 Windows 平台的 Microsoft Visual C++ Redistributable for Visual Studio 2019。 首次安装此包时,可能需要重启。
Visual Studio 2019。
创建 Visual Studio 项目并安装语音 SDK
若要创建 Visual Studio 项目,以便使用 .NET 和 Xamarin 进行跨平台移动应用开发,需执行以下操作:
设置 Visual Studio 开发选项。
创建项目并选择目标体系结构。
安装语音 SDK。
设置 Visual Studio 开发选项
若要开始,请确保已在 Visual Studio 中正确进行设置,以便使用 .NET 进行跨平台移动开发:
打开 Visual Studio 2019。
在 Visual Studio 菜单栏中,选择“工具”>“获取工具和功能”以打开 Visual Studio 安装程序并查看“修改”对话框。
在“工作负荷” 选项卡的“Windows” 下,找到“使用 .NET 的移动开发”工作负荷 。 如果已选中该工作负载旁的复选框,请关闭“修改”对话框,然后转到步骤 6。
选中“使用 .NET 的移动开发”复选框,然后选择“修改”。
在“准备工作”对话框中,选择“继续”以安装使用 .NET 进行移动开发的工作负载。 安装新功能可能花费一些时间。
关闭 Visual Studio 安装程序。
接下来,创建项目并选择目标体系结构:
在 Visual Studio 菜单栏中,选择“文件” >“新建” >“项目” 以显示“创建新项目” 窗口。
找到并选择“移动应用(Xamarin.Forms)” 。
选择“下一步”。
在“配置新项目”对话框的“项目名称”中,输入“helloworld”。
在“位置”中,转到并选择或创建要用于保存项目的文件夹。
选择“创建” 。
在“新建跨平台应用”窗口中,选择“空白”模板,然后选择“确定”。
在“平台”中, 选择 Android、iOS 和 Windows (UWP) 对应的框。
选择“确定” 。 返回到 Visual Studio IDE,其中新项目已创建并显示在“解决方案资源管理器 ”窗格中。
选择目标平台体系结构和启动项目。 在 Visual Studio 工具栏中,找到“解决方案平台” 下拉框。 如果找不到,请选择“查看”>“工具栏”>“标准”以显示包含“解决方案平台”的工具栏。
如果运行的是 64 位 Windows,请在下拉框中选择“x64”。 64 位 Windows 也可以运行 32 位应用程序,因此可以根据需要选择“x86” 。
在“启动项目”下拉框中,选择“helloworld.UWP (通用 Windows)”。
安装适用于 Xamarin 的语音 SDK
安装语音 SDK NuGet 包,并在项目中引用语音 SDK:
在解决方案资源管理器中,右键单击解决方案。 选择“管理解决方案的 NuGet 包” ,转到“NuGet - 解决方案”窗口。
选择“浏览” 。
在“包源”中,选择“nuget.org”。
在“搜索”框中,输入 Microsoft.CognitiveServices.Speech。 然后在该包显示在搜索结果中之后选择该包。
Microsoft.CognitiveServices.Speech NuGet 中的 iOS 库未启用 Bitcode。 如果需要为应用程序启用 Bitcode 库,请使用专用于 iOS 项目的 Microsoft.CognitiveServices.Speech.Xamarin.iOS NuGet。
在搜索结果旁的“包状态”窗格中,选择所有项目:helloworld、helloworld.Android、helloworld.iOS 和 helloworld.UWP。
选择“安装” 。
在“预览更改”对话框中,选择“确定”。
在“接受许可证”对话框中,查看许可证,然后选择“我接受”。 安装所有项目的语音 SDK 包引用。
安装成功完成后,可能会看到下述针对 helloworld.iOS 的警告。 这是已知问题,不会影响应用功能。
Could not resolve reference "C:\Users\Default\.nuget\packages\microsoft.cognitiveservices.speech\1.7.0\build\Xamarin.iOS\libMicrosoft.CognitiveServices.Speech.core.a". If this reference is required by your code, you may get compilation errors.
语音 SDK 现已安装。 现在可以删除或重复使用在前面的步骤中创建的“helloworld”项目。
在 Linux 上使用时,适用于 C++ 的语音 SDK 仅支持 x86 (Debian/Ubuntu)、x64、ARM32 (Debian/Ubuntu) 和 ARM64 (Debian/Ubuntu) 体系结构上的 Ubuntu 18.04/20.04/22.04、Debian 10/11、Red Hat Enterprise Linux (RHEL) 7/8 和 CentOS 7/8
使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。
语音 SDK 依赖于以下 Linux 系统库:
GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads
)
OpenSSL 库 (libssl
) 版本 1.x 和证书 (ca-certificates
)
ALSA 应用程序的共享库 (libasound
)
还应安装 ca-certificates
以建立安全的 Websocket 并避免此 WS_OPEN_ERROR_UNDERLYING_IO_OPEN_FAILED
错误。
语音 SDK 尚不支持 OpenSSL 3.0(Ubuntu 22.04 和 Debian 12 中的默认版本)。
若要在没有 OpenSSL 1.x 的基于 Debian/Ubuntu 的系统上从源代码安装 OpenSSL 1.x,请输入以下内容:
wget -O - https://www.openssl.org/source/openssl-1.1.1u.tar.gz | tar zxf -
cd openssl-1.1.1u
./config --prefix=/usr/local
make -j $(nproc)
sudo make install_sw install_ssldirs
sudo ldconfig -v
export SSL_CERT_DIR=/etc/ssl/certs
安装说明:
查看 https://www.openssl.org/source/,获取要使用的最新 OpenSSL 1.x 版本。
SSL_CERT_DIR
的设置必须在系统范围内生效,或者至少在从中启动使用语音 SDK 的应用程序的控制台中有效,否则安装在 /usr/local
中的 OpenSSL 1.x 可能无法找到证书。
确保来自 ldconfig -v
的控制台输出包含 /usr/local/lib
,因为它在默认情况下应使用新式系统。 如果不是这样,请设置 LD_LIBRARY_PATH
(其范围与 SSL_CERT_DIR
相同),以便将 /usr/local/lib
添加到库路径:export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
若要在 Alpine Linux 中使用语音 SDK,请按照 Alpine Linux Wiki 中的运行 glibc 程序所述创建 Debian chroot 环境。 然后按照此处的 Debian 说明操作。
sudo apt-get update
sudo apt-get install build-essential libssl-dev ca-certificates libasound2 wget
sudo yum update
sudo yum groupinstall "Development tools"
sudo yum install alsa-lib openssl wget
在 RHEL/CentOS 7 上,按照如何为语音 SDK 配置 RHEL/CentOS 7 上的说明进行操作。
在 RHEL/CentOS 8 上,按照按照如何为 Linux 配置 OpenSSL 上的说明进行操作。
本指南介绍如何安装用于 Linux 的语音 SDK。
使用以下过程下载并安装 SDK。 这些步骤包括从 https://aka.ms/csspeech/linuxbinary 以 .tar 文件格式下载必需的库和头文件。
选择应将语音 SDK 文件提取到的目录,然后将 SPEECHSDK_ROOT
环境变量设置为指向该目录。 使用此变量,在将来的命令中可以轻松引用目录。
例如,如果要使用主目录中的 speechsdk
目录,请使用如下所示的命令:
export SPEECHSDK_ROOT="$HOME/speechsdk"
如果该目录尚不存在,则创建该目录:
mkdir -p "$SPEECHSDK_ROOT"
下载并提取包含语音 SDK 二进制文件的 .tar.gz
存档:
wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
验证所提取的程序包的顶级目录的内容:
ls -l "$SPEECHSDK_ROOT"
目录列表应包含第三方声明和许可证文件。 该列表还应包含容纳头文件 (.h
) 的 include
目录和容纳 arm32、arm64、x64 和 x86 库的 lib
目录。
本指南介绍如何安装用于 macOS 10.14 或更高版本上的 C++ 的语音 SDK。 这些步骤包括从 https://aka.ms/csspeech/macosbinary 以 .zip 文件格式下载必需的库和头文件。
选择应将语音 SDK 文件提取到的目录,然后将 SPEECHSDK_ROOT
环境变量设置为指向该目录。 使用此变量,在将来的命令中可以轻松引用目录。
例如,如果要使用主目录中的 speechsdk
目录,请使用如下所示的命令:
export SPEECHSDK_ROOT="$HOME/speechsdk"
如果该目录尚不存在,则创建该目录:
mkdir -p "$SPEECHSDK_ROOT"
下载并提取包含语音 SDK XCFramework 的 .zip 存档:
wget -O SpeechSDK-macOS.zip https://aka.ms/csspeech/macosbinary
unzip SpeechSDK-macOS.zip -d "$SPEECHSDK_ROOT"
验证所提取的程序包的顶级目录的内容:
ls -l "$SPEECHSDK_ROOT"
目录列表应包含第三方声明、许可证文件以及 MicrosoftCognitiveServicesSpeech.xcframework
目录。
此安装指南需要:
适用于 Windows 平台的 Microsoft Visual C++ Redistributable for Visual Studio 2019。 首次安装此包时,可能需要重启。
Visual Studio 2019。
在 Visual Studio 上创建项目并安装语音 SDK
若要为 C++ 桌面开发创建 Visual Studio 项目,需执行以下操作:
设置 Visual Studio 开发选项。
创建项目。
选择目标体系结构。
安装语音 SDK。
设置 Visual Studio 开发选项
若要开始,请确保已在 Visual Studio 中正确设置以用于 C++ 桌面开发:
打开 Visual Studio 2019 以显示“开始”窗口。
选择“继续但无需代码” ,转到 Visual Studio IDE。
在 Visual Studio 菜单栏中,选择“工具”>“获取工具和功能”以打开 Visual Studio 安装程序并查看“修改”对话框。
在“工作负载”选项卡的“Windows”下,找到“使用 C++ 的桌面开发”工作负载。 如果尚未选择该工作负载旁边的复选框,请选中。
在“单个组件”选项卡中,找到“NuGet 包管理器”复选框。 如果尚未选中此复选框,请选中。
选择角上的标签为“关闭”或“修改”的按钮。 按钮名称会有所不同,具体取决于你是否选择了任何功能以进行安装。
如果选择“修改”,将开始安装。 此过程可能需要一些时间。
关闭 Visual Studio 安装程序。
接下来,创建项目并选择目标体系结构:
在 Visual Studio 菜单栏中,选择“文件” >“新建” >“项目” 以显示“创建新项目” 窗口。
找到“控制台应用”并将其选中 。 确保选择此项目类型的 C++ 版本,而不是 C# 或 Visual Basic。
选择“下一页”。
在“配置新项目”对话框的“项目名称”中,输入“helloworld”。
在“位置”中,转到并选择或创建要用于保存项目的文件夹,然后选择“创建”。
选择目标平台体系结构。 在 Visual Studio 工具栏中,找到“解决方案平台” 下拉框。 如果找不到,请选择“查看”>“工具栏”>“标准”以显示包含“解决方案平台”的工具栏。
如果运行的是 64 位 Windows,请在下拉框中选择“x64”。 64 位 Windows 也可以运行 32 位应用程序,因此可以根据自己的偏好选择“x86” 。
使用 Visual Studio 安装语音 SDK
最后,安装语音 SDK NuGet 包,并在项目中引用语音 SDK:
在“解决方案资源管理器”中,右键单击你的解决方案,然后选择“管理解决方案的 NuGet 包”以转到“NuGet - 解决方案”窗口。
选择“浏览”。
在“包源”中,选择“nuget.org”。
在“搜索”框中,输入 Microsoft.CognitiveServices.Speech。 在该包显示在搜索结果中之后选择该包。
在搜索结果旁的“包状态”窗格中,选择“helloworld” 项目。
选择“安装” 。
在“预览更改”对话框中,选择“确定”。
在“接受许可证”对话框中,查看许可证,然后选择“我接受”。 包安装随即开始。 安装完成后,“输出”窗格会显示类似于以下文本的消息:Successfully installed 'Microsoft.CognitiveServices.Speech 1.15.0' to helloworld
。
本指南介绍如何安装用于 Go 的语音 SDK。
适用于 Go 的语音 SDK 在 Linux 上使用时,仅支持 x64 体系结构上的 Ubuntu 18.04/20.04/22.04、Debian 9/10/11、Red Hat Enterprise Linux (RHEL) 8 和 CentOS 8。
使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。
语音 SDK 依赖于以下 Linux 系统库:
GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads
)
OpenSSL 库 (libssl
) 版本 1.x 和证书 (ca-certificates
)
ALSA 应用程序的共享库 (libasound
)
还应安装 ca-certificates
以建立安全的 Websocket 并避免此 WS_OPEN_ERROR_UNDERLYING_IO_OPEN_FAILED
错误。
语音 SDK 尚不支持 OpenSSL 3.0(Ubuntu 22.04 和 Debian 12 中的默认版本)。
若要在没有 OpenSSL 1.x 的基于 Debian/Ubuntu 的系统上从源代码安装 OpenSSL 1.x,请输入以下内容:
wget -O - https://www.openssl.org/source/openssl-1.1.1u.tar.gz | tar zxf -
cd openssl-1.1.1u
./config --prefix=/usr/local
make -j $(nproc)
sudo make install_sw install_ssldirs
sudo ldconfig -v
export SSL_CERT_DIR=/etc/ssl/certs
安装说明:
查看 https://www.openssl.org/source/,获取要使用的最新 OpenSSL 1.x 版本。
SSL_CERT_DIR
的设置必须在系统范围内生效,或者至少在从中启动使用语音 SDK 的应用程序的控制台中有效,否则安装在 /usr/local
中的 OpenSSL 1.x 可能无法找到证书。
确保来自 ldconfig -v
的控制台输出包含 /usr/local/lib
,因为它在默认情况下应使用新式系统。 如果不是这样,请设置 LD_LIBRARY_PATH
(其范围与 SSL_CERT_DIR
相同),以便将 /usr/local/lib
添加到库路径:export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
若要在 Alpine Linux 中使用语音 SDK,请按照 Alpine Linux Wiki 中的运行 glibc 程序所述创建 Debian chroot 环境。 然后按照此处的 Debian 说明操作。
sudo apt-get update
sudo apt-get install build-essential libssl-dev ca-certificates libasound2 wget
sudo yum update
sudo yum groupinstall "Development tools"
sudo yum install alsa-lib openssl wget
在 RHEL/CentOS 7 上,按照如何为语音 SDK 配置 RHEL/CentOS 7 上的说明进行操作。
在 RHEL/CentOS 8 上,按照按照如何为 Linux 配置 OpenSSL 上的说明进行操作。
必须安装 Go 二进制版本 1.13 或更高版本。
安装适用于 Go 的语音 SDK
使用以下过程下载并安装 SDK。 这些步骤包括从 https://aka.ms/csspeech/linuxbinary 以 .tar 文件格式下载必需的库和头文件。
选择应将语音 SDK 文件提取到的目录,然后将 SPEECHSDK_ROOT
环境变量设置为指向该目录。 使用此变量,在将来的命令中可以轻松引用目录。
例如,如果要使用主目录中的 speechsdk
目录,请使用如下所示的命令:
export SPEECHSDK_ROOT="$HOME/speechsdk"
如果该目录尚不存在,则创建该目录:
mkdir -p "$SPEECHSDK_ROOT"
下载并提取包含语音 SDK 二进制文件的 .tar.gz
存档:
wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
验证所提取的程序包的顶级目录的内容:
ls -l "$SPEECHSDK_ROOT"
目录列表应包含第三方声明和许可证文件。 该列表还应包含容纳头文件 (.h
) 的 include
目录和容纳 arm32、arm64、x64 和 x86 库的 lib
目录。
通过以下步骤可使 Go 环境能够查找语音 SDK。 在两个步骤中,将 <architecture>
替换为 CPU 的处理器体系结构。 即为 x86
、x64
、arm32
或 arm64
。
由于绑定依赖于 cgo
,因此需要设置环境变量,以便 Go 可以找到 SDK。
将以下代码片段中的 <architecture>
替换为与你的设置对应的“x86”、“x64”、“arm32”或“arm64”
export CGO_CFLAGS="-I$SPEECHSDK_ROOT/include/c_api"
export CGO_LDFLAGS="-L$SPEECHSDK_ROOT/lib/<architecture> -lMicrosoft.CognitiveServices.Speech.core"
若要运行应用程序和 SDK,需要告知操作系统可在何处可以找到库。
将以下代码片段中的 <architecture>
替换为与你的设置对应的“x86”、“x64”、“arm32”或“arm64”
export LD_LIBRARY_PATH="$SPEECHSDK_ROOT/lib/<architecture>:$LD_LIBRARY_PATH"
参考文档 | GitHub 上的其他示例
本指南介绍如何安装用于 Java 的语音 SDK。
选择目标环境
Java 运行时
Android
在 Windows 上,你必须使用 64 位目标体系结构。 需要 Windows 10 或更高版本。
必须安装适用于你的平台的 Microsoft Visual C++ Redistributable for Visual Studio 2015、2017、2019 或 2022。 首次安装此包时,可能需要重启。
适用于 Java 的语音 SDK 不支持 ARM64 上的 Windows。
在 Linux 上使用时,适用于 Java 的语音 SDK 仅支持 x64、ARM32 (Debian/Ubuntu) 和 ARM64 (Debian/Ubuntu) 体系结构上的 Ubuntu 18.04/20.04/22.04、Debian 10/11、Red Hat Enterprise Linux (RHEL) 7/8 和 CentOS 7/8
使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。
语音 SDK 依赖于以下 Linux 系统库:
GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads
)
OpenSSL 库 (libssl
) 版本 1.x 和证书 (ca-certificates
)
ALSA 应用程序的共享库 (libasound
)
还应安装 ca-certificates
以建立安全的 Websocket 并避免此 WS_OPEN_ERROR_UNDERLYING_IO_OPEN_FAILED
错误。
语音 SDK 尚不支持 OpenSSL 3.0(Ubuntu 22.04 和 Debian 12 中的默认版本)。
若要在没有 OpenSSL 1.x 的基于 Debian/Ubuntu 的系统上从源代码安装 OpenSSL 1.x,请输入以下内容:
wget -O - https://www.openssl.org/source/openssl-1.1.1u.tar.gz | tar zxf -
cd openssl-1.1.1u
./config --prefix=/usr/local
make -j $(nproc)
sudo make install_sw install_ssldirs
sudo ldconfig -v
export SSL_CERT_DIR=/etc/ssl/certs
安装说明:
查看 https://www.openssl.org/source/,获取要使用的最新 OpenSSL 1.x 版本。
SSL_CERT_DIR
的设置必须在系统范围内生效,或者至少在从中启动使用语音 SDK 的应用程序的控制台中有效,否则安装在 /usr/local
中的 OpenSSL 1.x 可能无法找到证书。
确保来自 ldconfig -v
的控制台输出包含 /usr/local/lib
,因为它在默认情况下应使用新式系统。 如果不是这样,请设置 LD_LIBRARY_PATH
(其范围与 SSL_CERT_DIR
相同),以便将 /usr/local/lib
添加到库路径:export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
若要在 Alpine Linux 中使用语音 SDK,请按照 Alpine Linux Wiki 中的运行 glibc 程序所述创建 Debian chroot 环境。 然后按照此处的 Debian 说明操作。
sudo apt-get update
sudo apt-get install build-essential libssl-dev ca-certificates libasound2 wget
sudo yum update
sudo yum groupinstall "Development tools"
sudo yum install alsa-lib openssl wget
在 RHEL/CentOS 7 上,按照如何为语音 SDK 配置 RHEL/CentOS 7 上的说明进行操作。
在 RHEL/CentOS 8 上,按照按照如何为 Linux 配置 OpenSSL 上的说明进行操作。
必须安装 Java 开发工具包,例如 Azul Zulu OpenJDK。 Microsoft Build of OpenJDK 或你喜欢的 JDK 应该也能正常工作。
安装适用于 Java 的语音 SDK
某些说明使用特定的 SDK 版本,例如 1.24.2
。 可以通过搜索我们的 GitHub 存储库查看最新版本。
选择目标环境
Java 运行时
Android
安装 Apache Maven。
在需要新项目的地方打开命令提示符,并创建一个新的 pom.xml
文件。
将以下 XML 内容复制到 pom.xml
中:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
<artifactId>quickstart-eclipse</artifactId>
<version>1.0.0-SNAPSHOT</version>
<build>
<sourceDirectory>src</sourceDirectory>
<plugins>
<plugin>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.7.0</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
</plugins>
</build>
<dependencies>
<dependency>
<groupId>com.microsoft.cognitiveservices.speech</groupId>
<artifactId>client-sdk</artifactId>
<version>1.32.1</version>
</dependency>
</dependencies>
</project>
若要安装语音 SDK 和依赖项,请运行以下 Maven 命令。
mvn clean dependency:copy-dependencies
此时将显示“新建 POM”窗口。 在“组 ID”字段中,输入“com.microsoft.cognitiveservices.speech.samples”。 在“项目 ID”字段中,输入“快速入门”。 然后选择“完成”。
打开 pom.xml 文件并对其进行编辑:
在文件末尾,在结束标记 </project>
前面添加一个 dependencies
元素,并将语音 SDK 作为依赖项:
<dependencies>
<dependency>
<groupId>com.microsoft.cognitiveservices.speech</groupId>
<artifactId>client-sdk</artifactId>
<version>1.32.1</version>
</dependency>
</dependencies>
保存更改。
dependencies {
implementation group: 'com.microsoft.cognitiveservices.speech', name: 'client-sdk', version: "1.32.1", ext: "jar"
本指南介绍如何安装用于 Java on Android 的语音 SDK。
将适用于 Android 的语音 SDK 打包为 Android 存档 (AAR) 文件,其中包含必要的库以及所需的 Android 权限。
使用 Android Studio 安装语音 SDK
在 Android Studio 中创建新项目,并将适用于 Java 的语音 SDK 添加为库依赖项。 该安装基于语音 SDK Maven 包和 Android Studio Chipmunk 2021.2.1。
创建一个空的项目
打开 Android Studio,然后选择“新建项目”。
在出现的“新建项目”窗口中,选择“电话和平板”>“空活动”,然后选择“下一步”。
在“名称”文本框中输入 SpeechQuickstart。
在“包名称”文本框中输入 samples.speech.cognitiveservices.microsoft.com。
在“保存位置”选择框中选择项目目录。
在“语言”选择框中选择 “Java”。
在“最低 API 级别”选择框中选择 “API 23:Android 6.0 (Marshmallow)”。
选择“完成”。
Android Studio 需要一些时间来准备你的新项目。 如果这是你第一次使用 Android Studio,设置首选项、接受许可证并完成向导可能需要几分钟时间。
在 Android 上安装适用于 Java 的语音 SDK
将语音 SDK 添加为项目中的依赖项。
选择“文件”>“项目结构”>“依赖项”>“应用”。
选择加号 (+),在“声明的依赖项”下添加依赖项。 然后从下拉菜单中选择“库依赖项”。
在显示的“添加库依赖项”窗口中,输入适用于 Java 的语音 SDK 的名称和版本:com.microsoft.cognitiveservices.speech:client-sdk:1.32.1。 然后选择“搜索”。
确保所选的“组 ID” 为 com.microsoft.cognitiveservices.speech,然后选择“确定”。
选择“确定”,关闭“项目结构”窗口并应用对项目所做的更改。
参考文档包 (npm)GitHub 上的其他示例库源代码
本指南介绍如何安装用于 JavaScript 的语音 SDK。
适用于 JavaScript 的语音 SDK 以 npm 包的形式提供。 请参阅 microsoft-cognitiveservices-speech-sdk 及其配套的 GitHub 存储库 cognitive-services-speech-sdk-js。
请务必考虑 Node.js 和客户端 Web 浏览器之间的各种体系结构影响。 例如,文档对象模型 (DOM) 不可用于服务器端应用程序,就像 Node.js 文件系统不可用于客户端应用程序一样。
安装适用于 JavaScript 的语音 SDK
请根据目标环境使用以下指南之一:
选择目标环境
Node.js
基于浏览器
本指南介绍如何安装可以在 Node.js 中使用的 JavaScript 版语音 SDK。 如果你只是需要包名称以便自行开始操作,请从现有项目运行 npm install microsoft-cognitiveservices-speech-sdk
。
本快速入门需要 Node.js。
创建 npm 项目
创建一个新目录,运行 npm init
并浏览其提示。
添加语音 SDK 包
运行 npm install microsoft-cognitiveservices-speech-sdk
。
本指南介绍如何安装可以在 Node.js 中使用的 JavaScript 版语音 SDK。
安装 Node.js。
创建一个新目录,运行 npm init
并浏览其提示。
若要安装适用于 JavaScript 的语音 SDK,请运行以下 npm install
命令:
npm install microsoft-cognitiveservices-speech-sdk
有关详细信息,请参阅 Node.js 示例。
本指南介绍如何安装可以在网页中使用的适用于 JavaScript 的语音 SDK。
解压缩到文件夹
新建空文件夹。 如果要在 Web 服务器上托管示例,请确保 Web 服务器可访问文件夹。
将语音 SDK 作为 .zip 包下载,并将其解压缩到新建文件夹。 已解压缩这些文件:
microsoft.cognitiveservices.speech.sdk.bundle.js:语音 SDK 的人工可读版本。
microsoft.cognitiveservices.speech.sdk.bundle.js.map:用于调试 SDK 代码的映射文件。
microsoft.cognitiveservices.speech.sdk.bundle.d.ts:用于 TypeScript 的对象定义。
microsoft.cognitiveservices.speech.sdk.bundle-min.js:语音 SDK 的缩小版本。
speech-processor.js:用于提高某些浏览器性能的代码。
在文件夹中创建名为 index.html 的新文件,使用文本编辑器打开此文件。
HTML 脚本标记
从适用于 JavaScript 的语音 SDK 中下载并提取 microsoft.cognitiveservices.speech.sdk.bundle.js 文件。 将其置于可供 HTML 文件访问的文件夹中。
<script src="microsoft.cognitiveservices.speech.sdk.bundle.js"></script>;
如果以 Web 浏览器为目标并使用 <script>
标记,则不需 sdk
前缀。 sdk
前缀是一个别名,用于为 require
模块命名。
或者,可以直接在 HTML <head>
元素中包含一个 <script>
标记,该标记依赖于 JSDelivr NPM 联合项。
<script src="https://cdn.jsdelivr.net/npm/microsoft-cognitiveservices-speech-sdk@latest/distrib/browser/microsoft.cognitiveservices.speech.sdk.bundle-min.js">
</script>
有关详细信息,请参阅基于浏览器的示例。
使用语音 SDK
添加以下 import 语句以在 JavaScript 项目中使用语音 SDK:
import * as sdk from "microsoft-cognitiveservices-speech-sdk";
有关 import
的详细信息,请参阅 JavaScript 网站上的导出和导入。
或者,可以使用 require 语句:
const sdk = require("microsoft-cognitiveservices-speech-sdk");
参考文档包(下载)GitHub 上的其他示例
本指南介绍如何安装用于 Objective-C 的语音 SDK。
有关使用适用于 Swift 的语音 SDK 的详细信息,请参阅将 Objective-C 导入 Swift 。
安装适用于 Objective-C 的语音 SDK
macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。
转到 .xcodeproj
项目文件所在的 Xcode 目录。
运行 pod init
以创建一个名为 Podfile
的 Pod 文件。
将 Podfile
的内容替换为以下内容。 将 target
名称从“AppName”更新为应用的名称。 根据需要更新平台或 Pod 版本。
platform :osx, 10.14
use_frameworks!
target 'AppName' do
pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.32.1'
运行 pod install
以安装语音 SDK。
或者,可以下载二进制 CocoaPod 并解压缩以提取其内容。 在 Xcode 项目中,添加对提取的“MicrosoftCognitiveServicesSpeech.xcframework”文件夹及其内容的引用。
.NET 开发人员可以使用 Xamarin.Mac 应用程序框架生成本机 macOS 应用程序。 有关详细信息,请参阅 Xamarin.Mac。
macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。
转到 .xcodeproj
项目文件所在的 Xcode 目录。
运行 pod init
以创建一个名为 Podfile
的 Pod 文件。
将 Podfile
的内容替换为以下内容。 将 target
名称从“AppName”更新为应用的名称。 根据需要更新平台或 Pod 版本。
platform :ios, '9.3'
use_frameworks!
target 'AppName' do
pod 'MicrosoftCognitiveServicesSpeech-iOS', '~> 1.32.1'
运行 pod install
以安装语音 SDK。
或者,可以下载二进制 CocoaPod 并解压缩以提取其内容。 在 Xcode 项目中,添加对提取的“MicrosoftCognitiveServicesSpeech.xcframework”文件夹及其内容的引用。
.NET 开发人员可以使用 Xamarin.iOS 应用程序框架生成本机 iOS 应用程序。有关详细信息,请参阅 Xamarin.iOS。
macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。
转到 .xcodeproj
项目文件所在的 Xcode 目录。
运行 pod init
以创建一个名为 Podfile
的 Pod 文件。
将 Podfile
的内容替换为以下内容。 将 target
名称从“AppName”更新为应用的名称。 根据需要更新平台或 Pod 版本。
platform :osx, 10.14
use_frameworks!
target 'AppName' do
pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.32.1'
运行 pod install
以安装语音 SDK。
或者,可以下载二进制 CocoaPod 并解压缩以提取其内容。 在 Xcode 项目中,添加对提取的“MicrosoftCognitiveServicesSpeech.xcframework”文件夹及其内容的引用。
.NET 开发人员可以使用 Xamarin.Mac 应用程序框架生成本机 macOS 应用程序。 有关详细信息,请参阅 Xamarin.Mac。
macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。
转到 .xcodeproj
项目文件所在的 Xcode 目录。
运行 pod init
以创建一个名为 Podfile
的 Pod 文件。
将 Podfile
的内容替换为以下内容。 将 target
名称从“AppName”更新为应用的名称。 根据需要更新平台或 Pod 版本。
platform :ios, '9.3'
use_frameworks!
target 'AppName' do
pod 'MicrosoftCognitiveServicesSpeech-iOS', '~> 1.32.1'
运行 pod install
以安装语音 SDK。
或者,可以下载二进制 CocoaPod 并解压缩以提取其内容。 在 Xcode 项目中,添加对提取的“MicrosoftCognitiveServicesSpeech.xcframework”文件夹及其内容的引用。
.NET 开发人员可以使用 Xamarin.iOS 应用程序框架生成本机 iOS 应用程序。有关详细信息,请参阅 Xamarin.iOS。
在 Windows 上,你必须使用 64 位目标体系结构。 需要 Windows 10 或更高版本。
必须安装适用于你的平台的 Microsoft Visual C++ Redistributable for Visual Studio 2015、2017、2019 或 2022。 首次安装此包时,可能需要重启。
确保安装了相同目标体系结构的包。 例如,如果安装 x64 可再发行包,则需要安装适用于 Python 的 x64 包。
适用于 Python 的语音 SDK 在 Linux 上使用时,仅支持 x64 和 ARM64 体系结构上的 Ubuntu 18.04/20.04/22.04、Debian 10/11、Red Hat Enterprise Linux (RHEL) 8 和 CentOS 8。
使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。
语音 SDK 依赖于以下 Linux 系统库:
GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads
)
OpenSSL 库 (libssl
) 版本 1.x 和证书 (ca-certificates
)
ALSA 应用程序的共享库 (libasound
)
还应安装 ca-certificates
以建立安全的 Websocket 并避免此 WS_OPEN_ERROR_UNDERLYING_IO_OPEN_FAILED
错误。
语音 SDK 尚不支持 OpenSSL 3.0(Ubuntu 22.04 和 Debian 12 中的默认版本)。
若要在没有 OpenSSL 1.x 的基于 Debian/Ubuntu 的系统上从源代码安装 OpenSSL 1.x,请输入以下内容:
wget -O - https://www.openssl.org/source/openssl-1.1.1u.tar.gz | tar zxf -
cd openssl-1.1.1u
./config --prefix=/usr/local
make -j $(nproc)
sudo make install_sw install_ssldirs
sudo ldconfig -v
export SSL_CERT_DIR=/etc/ssl/certs
安装说明:
查看 https://www.openssl.org/source/,获取要使用的最新 OpenSSL 1.x 版本。
SSL_CERT_DIR
的设置必须在系统范围内生效,或者至少在从中启动使用语音 SDK 的应用程序的控制台中有效,否则安装在 /usr/local
中的 OpenSSL 1.x 可能无法找到证书。
确保来自 ldconfig -v
的控制台输出包含 /usr/local/lib
,因为它在默认情况下应使用新式系统。 如果不是这样,请设置 LD_LIBRARY_PATH
(其范围与 SSL_CERT_DIR
相同),以便将 /usr/local/lib
添加到库路径:export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
若要在 Alpine Linux 中使用语音 SDK,请按照 Alpine Linux Wiki 中的运行 glibc 程序所述创建 Debian chroot 环境。 然后按照此处的 Debian 说明操作。
sudo apt-get update
sudo apt-get install build-essential libssl-dev ca-certificates libasound2 wget
sudo yum update
sudo yum groupinstall "Development tools"
sudo yum install alsa-lib openssl wget
在 RHEL/CentOS 7 上,按照如何为语音 SDK 配置 RHEL/CentOS 7 上的说明进行操作。
在 RHEL/CentOS 8 上,按照按照如何为 Linux 配置 OpenSSL 上的说明进行操作。
安装从 3.7 开始或更高版本的 Python。
若要检查安装情况,请打开终端并运行命令 python --version
。 如果安装正确,你将会收到像“Python 3.8.10”这样的响应。 如果你使用的是 macOS 或 Linux,可能需要改为运行命令 python3 --version
。 若要启用 python
而不是 python3
,请运行 alias python='python3'
以设置别名。 语音 SDK 快速入门示例指定了 python
用法。
安装适用于 Python 的语音 SDK
安装适用于 Python 的语音 SDK 之前,请确保满足平台先决条件。
选择工具或 IDE
VS Code
从 PyPI 安装
若要安装适用于 Python 的语音 SDK,请在终端中运行此命令。
pip install azure-cognitiveservices-speech
升级到最新的语音 SDK 版本
若要升级到最新的语音 SDK,请在终端中运行以下命令:
pip install --upgrade azure-cognitiveservices-speech
可以通过查看 azure.cognitiveservices.speech.__version__
变量来检查当前安装的适用于 Python 的语音 SDK 版本。 例如,在终端中运行以下命令:
pip list
使用 Visual Studio Code 安装语音 SDK
若要安装适用于 Python 的语音 SDK,请执行以下操作:
下载并安装 Visual Studio Code。
运行 Visual Studio Code 并安装 Python 扩展:
选择“文件”>“首选项”>“扩展”。
搜索“Python”,查找由 Microsoft 发布的“适用于 Visual Studio Code 的 Python 扩展”,然后选择“安装”。
选择“终端”>“新建终端”,以在 Visual Studio Code 中打开终端。
在终端提示符下,运行以下命令以安装适用于 Python 的语音 SDK 包。
python -m pip install azure-cognitiveservices-speech
有关 Visual Studio Code 和 Python 的详细信息,请参阅 Visual Studio Code 文档和 Visual Studio Code Python 教程。
使用语音 SDK
添加以下 import 语句以在 Python 项目中使用语音 SDK:
import azure.cognitiveservices.speech as speechsdk
语音转文本快速入门
文本转语音快速入门
语音翻译快速入门