一、ASR是什么?
ASR全称Automatic Speech Recognition,自动语音识别也称为语音转文本 (STT),是将给定音频转录为文本的任务。它有很多应用,例如语音用户界面。
二、ASR的项目地址:
https://huggingface.co/tasks/automatic-speech-recognition
三、ASR的使用场景:
1、虚拟语音助手
许多边缘设备都有嵌入式虚拟助手,可以更好地与最终用户交互。这些帮助依靠 ASR 模型来识别不同的语音命令来执行各种任务。例如,您可以要求手机拨打电话号码、询问一般性问题或安排会议。
2、字幕生成
字幕生成模型将音频作为来自源的输入,通过转录为直播或录制的视频生成自动字幕。这有助于内容的可访问性。例如,观看包含非母语的视频的观众可以依靠字幕来解释内容。它还可以帮助在线课程环境中的信息保留,提高知识同化,同时更快地阅读和做笔记。
四、如何使用ASR?
为了让更多用户能够轻松体验这一技术,我们将ASR打包成了一键启动包。现在,您无需繁琐地配置Python环境,只需简单点击即可启动程序,从而避免了潜在的环境配置问题。
下载压缩包,解压到电脑D盘,最好不要有中文路径;
解压后点击启动.bat文件即可运行(文件可能会被误杀,请添加为信任);
- 浏览器访问:http://127.0.0.1:7860/,即可正常使用。