说明
开源,一位来自牛津大学的博士生Max Bain开源的模型,WhisperX可以按照单词对齐时间戳,基本上生成的字幕都是完整的句子。生成结果除了srt还有json文件,里面有每一行里面单词的时间戳,可以根据需要二次整理字幕。还能识别发言人,准确率还可以。使用示例:1. 在google colab上使用whisperX生成youtube视频字幕的代码:whisperx_youtube_subtitle,可以免费使用colab的GPU,使用GPU T4,2小时40分钟的视频字幕生成6分钟左右,挺快的。
链接
费用
免费