whisperX | sXm

说明

开源，一位来自牛津大学的博士生Max Bain开源的模型，WhisperX可以按照单词对齐时间戳，基本上生成的字幕都是完整的句子。生成结果除了srt还有json文件，里面有每一行里面单词的时间戳，可以根据需要二次整理字幕。还能识别发言人，准确率还可以。使用示例：1. 在google colab上使用whisperX生成youtube视频字幕的代码：whisperx_youtube_subtitle，可以免费使用colab的GPU，使用GPU T4，2小时40分钟的视频字幕生成6分钟左右，挺快的。

链接

whisperX

费用

免费

Files

https://camo.githubusercontent.com/5308453d2328624cdfd7444a3a85d2b4c03f8727e701641c316c7f33647ff0bc/68747470733a2f2f696d672e736869656c64732e696f2f6769746875622f73746172732f6d2d6261696e2f77686973706572583f7374796c653d736f6369616c

sXmon

交流频道

加入我们的社群讨论分享