ASR on OHTLY Blog

FunASR 视频字幕生成原型

Mon, 25 May 2026 15:47:21 +0800

背景链接到标题

最近在研究从视频中自动生成字幕，选中了阿里云的 FunASR（Fun Audio Speech Recognition）模型。FunASR 支持端到端的语音识别和时间戳提取，理论上非常适合用于视频字幕生成。

已知 Bug 链接到标题

FunASR v1.3.1（PyPI 最新版）配合 Fun-ASR-Nano 模型使用时存在两个官方未修复的 bug：

Bug 1: batch decoding is not implemented 链接到标题

VAD 切段后 ASR 模型收到 batch 输入会抛出 NotImplementedError。原因是 auto_model.py 默认将 batch_size 设为 300000，但模型不支持 batch 输入。

修复：传入 batch_size_s=0

详见：#2273 - NotImplementedError: batch decoding is not implemented

Bug 2: KeyError: 0 链接到标题

逐段处理后时间戳偏移时报 KeyError: 0。原因是 Fun-ASR-Nano 返回的时间戳是 dict 格式 {"start_time": ..., "end_time": ...}，而代码假设是 list 格式 [start, end]。