WhisperWebUI 的學習路徑

Github Repo


1. 功能介紹


2. Google Colab 執行環境

  1. 開啟官方 Colab Notebook,在頂端工具列選 File > Save a copy in Drive,保留一份可自由修改的副本。
  2. 選擇 Runtime > Change runtime type,將 Hardware accelerator 設為 GPUGPU type 建議選 T4L4(Pro 用戶可視情況改為 A100)。調整完成後按 Save
  3. 依序執行 Notebook 的每個區塊:
    • 第一個 Setup 區塊會安裝必要套件並下載 WebUI 程式碼,約需 3~5 分鐘。若出現 flash-attn 安裝失敗,可暫時忽略或改用 CPU 模式。
    • 執行 !python launch.py --share 前,確認上一個安裝區塊已完全結束,避免混雜日誌導致錯誤。
  4. 於左側工具列點選「掛載磁碟」圖示,或在 Notebook 新增下列程式碼以掛載 Google Drive,避免檔案於工作階段結束時被清除:
    from google.colab import drive
    drive.mount("/content/drive")
    
    將素材放在 MyDrive/whisper_input 等資料夾後,於 WebUI 中選擇對應路徑即可讀取。
  5. 上傳大型檔案時,可透過左側 Files 面板的 Upload 按鈕,或使用 !gdown!wget 直接在 Notebook 下載遠端檔案。建議壓縮為 zip 以縮短傳輸時間。
  6. 啟動 WebUI 後,輸出欄位會顯示一組 https://xxxxx.gradio.live 的公開 URL,點擊即可進入界面。該連結僅在目前 Colab 執行階段保持運作時有效,工作階段結束或逾時後會立即失效。
  7. 轉錄完成後,透過 WebUI 的 Download 按鈕保存 .srt.txt 檔。若要寫回 Google Drive,可在 Notebook 內加入:
    !cp -r /content/Whisper-WebUI/outputs /content/drive/MyDrive/whisper_outputs
    
  8. Colab 執行階段閒置約 30 分鐘會自動中斷,可在 Notebook 末端加入短程式(例如每隔幾分鐘列印訊息)或保持頁面活動,減少長任務被中斷的機率。

3. How to Start(本地環境)

  1. 環境需求:建議使用 Python 3.10 以上、Git、防火牆允許 7860 或 8501 等 WebUI 預設埠號。若有 GPU (CUDA 11.7+) 可加速推論。
  2. 下載專案
    git clone https://github.com/jhj0517/Whisper-WebUI.git
    cd Whisper-WebUI
    
  3. 建立虛擬環境並安裝依賴
    python3 -m venv .venv
    source .venv/bin/activate
    pip install --upgrade pip
    pip install -r requirements.txt
    
  4. 啟動 WebUI
    python launch.py --share  # 如需公開連結,可加 --share
    
  5. 首次設定:在 UI 中選擇 Whisper 模型體積、翻譯語言與輸出格式。測試小型檔案確認流程正常後,再處理正式影片。

4. 學習路徑規劃


5. 影片生成中、英文字幕的詳細步驟

  1. 準備素材
    • 影片檔:建議使用 mp4movmkv
    • 若原始音訊品質較差,可先在外部工具進行降噪或音量平衡。
  2. 匯入至 WebUI
    • 在 WebUI 的 Upload 區塊拖放影片/音訊檔,或貼上線上資源 URL。
    • 選擇 Task TypeTranscribe,Language 依需求選擇 Auto
  3. 設定雙語輸出
    • 勾選 Translate to English 以自動生成英文字幕。
    • 若要保留原文,可開啟 Both Original & Translated Subtitles 選項。
    • 調整 Segment OverlapWord Timestamps 等細節,避免字幕切割過碎。
  4. 執行轉錄
    • 點擊 Run Whisper,觀察進度列與伺服器日誌。
    • 大型影片建議選用 mediumlarge-v2 模型以提升翻譯品質,但會增加等待時間。
  5. 檢視與修訂
    • 完成後在 Transcript 頁面檢查時間軸與語句。
    • 使用內建編輯器調整錯字、停頓標點,可匯出為 .srt 再搭配外部工具(例如 Subtitle Edit)做批次校正。
  6. 匯出結果
    • 原文字幕:下載 filename.srt
    • 英文字幕:下載 filename_en.srt
    • 需要內嵌字幕的影片,可使用 WebUI 的 Mux Video 功能或將字幕與影片放入 ffmpeg 另行封裝。
  7. 後續流程建議
    • 將英文字幕導入本專案的 process_srt.py 進一步翻譯或合成語音。
    • 將雙語字幕放入 test/ 目錄作為測試用樣本,方便比對調整後的輸出差異。

補充資源