影片字幕翻譯與語音生成實施計畫

本計畫旨在建立一套可重複且可擴充的處理鏈,從中文影音素材出發,同步產出中英文字幕與對應英文語音,並為後續的人工校對、批次自動化與影音整合奠定基礎。

核心目標

  1. 建立即時可用的基本流程:Whisper WebUI(參考 jhj0517/Whisper-WebUI)產出中英文字幕,Python 腳本翻譯及生成英文語音 MP3。
  2. 提供彈性選項:可挑選以 Gemini API 再翻譯、或僅執行語音合成。
  3. 訂定後續擴充方向:影片合成、批次處理、自動上傳等進階功能。

交付成果

前置準備

作業流程與擴充選項

  1. 字幕轉錄
    在 Whisper WebUI(建議使用 jhj0517/Whisper-WebUI 專案)上傳影音檔,設定基準語言為中文並啟用英文翻譯;下載輸出的 *_zh.srt*_en.srt。若需要離線或批量處理,可改用本機 Whisper CLI 並將產出集中於 input/ 目錄以便後續腳本掃描。
  2. 翻譯與語音
    執行 python process_srt.py <file>_zh.srt,腳本會呼叫 Gemini 翻譯並輸出新的英文字幕及 MP3。若僅需語音,可使用 --tts-only 模式並指定免費的 gtts 選項(例如 --tts-engine gtts);需求較高時,可切換至 Gemini 付費 TTS (--tts-engine gemini) 取得更自然的語音,或新增批次腳本一次處理整個資料夾。
  3. 成果驗證與校對
    手動檢查翻譯後字幕對齊與語音品質,必要時以 CLI 或 GUI 工具逐句修訂再輸出;亦可引入自動化檢核(例如比對字幕行數、偵測時間戳回退)並記錄於 logs/ 便於追蹤問題。
  4. 整合與輸出
    在 YouTube Studio 為影片掛載中英文字幕檔,並維持原始中文音訊為主聲軌;如需雙語音軌,可使用 ffmpeg -i input.mp4 -i audio_en.mp3 -map 0:v -map 0:a -map 1:a -c:v copy -c:a aac -shortest output_dual_audio.mp4 建立同時包含中文/英文語音的影片。若需製作英文配音版本,再額外匯出 ffmpeg -i input.mp4 -i audio_en.mp3 -map 0:v -map 1:a -c:v copy -shortest output_en.mp4。大量專案可透過批次腳本與任務佇列自動打包字幕、語音與影片。

風險與因應

實作階段建議

Mermaid 流程圖