第 VIII 章:生成式 AI 時代 (2020s-)

← 上一章:深度學習革命 | 返回目錄 | 下一章:總結與反思 →


8.1 時代背景:從理解到創造

進入 2020 年代,AI 的發展迎來了一次深刻的典範轉移。如果說深度學習革命讓機器學會了「理解」世界(例如,識別圖像、理解語音),那麼生成式 AI 則讓機器開始「創造」世界。AI 從一個分析工具,演變為一個內容生成的引擎和創作夥伴。

這一時代的關鍵驅動力是規模化 (Scaling)。研究者發現,將 Transformer 模型做得更大、用更多數據進行訓練,模型不僅會在原有任務上表現更好,還會「湧現」出許多意想不到的新能力。

8.1.1 規模化定律 (Scaling Laws)

OpenAI 等機構的研究發現,大型語言模型 (LLM) 的性能與三個因素大致成冪律關係:

  1. 模型大小 (Compute):模型的參數數量。
  2. 數據集大小 (Data):訓練數據的總量。
  3. 計算量 (Training FLOPs):訓練過程中執行的浮點運算次數。

性能 ∝ f(模型大小, 數據集大小, 計算量)

這意味著,只要持續投入更多算力和數據,模型的性能就可以預測性地提升。當模型規模跨越某個臨界點(例如百億、千億參數),就會出現「湧現能力 (Emergent Abilities)」,如上下文學習、邏輯推理等。


8.2 大型語言模型 (LLM) 的爆發

8.2.1 GPT-3 的震撼登場 (2020)

OpenAI 發布的 GPT-3 (Generative Pre-trained Transformer 3) 是這一趨勢的里程碑。

範例

提示:
將英文翻譯成法文:
sea otter => loutre de mer
peppermint => menthe poivrée
cheese =>

GPT-3 輸出:
fromage

GPT-3 的成功證明了,極大規模的模型可以從海量數據中學到通用的世界知識和推理模式。

8.2.2 ChatGPT 的引爆 (2022.11)

如果說 GPT-3 震撼了學術界,那麼 ChatGPT 則引爆了全世界。

ChatGPT = GPT-3.5 + RLHF

ChatGPT 的成功不僅僅是模型規模,更關鍵的是引入了 RLHF (從人類回饋中強化學習) 的對齊技術。

RLHF 流程
1. 監督微調:用少量高品質的人類示範對話來微調預訓練模型。
2. 訓練獎勵模型:讓人們對模型生成的多個回答進行排序,訓練一個獎勵模型來預測哪個回答更受人類偏愛。
3. 強化學習:使用獎勵模型作為回饋信號,透過強化學習演算法 (PPO) 進一步微調語言模型,使其學會生成更符合人類偏好的回答。

影響
- 用戶體驗革命:RLHF 使模型變得更「有用」和「無害」,擅長遵循指令,並拒絕不當請求。
- 全球熱潮:發布後僅 2 個月,用戶數突破 1 億,成為史上增長最快的消費級應用,引發了全球對生成式 AI 的關注和軍備競賽。

8.2.3 GPT-4 與多模態的到來 (2023.03)

GPT-4 標誌著 LLM 進入多模態 (Multimodal) 時代。

[建議此處插入 GPT-4V 分析手繪網頁草圖並生成程式碼的範例圖片]

8.2.4 開源模型的崛起

與 OpenAI 的閉源路線相對,Meta 推出的 LLaMA 系列開源模型極大地推動了社群的創新。研究者和開發者可以在 LLaMA 的基礎上進行修改和微調,催生了大量學術研究和商業應用。


8.3 圖像生成的突破

與語言模型並行發展的,是圖像生成領域的巨大突破。

8.3.1 生成對抗網路 (GAN, 2014)

由 Ian Goodfellow 提出的 GAN,包含一個生成器和一個判別器。生成器試圖生成以假亂真的圖像,而判別器則努力分辨真實圖像和生成圖像。兩者相互對抗、共同進化,最終生成器能產生高品質的圖像。

8.3.2 擴散模型 (Diffusion Models, 2020-)

擴散模型成為了更高品質圖像生成的主流技術。

核心思想
1. 前向過程:對一張真實圖像逐步、反覆地添加雜訊,直到其完全變成隨機雜訊。
2. 反向過程:訓練一個神經網路,學習如何從純雜訊中,一步步地「去噪」,還原出原始圖像。

訓練完成後,模型就可以從一個隨機雜訊開始,逐步去噪,最終「創造」出一張全新的、高品質的圖像。

8.3.3 文生圖模型的爆發

[建議此處插入同一段文字由 DALL-E 2, Stable Diffusion, Midjourney 生成的圖像對比]


8.4 倫理與社會挑戰

生成式 AI 的強大能力也帶來了前所未有的倫理和社會挑戰。


8.5 本章小結

核心要點

  1. 典範轉移:AI 的發展重心從「理解」轉向「創造」,從「分析」轉向「生成」。
  2. 規模化的力量:透過擴大模型、數據和算力,AI 展現出驚人的「湧現能力」。
  3. 關鍵技術Transformer 是語言模型的核心;擴散模型是圖像生成的主流。
  4. 引爆點ChatGPT 透過 RLHF 技術極大改善了用戶體驗,將生成式 AI 推向了全球大眾。
  5. 多模態融合:AI 正從處理單一模態(文本或圖像)走向融合多種模態的統一模型 (如 GPT-4V, Gemini)。
  6. 倫理挑戰:技術的飛速發展伴隨著嚴峻的倫理、社會和安全挑戰,需要全社會共同應對。

歷史地位

生成式 AI 時代是 AI 發展史上影響最廣泛、最深刻的時期。它不僅是技術的革命,更是一場深刻的社會和文化變革。AI 首次以消費級產品的形式走進千家萬戶,迫使我們重新思考創造力、智慧、工作乃至人類自身的定義。這個時代的探索,可能直接關係到通用人工智慧 (AGI) 是否以及如何到來。

思考問題

  1. 湧現能力:為什麼將模型做大會產生新的、未經訓練的能力?這對我們理解「智慧」的本質有何啟示?
  2. RLHF 的雙面性:RLHF 使模型更「有用」,但也可能使其更善於「隱藏」其不確定性或偏見。你如何看待這種對齊技術的利弊?
  3. 開源 vs. 閉源:你認為大型 AI 模型應該開源(如 LLaMA)還是閉源(如 GPT-4)?兩種路徑各對 AI 的發展和安全有何影響?
  4. 人機協作的未來:在你自己的學習或未來工作中,你將如何與生成式 AI 協作?你認為哪些技能在 AI 時代會變得更重要?

延伸閱讀


← 上一章:深度學習革命 | 返回目錄 | 下一章:總結與反思 →