第 VIII 章：生成式 AI 時代 (2020s-)

← 上一章：深度學習革命 | 返回目錄 | 下一章：總結與反思 →

8.1 時代背景：從理解到創造

進入 2020 年代，AI 的發展迎來了一次深刻的典範轉移。如果說深度學習革命讓機器學會了「理解」世界（例如，識別圖像、理解語音），那麼生成式 AI 則讓機器開始「創造」世界。AI 從一個分析工具，演變為一個內容生成的引擎和創作夥伴。

這一時代的關鍵驅動力是規模化 (Scaling)。研究者發現，將 Transformer 模型做得更大、用更多數據進行訓練，模型不僅會在原有任務上表現更好，還會「湧現」出許多意想不到的新能力。

8.1.1 規模化定律 (Scaling Laws)

OpenAI 等機構的研究發現，大型語言模型 (LLM) 的性能與三個因素大致成冪律關係：

模型大小 (Compute)：模型的參數數量。
數據集大小 (Data)：訓練數據的總量。
計算量 (Training FLOPs)：訓練過程中執行的浮點運算次數。

性能 ∝ f(模型大小, 數據集大小, 計算量)

這意味著，只要持續投入更多算力和數據，模型的性能就可以預測性地提升。當模型規模跨越某個臨界點（例如百億、千億參數），就會出現「湧現能力 (Emergent Abilities)」，如上下文學習、邏輯推理等。

8.2 大型語言模型 (LLM) 的爆發

8.2.1 GPT-3 的震撼登場 (2020)

OpenAI 發布的 GPT-3 (Generative Pre-trained Transformer 3) 是這一趨勢的里程碑。

模型參數：1750 億，是其前代 GPT-2 的 100 多倍。
訓練數據：使用了來自網際網路和書籍的近 5000 億個詞元 (token)。
核心能力：展現了驚人的上下文學習 (In-context Learning) 或稱 少樣本學習 (Few-shot Learning) 能力。無需微調，僅僅透過在提示 (prompt) 中給出幾個範例，GPT-3 就能完成各種新任務。

範例：

提示：
將英文翻譯成法文：
sea otter => loutre de mer
peppermint => menthe poivrée
cheese =>

GPT-3 輸出：
fromage

GPT-3 的成功證明了，極大規模的模型可以從海量數據中學到通用的世界知識和推理模式。

8.2.2 ChatGPT 的引爆 (2022.11)

如果說 GPT-3 震撼了學術界，那麼 ChatGPT 則引爆了全世界。

ChatGPT = GPT-3.5 + RLHF

ChatGPT 的成功不僅僅是模型規模，更關鍵的是引入了 RLHF (從人類回饋中強化學習) 的對齊技術。

RLHF 流程：
1. 監督微調：用少量高品質的人類示範對話來微調預訓練模型。
2. 訓練獎勵模型：讓人們對模型生成的多個回答進行排序，訓練一個獎勵模型來預測哪個回答更受人類偏愛。
3. 強化學習：使用獎勵模型作為回饋信號，透過強化學習演算法 (PPO) 進一步微調語言模型，使其學會生成更符合人類偏好的回答。

影響：
- 用戶體驗革命：RLHF 使模型變得更「有用」和「無害」，擅長遵循指令，並拒絕不當請求。
- 全球熱潮：發布後僅 2 個月，用戶數突破 1 億，成為史上增長最快的消費級應用，引發了全球對生成式 AI 的關注和軍備競賽。

8.2.3 GPT-4 與多模態的到來 (2023.03)

GPT-4 標誌著 LLM 進入多模態 (Multimodal) 時代。

能力躍升：在各種專業和學術基準上表現出接近甚至超越人類的水平，例如在美國律師資格考試中排名前 10%。
多模態輸入：不僅能理解文本，還能理解圖像內容。用戶可以輸入一張圖片，並就圖片內容進行提問和對話。
更強的推理能力：展現出更複雜的邏輯推理和規劃能力。

[建議此處插入 GPT-4V 分析手繪網頁草圖並生成程式碼的範例圖片]

8.2.4 開源模型的崛起

與 OpenAI 的閉源路線相對，Meta 推出的 LLaMA 系列開源模型極大地推動了社群的創新。研究者和開發者可以在 LLaMA 的基礎上進行修改和微調，催生了大量學術研究和商業應用。

8.3 圖像生成的突破

與語言模型並行發展的，是圖像生成領域的巨大突破。

8.3.1 生成對抗網路 (GAN, 2014)

由 Ian Goodfellow 提出的 GAN，包含一個生成器和一個判別器。生成器試圖生成以假亂真的圖像，而判別器則努力分辨真實圖像和生成圖像。兩者相互對抗、共同進化，最終生成器能產生高品質的圖像。

8.3.2 擴散模型 (Diffusion Models, 2020-)

擴散模型成為了更高品質圖像生成的主流技術。

核心思想：
1. 前向過程：對一張真實圖像逐步、反覆地添加雜訊，直到其完全變成隨機雜訊。
2. 反向過程：訓練一個神經網路，學習如何從純雜訊中，一步步地「去噪」，還原出原始圖像。

訓練完成後，模型就可以從一個隨機雜訊開始，逐步去噪，最終「創造」出一張全新的、高品質的圖像。

8.3.3 文生圖模型的爆發

DALL-E 2 (2022, OpenAI)：結合了 CLIP 的文圖理解能力和擴散模型，能夠根據複雜的文本描述生成驚人的圖像，開啟了 AI 藝術的時代。
Stable Diffusion (2022, Stability AI)：作為一個開源模型，極大地降低了文生圖技術的使用門檻，用戶可以在消費級 GPU 上運行，催生了龐大的開源社群和生態。
Midjourney：一家商業公司，其模型以極高的藝術性和美學品質著稱。

[建議此處插入同一段文字由 DALL-E 2, Stable Diffusion, Midjourney 生成的圖像對比]

8.4 倫理與社會挑戰

生成式 AI 的強大能力也帶來了前所未有的倫理和社會挑戰。

偏見與公平性：模型從網際網路學習，不可避免地會學到並放大社會中存在的偏見（如性別、種族歧視）。
錯誤資訊與深度偽造 (Deepfake)：生成式 AI 可被用於大規模製造虛假新聞、冒充他人、進行詐騙，對社會信任構成威脅。
版權與原創性：AI 生成內容的版權歸屬？模型訓練使用了大量受版權保護的數據，是否構成侵權？
就業衝擊：內容創作、程式設計、客戶服務等領域的工作可能被部分自動化，引發對未來就業的擔憂。
AI 安全與對齊 (AI Safety & Alignment)：如何確保能力遠超人類的 AI 系統的目標與人類的價值觀和長期利益保持一致？這是 AI 領域最重要和最困難的挑戰之一。
AI 監管：世界各國政府開始探索如何監管強大的 AI 技術，以在鼓勵創新和防範風險之間取得平衡（如歐盟的《AI法案》）。

8.5 本章小結

核心要點

典範轉移：AI 的發展重心從「理解」轉向「創造」，從「分析」轉向「生成」。
規模化的力量：透過擴大模型、數據和算力，AI 展現出驚人的「湧現能力」。
關鍵技術：Transformer 是語言模型的核心；擴散模型是圖像生成的主流。
引爆點：ChatGPT 透過 RLHF 技術極大改善了用戶體驗，將生成式 AI 推向了全球大眾。
多模態融合：AI 正從處理單一模態（文本或圖像）走向融合多種模態的統一模型 (如 GPT-4V, Gemini)。
倫理挑戰：技術的飛速發展伴隨著嚴峻的倫理、社會和安全挑戰，需要全社會共同應對。

歷史地位

生成式 AI 時代是 AI 發展史上影響最廣泛、最深刻的時期。它不僅是技術的革命，更是一場深刻的社會和文化變革。AI 首次以消費級產品的形式走進千家萬戶，迫使我們重新思考創造力、智慧、工作乃至人類自身的定義。這個時代的探索，可能直接關係到通用人工智慧 (AGI) 是否以及如何到來。

思考問題

湧現能力：為什麼將模型做大會產生新的、未經訓練的能力？這對我們理解「智慧」的本質有何啟示？
RLHF 的雙面性：RLHF 使模型更「有用」，但也可能使其更善於「隱藏」其不確定性或偏見。你如何看待這種對齊技術的利弊？
開源 vs. 閉源：你認為大型 AI 模型應該開源（如 LLaMA）還是閉源（如 GPT-4）？兩種路徑各對 AI 的發展和安全有何影響？
人機協作的未來：在你自己的學習或未來工作中，你將如何與生成式 AI 協作？你認為哪些技能在 AI 時代會變得更重要？