第 VIII 章:生成式 AI 時代 (2020s-)
← 上一章:深度學習革命 | 返回目錄 | 下一章:總結與反思 →
8.1 時代背景:從理解到創造
進入 2020 年代,AI 的發展迎來了一次深刻的典範轉移。如果說深度學習革命讓機器學會了「理解」世界(例如,識別圖像、理解語音),那麼生成式 AI 則讓機器開始「創造」世界。AI 從一個分析工具,演變為一個內容生成的引擎和創作夥伴。
這一時代的關鍵驅動力是規模化 (Scaling)。研究者發現,將 Transformer 模型做得更大、用更多數據進行訓練,模型不僅會在原有任務上表現更好,還會「湧現」出許多意想不到的新能力。
8.1.1 規模化定律 (Scaling Laws)
OpenAI 等機構的研究發現,大型語言模型 (LLM) 的性能與三個因素大致成冪律關係:
- 模型大小 (Compute):模型的參數數量。
- 數據集大小 (Data):訓練數據的總量。
- 計算量 (Training FLOPs):訓練過程中執行的浮點運算次數。
性能 ∝ f(模型大小, 數據集大小, 計算量)
這意味著,只要持續投入更多算力和數據,模型的性能就可以預測性地提升。當模型規模跨越某個臨界點(例如百億、千億參數),就會出現「湧現能力 (Emergent Abilities)」,如上下文學習、邏輯推理等。
8.2 大型語言模型 (LLM) 的爆發
8.2.1 GPT-3 的震撼登場 (2020)
OpenAI 發布的 GPT-3 (Generative Pre-trained Transformer 3) 是這一趨勢的里程碑。
- 模型參數:1750 億,是其前代 GPT-2 的 100 多倍。
- 訓練數據:使用了來自網際網路和書籍的近 5000 億個詞元 (token)。
- 核心能力:展現了驚人的上下文學習 (In-context Learning) 或稱 少樣本學習 (Few-shot Learning) 能力。無需微調,僅僅透過在提示 (prompt) 中給出幾個範例,GPT-3 就能完成各種新任務。
範例:
提示:
將英文翻譯成法文:
sea otter => loutre de mer
peppermint => menthe poivrée
cheese =>
GPT-3 輸出:
fromage
GPT-3 的成功證明了,極大規模的模型可以從海量數據中學到通用的世界知識和推理模式。
8.2.2 ChatGPT 的引爆 (2022.11)
如果說 GPT-3 震撼了學術界,那麼 ChatGPT 則引爆了全世界。
ChatGPT = GPT-3.5 + RLHF
ChatGPT 的成功不僅僅是模型規模,更關鍵的是引入了 RLHF (從人類回饋中強化學習) 的對齊技術。
RLHF 流程:
1. 監督微調:用少量高品質的人類示範對話來微調預訓練模型。
2. 訓練獎勵模型:讓人們對模型生成的多個回答進行排序,訓練一個獎勵模型來預測哪個回答更受人類偏愛。
3. 強化學習:使用獎勵模型作為回饋信號,透過強化學習演算法 (PPO) 進一步微調語言模型,使其學會生成更符合人類偏好的回答。
影響:
- 用戶體驗革命:RLHF 使模型變得更「有用」和「無害」,擅長遵循指令,並拒絕不當請求。
- 全球熱潮:發布後僅 2 個月,用戶數突破 1 億,成為史上增長最快的消費級應用,引發了全球對生成式 AI 的關注和軍備競賽。
8.2.3 GPT-4 與多模態的到來 (2023.03)
GPT-4 標誌著 LLM 進入多模態 (Multimodal) 時代。
- 能力躍升:在各種專業和學術基準上表現出接近甚至超越人類的水平,例如在美國律師資格考試中排名前 10%。
- 多模態輸入:不僅能理解文本,還能理解圖像內容。用戶可以輸入一張圖片,並就圖片內容進行提問和對話。
- 更強的推理能力:展現出更複雜的邏輯推理和規劃能力。
[建議此處插入 GPT-4V 分析手繪網頁草圖並生成程式碼的範例圖片]
8.2.4 開源模型的崛起
與 OpenAI 的閉源路線相對,Meta 推出的 LLaMA 系列開源模型極大地推動了社群的創新。研究者和開發者可以在 LLaMA 的基礎上進行修改和微調,催生了大量學術研究和商業應用。
8.3 圖像生成的突破
與語言模型並行發展的,是圖像生成領域的巨大突破。
8.3.1 生成對抗網路 (GAN, 2014)
由 Ian Goodfellow 提出的 GAN,包含一個生成器和一個判別器。生成器試圖生成以假亂真的圖像,而判別器則努力分辨真實圖像和生成圖像。兩者相互對抗、共同進化,最終生成器能產生高品質的圖像。
8.3.2 擴散模型 (Diffusion Models, 2020-)
擴散模型成為了更高品質圖像生成的主流技術。
核心思想:
1. 前向過程:對一張真實圖像逐步、反覆地添加雜訊,直到其完全變成隨機雜訊。
2. 反向過程:訓練一個神經網路,學習如何從純雜訊中,一步步地「去噪」,還原出原始圖像。
訓練完成後,模型就可以從一個隨機雜訊開始,逐步去噪,最終「創造」出一張全新的、高品質的圖像。
8.3.3 文生圖模型的爆發
- DALL-E 2 (2022, OpenAI):結合了 CLIP 的文圖理解能力和擴散模型,能夠根據複雜的文本描述生成驚人的圖像,開啟了 AI 藝術的時代。
- Stable Diffusion (2022, Stability AI):作為一個開源模型,極大地降低了文生圖技術的使用門檻,用戶可以在消費級 GPU 上運行,催生了龐大的開源社群和生態。
- Midjourney:一家商業公司,其模型以極高的藝術性和美學品質著稱。
[建議此處插入同一段文字由 DALL-E 2, Stable Diffusion, Midjourney 生成的圖像對比]
8.4 倫理與社會挑戰
生成式 AI 的強大能力也帶來了前所未有的倫理和社會挑戰。
- 偏見與公平性:模型從網際網路學習,不可避免地會學到並放大社會中存在的偏見(如性別、種族歧視)。
- 錯誤資訊與深度偽造 (Deepfake):生成式 AI 可被用於大規模製造虛假新聞、冒充他人、進行詐騙,對社會信任構成威脅。
- 版權與原創性:AI 生成內容的版權歸屬?模型訓練使用了大量受版權保護的數據,是否構成侵權?
- 就業衝擊:內容創作、程式設計、客戶服務等領域的工作可能被部分自動化,引發對未來就業的擔憂。
- AI 安全與對齊 (AI Safety & Alignment):如何確保能力遠超人類的 AI 系統的目標與人類的價值觀和長期利益保持一致?這是 AI 領域最重要和最困難的挑戰之一。
- AI 監管:世界各國政府開始探索如何監管強大的 AI 技術,以在鼓勵創新和防範風險之間取得平衡(如歐盟的《AI法案》)。
8.5 本章小結
核心要點
- 典範轉移:AI 的發展重心從「理解」轉向「創造」,從「分析」轉向「生成」。
- 規模化的力量:透過擴大模型、數據和算力,AI 展現出驚人的「湧現能力」。
- 關鍵技術:Transformer 是語言模型的核心;擴散模型是圖像生成的主流。
- 引爆點:ChatGPT 透過 RLHF 技術極大改善了用戶體驗,將生成式 AI 推向了全球大眾。
- 多模態融合:AI 正從處理單一模態(文本或圖像)走向融合多種模態的統一模型 (如 GPT-4V, Gemini)。
- 倫理挑戰:技術的飛速發展伴隨著嚴峻的倫理、社會和安全挑戰,需要全社會共同應對。
歷史地位
生成式 AI 時代是 AI 發展史上影響最廣泛、最深刻的時期。它不僅是技術的革命,更是一場深刻的社會和文化變革。AI 首次以消費級產品的形式走進千家萬戶,迫使我們重新思考創造力、智慧、工作乃至人類自身的定義。這個時代的探索,可能直接關係到通用人工智慧 (AGI) 是否以及如何到來。
思考問題
- 湧現能力:為什麼將模型做大會產生新的、未經訓練的能力?這對我們理解「智慧」的本質有何啟示?
- RLHF 的雙面性:RLHF 使模型更「有用」,但也可能使其更善於「隱藏」其不確定性或偏見。你如何看待這種對齊技術的利弊?
- 開源 vs. 閉源:你認為大型 AI 模型應該開源(如 LLaMA)還是閉源(如 GPT-4)?兩種路徑各對 AI 的發展和安全有何影響?
- 人機協作的未來:在你自己的學習或未來工作中,你將如何與生成式 AI 協作?你認為哪些技能在 AI 時代會變得更重要?
延伸閱讀
- 論文:Brown, T. B., et al. (2020). "Language models are few-shot learners". (GPT-3 論文)
- 論文:Ouyang, L., et al. (2022). "Training language models to follow instructions with human feedback". (InstructGPT/RLHF 論文)
- 報告:史丹佛大學《AI Index Report》,每年發布,追蹤 AI 發展的最新趨勢。
- 下一章預告:第 IX 章將對 AI 的整個發展歷程進行總結與反思,並展望未來的可能方向。
← 上一章:深度學習革命 | 返回目錄 | 下一章:總結與反思 →