階段一:現階段的AI發展概況與應用

AI的最新發展概況

近年來,人工智慧(AI)的發展已經從實驗室走向了大眾的日常生活。最新的發展概況主要集中在以下幾個面向:
1. 多模態(Multimodal)模型的崛起:現在的 AI 不僅能處理文字,還能同時理解圖像、聲音甚至是影片。我們可以直接對著 AI 說話,或上傳一張圖片讓它進行分析。
2. 代理式工作流程(Agentic Workflow):AI 不再只是一問一答的聊天機器人,而是能夠自主規劃步驟、使用工具(如搜尋網路、執行程式碼),進一步解決複雜問題的「智慧代理人(Agent)」。
3. 終端裝置 AI(Edge AI):越來越多 AI 模型被壓縮並內建於我們的手機、平板和個人電腦中,不僅提升了運算速度,也能在不連網的狀態下保護使用者的隱私。

AI的最新發展應用


階段二:生成式AI的概念與應用

生成式AI的概念與傳統AI的差異

生成式 AI (Generative AI) 是人工智慧的一個分支,其核心能力在於「創造新內容」。
傳統 AI 大多用來「分類」或「預測」(例如:判斷這張圖是不是貓),而生成式 AI 則是學習了大量的資料後,能夠「生成」全新的內容(例如:畫出一隻正在喝咖啡的機器貓)。

下面是傳統 AI 與生成式 AI 的差異比較表:

比較項目 傳統 AI (分析與判別式 AI) 生成式 AI (Generative AI)
主要功能 分類、辨識、預測趨勢 創造、生成全新的內容
運作方式 尋找資料中的規則與特徵 學習資料的分佈與結構,生成相似但不一樣的新結果
常見應用 垃圾郵件過濾、人臉解鎖、天氣預測 文章撰寫、圖像生成、音樂創作、影片生成
舉例說明 「這張照片裡有狗嗎?」 「請幫我畫一張在太空漫步的黃金獵犬照片。」

我們也可以透過以下的 Mermaid 概念圖來理解它們的關係:

graph TD A[人工智慧 AI] --> B(機器學習 Machine Learning) B --> C(深度學習 Deep Learning) C --> D{生成式 AI Generative AI} A --> E[傳統/判別式 AI] E --> F[分類貓狗圖片] E --> G[預測股票走向] D --> H[文字生成: ChatGPT/Gemini] D --> I[圖像生成: Midjourney/Imagen] D --> J[音訊/影片生成: Sora/Veo]

生成式AI的應用

生成式 AI 已經廣泛應用於多種媒體形式中:
- 文字 (Text):撰寫報告、寫詩、翻譯語言、總結長篇文章。
- 圖像 (Image):設計 Logo、製作遊戲素材、畫插畫。
- 音訊 (Audio):文字轉語音(TTS)、生成背景音樂、模仿特定人聲。
- 影片 (Video):將文字腳本轉換為短影音、生成動畫。
- 程式碼 (Code):自動撰寫網頁 HTML/CSS、Python 腳本或資料庫查詢語言 (SQL)。


階段三:商用生成式AI介紹

目前市面上有多家科技巨頭推出了強大的生成式 AI 模型:

  1. Google 的 Gemini
  2. 特色與最新模型:Google 最強大的多模態模型。目前最新為 Gemini 3Gemini 3 Flash 系列,進一步提升了推理能力與運算速度。它擁有極長的「上下文窗口(Context Window)」,可以一次塞入好幾本電子書或一部長影片讓它分析,並且與 Google 服務(如 Workspace、Android)深度整合。
  3. OpenAI 的 ChatGPT (GPT / o 系列)
  4. 特色與最新模型:ChatGPT 的幕後推手,也是目前最普及的 AI。最新的推理模型包含 o3o3-mini 甚至 o4-mini,針對複雜的數學與程式問題強化了「深度推理(Reasoning)」能力。而在一般語言與多模態模型上,GPT-5.2 則在程式編寫與代理任務 (Agentic workflow) 上提供了頂尖的表現。
  5. Anthropic 的 Claude
  6. 特色與最新模型:由 OpenAI 前員工創立,極度重視「AI 安全性」。目前的最新版本已推進到 Claude 4.6 Sonnet 以及 Claude 4.5 Opus。它在撰寫程式碼和自然語言寫作上表現卓越,並且擁有 Artifacts 功能,可以直接在旁邊的視窗預覽它寫出來的網頁或圖表。
  7. xAI 的 Grok
  8. 特色與最新模型:由 Elon Musk 的 xAI 團隊開發。目前最新版本為 Grok 4.1。其最大特色是能夠即時存取 X (前 Twitter) 平台上的最新推文資訊,回答風格較為幽默、不受傳統框架侷限,適合尋找即時的新聞動態與社群風向。

階段四:Google Gemini 的實驗遊樂場

AI Studio的介紹

Google AI Studio 是一個專為開發者和學習者設計的「網頁版實驗室」。
在這裡,你可以直接呼叫 Google 最新的 Gemini 模型,調整各種參數(如溫度),甚至可以在不寫程式碼的情況下,測試不同 Prompt (提示詞) 的效果。它非常適合高中生用來了解 AI 模型的底層邏輯與運作原理。

Gemini的最新模型

在 AI Studio 中,我們可以選擇不同量級的模型來達成任務:
- Gemini Flash 系列:速度極快、成本低,適合處理大量的日常簡單任務。
- Gemini Pro 系列:效能與速度的完美平衡,擁有優異的長文本處理能力與推理能力。


💡 以下是 Gemini 各項功能的應用說明與「範例 Prompt」設計。請在 AI Studio 中親自嘗試這些 Prompt,觀察 AI 的回應!

1. 問答 (Q&A)

2. 文本生成 (Text Generation)

3. 圖像生成 (Image Generation)

4. 影片生成 (Video Generation)

5. 各種程式 (Coding & Debugging)

6. 讀取與整理資料 (Data Processing)

7. 其他功能 (Advanced Settings)


學習總結

恭喜你完成了生成式 AI 的基礎學習!
經過這個章節,你應該已經獲得了以下的知識與技能: