階段一：現階段的AI發展概況與應用

AI的最新發展概況

近年來，人工智慧（AI）的發展已經從實驗室走向了大眾的日常生活。最新的發展概況主要集中在以下幾個面向：
1. 多模態（Multimodal）模型的崛起：現在的 AI 不僅能處理文字，還能同時理解圖像、聲音甚至是影片。我們可以直接對著 AI 說話，或上傳一張圖片讓它進行分析。
2. 代理式工作流程（Agentic Workflow）：AI 不再只是一問一答的聊天機器人，而是能夠自主規劃步驟、使用工具（如搜尋網路、執行程式碼），進一步解決複雜問題的「智慧代理人（Agent）」。
3. 終端裝置 AI（Edge AI）：越來越多 AI 模型被壓縮並內建於我們的手機、平板和個人電腦中，不僅提升了運算速度，也能在不連網的狀態下保護使用者的隱私。

AI的最新發展應用

教育領域：成為學生的個人專屬家教，針對不懂的知識點進行耐心講解；協助老師自動出題與批改考卷。
醫療健康：輔助醫生判讀 X 光片、分析病歷，甚至加速新藥物的研發過程。
程式開發：開發者只需用自然語言描述需求，AI 就能自動生成程式碼，或幫忙找出程式裡的 Bug（臭蟲）。
娛樂與藝術：透過一句話生成精美的畫作、製作音樂特效，甚至是一段栩栩如生的電影畫面。

階段二：生成式AI的概念與應用

生成式AI的概念與傳統AI的差異

生成式 AI (Generative AI) 是人工智慧的一個分支，其核心能力在於「創造新內容」。
傳統 AI 大多用來「分類」或「預測」（例如：判斷這張圖是不是貓），而生成式 AI 則是學習了大量的資料後，能夠「生成」全新的內容（例如：畫出一隻正在喝咖啡的機器貓）。

下面是傳統 AI 與生成式 AI 的差異比較表：

比較項目	傳統 AI (分析與判別式 AI)	生成式 AI (Generative AI)
主要功能	分類、辨識、預測趨勢	創造、生成全新的內容
運作方式	尋找資料中的規則與特徵	學習資料的分佈與結構，生成相似但不一樣的新結果
常見應用	垃圾郵件過濾、人臉解鎖、天氣預測	文章撰寫、圖像生成、音樂創作、影片生成
舉例說明	「這張照片裡有狗嗎？」	「請幫我畫一張在太空漫步的黃金獵犬照片。」

我們也可以透過以下的 Mermaid 概念圖來理解它們的關係：

graph TD A[人工智慧 AI] --> B(機器學習 Machine Learning) B --> C(深度學習 Deep Learning) C --> D{生成式 AI Generative AI} A --> E[傳統/判別式 AI] E --> F[分類貓狗圖片] E --> G[預測股票走向] D --> H[文字生成: ChatGPT/Gemini] D --> I[圖像生成: Midjourney/Imagen] D --> J[音訊/影片生成: Sora/Veo]

生成式AI的應用

生成式 AI 已經廣泛應用於多種媒體形式中：
- 文字 (Text)：撰寫報告、寫詩、翻譯語言、總結長篇文章。
- 圖像 (Image)：設計 Logo、製作遊戲素材、畫插畫。
- 音訊 (Audio)：文字轉語音（TTS）、生成背景音樂、模仿特定人聲。
- 影片 (Video)：將文字腳本轉換為短影音、生成動畫。
- 程式碼 (Code)：自動撰寫網頁 HTML/CSS、Python 腳本或資料庫查詢語言 (SQL)。

階段三：商用生成式AI介紹

目前市面上有多家科技巨頭推出了強大的生成式 AI 模型：

Google 的 Gemini
特色與最新模型：Google 最強大的多模態模型。目前最新為 Gemini 3 與 Gemini 3 Flash 系列，進一步提升了推理能力與運算速度。它擁有極長的「上下文窗口（Context Window）」，可以一次塞入好幾本電子書或一部長影片讓它分析，並且與 Google 服務（如 Workspace、Android）深度整合。
OpenAI 的 ChatGPT (GPT / o 系列)
特色與最新模型：ChatGPT 的幕後推手，也是目前最普及的 AI。最新的推理模型包含 o3、o3-mini 甚至 o4-mini，針對複雜的數學與程式問題強化了「深度推理（Reasoning）」能力。而在一般語言與多模態模型上，GPT-5.2 則在程式編寫與代理任務 (Agentic workflow) 上提供了頂尖的表現。
Anthropic 的 Claude
特色與最新模型：由 OpenAI 前員工創立，極度重視「AI 安全性」。目前的最新版本已推進到 Claude 4.6 Sonnet 以及 Claude 4.5 Opus。它在撰寫程式碼和自然語言寫作上表現卓越，並且擁有 Artifacts 功能，可以直接在旁邊的視窗預覽它寫出來的網頁或圖表。
xAI 的 Grok
特色與最新模型：由 Elon Musk 的 xAI 團隊開發。目前最新版本為 Grok 4.1。其最大特色是能夠即時存取 X (前 Twitter) 平台上的最新推文資訊，回答風格較為幽默、不受傳統框架侷限，適合尋找即時的新聞動態與社群風向。

階段四：Google Gemini 的實驗遊樂場

AI Studio的介紹

Google AI Studio 是一個專為開發者和學習者設計的「網頁版實驗室」。
在這裡，你可以直接呼叫 Google 最新的 Gemini 模型，調整各種參數（如溫度），甚至可以在不寫程式碼的情況下，測試不同 Prompt (提示詞) 的效果。它非常適合高中生用來了解 AI 模型的底層邏輯與運作原理。

Gemini的最新模型

在 AI Studio 中，我們可以選擇不同量級的模型來達成任務：
- Gemini Flash 系列：速度極快、成本低，適合處理大量的日常簡單任務。
- Gemini Pro 系列：效能與速度的完美平衡，擁有優異的長文本處理能力與推理能力。

💡 以下是 Gemini 各項功能的應用說明與「範例 Prompt」設計。請在 AI Studio 中親自嘗試這些 Prompt，觀察 AI 的回應！

1. 問答 (Q&A)

說明：AI 可以作為你的知識庫，進行深度問答與邏輯推演。如果問題太複雜，可以引導它一步步思考（Chain of Thought）。
範例 Prompt：
text 你現在是一位幽默的高中物理老師。請用高中生聽得懂的生活例子，並且以「一步一步思考」的方式，解釋什麼是「量子力學中的薛丁格的貓」。字數控制在 300 字以內。

2. 文本生成 (Text Generation)

說明：不論是寫作靈感、翻譯還是摘要，AI 都能根據你給定的角色與語氣快速生成高品質的文本。
範例 Prompt：
text 我需要寫一篇關於「減少校園塑膠垃圾」的短篇演講稿。對象是全校師生。請幫我擬定 3 個吸睛的開場白，並撰寫一段大約 200 字的結語，語氣要充滿熱血與號召力。

3. 圖像生成 (Image Generation)

說明：利用 Google 的 Imagen 模型，你可以用文字描述腦海中的畫面，AI 會將其渲染成高品質圖片。描述越精準（包含風格、光影、主體細節），圖片越符合預期。
範例 Prompt：
text 生成一張高畫質圖片：一隻穿著太空衣的可愛柴犬，正漂浮在火星表面。背景是璀璨的銀河，風格是 3D 動畫皮克斯風格 (Pixar style)，光線明亮。

4. 影片生成 (Video Generation)

說明：Google 的 Veo 技術可以生成短秒數的高畫質影片。這對於製作簡報動畫或影音素材非常有幫助。
範例 Prompt：
text 生成一段 5 秒的影片：鏡頭從高空俯瞰一座被熱帶雨林包圍的古代神廟，接著一隻色彩斑斕的鸚鵡從鏡頭前飛過。電影級運鏡。

5. 各種程式 (Coding & Debugging)

說明：AI 是你寫程式的最強副手，不管是解讀看不懂的程式碼，或是幫忙找 Bug，它都能給出詳細的解釋。
範例 Prompt：
text 我是一個剛學 Python 的高中生。請幫我寫一個簡單的「猜數字遊戲」程式碼 (1 到 100 之間)。請在每一行程式碼加上清楚的中文註解，並且在最後教我如果想把範圍改成 1 到 500 應該改哪裡。

6. 讀取與整理資料 (Data Processing)

說明：Gemini 擁有極大的上下文窗口，你可以上傳一份長篇的 PDF 或 CSV 檔案，讓它幫你找出重點，或是重新排版成表格。
範例 Prompt：
text (請先上傳一份關於氣候變遷的 PDF 報告) 請閱讀這份報告，幫我總結出「全球暖化對海洋生態造成的三大主要影響」，並將這三個影響以及對應的解決方案，整理成一個 Markdown 格式的表格。

7. 其他功能 (Advanced Settings)

說明：在 AI Studio 中，你還可以調整右側的進階設定。
System Instructions (系統指令)：設定 AI 的根本角色與規則（例如：設定它永遠只能用文言文回答）。
Temperature (溫度)：設定 AI 的創意程度。數值接近 0 時，回答最精準死板；數值接近 1 甚至 2 時，回答最具創意但可能出現幻覺（Hallucination）。
範例 Prompt (搭配系統指令測試)：
在 System Instructions 輸入：「你是一個脾氣暴躁但內心善良的程式設計大師。回答問題前都要先嘆氣。」
在聊天框輸入：「請問什麼是 HTML？」

學習總結

恭喜你完成了生成式 AI 的基礎學習！
經過這個章節，你應該已經獲得了以下的知識與技能：

知識 (Knowledge)：
清楚知道傳統 AI 與生成式 AI 的核心差異與運作原理。
認識目前市場上主流的大型語言模型（Gemini, GPT, Claude, Grok）及其特色與最新模型資訊。
技能 (Skills)：
能夠登入並操作 Google AI Studio 環境。
具備基本的 Prompt Engineering (提示詞工程) 技巧，懂得如何設計具體的指令來引導 AI 完成問答、寫作、圖片生成與程式除錯等實用任務。