掌握零樣本與少樣本提示詞技巧,減少模型幻覺與 API 呼叫次數。實測 GPT-4 與 Claude 在翻譯、分類任務上的準確率差異,附程式碼範例與 Token 成本計算。

零樣本 vs 少樣本:核心差異與適用場景

Prompt 工程師必學的第一課,就是理解零樣本(Zero-Shot)與少樣本(Few-Shot)提示詞的核心差異。零樣本提示詞是指直接給出任務指示,不提供任何範例;少樣本提示詞則在提示中加入 1-5 個範例來引導模型理解任務模式。根據史丹佛大學以人為本人工智慧研究所(Stanford HAI)發布的 AI Index 年度報告,近年大型語言模型在 Zero-Shot 基準測試上的表現已接近甚至超越傳統監督學習,催生出 Prompt Engineering 這門新學科。

選對提示策略可節省高達 70% 的 Token 消耗。Gartner 人工智慧研究(Gartner AI Research)的數據顯示,企業平均每百萬 Tokens 支付 $2-15 美金,策略優化直接影響 AI 部署成本。本篇文章將用實際程式碼展示兩種技巧的語法結構,並計算在真實任務中的成本差異。

零樣本提示詞:適用場景與語法結構

當任務夠明確、格式固定時,零樣本提示詞是首選。零樣本學習(Zero-Shot Learning)依靠模型預訓練時內化的世界知識,適合翻譯、分類、情緒分析等模式清晰的任務。根據麻省理工學院計算機科學與人工智慧實驗室(MIT CSAIL)的前沿 AI 研究論文,新一代模型如 GPT-4 與 Claude 3 在無範例情境下已具備極強的泛化能力。

零樣本提示詞範例

# 零樣本翻譯任務
prompt = """將下列中文翻譯成英文:

輸入:今天天氣很好
輸出:"""

response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": prompt}],
    max_tokens=50
)

何時使用零樣本?

少樣本提示詞:提升準確率的關鍵技巧

少樣本提示詞(Few-Shot Prompting)透過在提示中加入少量範例(通常 1-10 個),讓模型學習輸入與輸出之間的對應關係。根據史丹佛大學以人為本人工智慧研究所的觀察,少樣本學習能將特定任務的準確率提升 15-40%,代價是每次 API 呼叫的 Token 消耗增加 20-50%。

少樣本提示詞範例

# 少樣本分類任務(情緒分析)
prompt = """將句子分類為「正面」或「負面」:

範例1:
輸入:這本書讓我感動得流淚
輸出:正面

範例2:
輸入:服務態度惡劣,完全不會再去
輸出:負面

範例3:
輸入:產品功能還行,但價格偏高
輸出:負面(混合負面)

請分類:
輸入:新產品發布會非常成功"""

少樣本學習的黃金法則

實測數據:兩種技巧的效能與成本對比

我們在翻譯(英→中)、新聞分類(5類)、邏輯推理三項任務上測試 GPT-4 與 Claude 3 Opus 的表現。以下是實測結果:

成本計算(以 GPT-4 $0.03/1K input tokens 為例):

# 假設每月 10,000 次翻譯任務

零樣本方案:
每次平均 150 tokens → 10,000 × 150 / 1,000 × $0.03 = $45/月

少樣本方案(3例):
每次平均 450 tokens → 10,000 × 450 / 1,000 × $0.03 = $135/月

準確率差異:4%
多出成本:$90/月(+200%)
結論:簡單翻譯任務不值得使用少樣本

實務建議:如何選擇最適提示策略

根據 Gartner 人工智慧研究的企業 AI 採用統計,多數組織在初期偏好零樣本,但隨著任務複雜度提升會逐步轉向少樣本。以下是決策框架:

選擇流程圖

  1. 任務輸出是否為開放式?(是→零樣本)
  2. 任務是否涉及多步推理?(是→少樣本+CoT)
  3. 範例是否容易取得且正確?(否→零樣本,避免錯誤示範)
  4. 成本敏感度如何?(高→零樣本;低→少樣本)

實務上,建議從零樣本開始,透過評估結果決定是否加入範例。IEEE 的 AI 倫理標準(IEEE 7000)也強調,提示詞設計應考慮模型輸出的公平性與可解釋性,少樣本範例尤其需要避免偏見樣本的滲透。

TL;DR:零樣本適合簡單明確任務,成本低但對複雜推理效果有限;少樣本可提升 15-40% 準確率,代價是 Token 消耗增加 20-50%;選擇策略時權衡任務複雜度、成本敏感度與範例品質三個變數。