為何 Token 費用砍 80% 是現在企業的必修課題

根據史丹佛大學以人為本人工智慧研究所(Stanford HAI)發布的 AI Index 年度報告,企業在 AI 基礎設施的成本控制已成為部署成敗的關鍵變數。輸出 token 定價通常是輸入 token 的 4 倍,部分高端模型甚至達到 8 倍,這意味著控制輸出長度比優化輸入更重要的多。Context Engineering(語境工程)正是解決這個問題的核心方法論,透過「身份暗物質」概念——亦即隱藏在對話歷史與檢索結果中的重複語義模式——我們可以系統性地提升快取命中率,實現 70-80% 的成本削減。

未經優化的 LLM 系統在部署 6-9 個月後,實際運營成本往往超出預算 2-4 倍。這是因為團隊常犯的錯誤是:將 4-8 份完整文件傳入 context,實際上只需要其中的幾個段落。Gartner 人工智慧研究(Gartner AI Research)的數據顯示,採用 Context Engineering 策略的企業在相同產出品質下,API 支出平均減少 60% 以上。

語義快取(Semantic Cache)實作:基礎配置

語義快取的核心原理是儲存 LLM 對特定輸入的輸出回應,當相似語義的查詢再次出現時,直接返回快取結果而非重新呼叫模型。傳統的精確匹配快取無法應對用戶表達方式的差異,而語義快取透過向量化比對,解決了這個痛點。

以下 Python 程式碼展示如何用 Redis 與 LangChain 實作基礎語義快取:

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Redis
import numpy as np

class SemanticCache:
    def __init__(self, redis_url: str, threshold: float = 0.85):
        self.embeddings = OpenAIEmbeddings()
        self.threshold = threshold
        self.redis = Redis.from_url(redis_url, "semantic_cache")
    
    async def get_or_compute(self, prompt: str, compute_fn):
        # 計算輸入的嵌入向量
        query_embedding = await self.embeddings.aembed_query(prompt)
        
        # 搜尋相似快取項目(相似度 > 0.85)
        results = self.redis.similarity_search_with_score(
            query_embedding[0], k=1
        )
        
        if results and results[0][1] < (1 - self.threshold):
            return results[0][0].page_content  # 返回快取結果
        
        # 快取未命中,執行計算
        result = await compute_fn(prompt)
        
        # 存入快取
        await self.redis.aadd_texts(
            [prompt], 
            [result],
            embeddings=[query_embedding]
        )
        return result

此配置中,threshold 參數控制語義相似度閾值。根據 MIT 計算機科學與人工智慧實驗室(MIT CSAIL)的研究,0.85-0.90 是大多數應用場景的最佳平衡點,過高會降低快取命中率,過低則可能返回語義不相關的結果。

Prompt 快取與 Context 分層策略

Prompt 快取是另一個強大的成本優化工具。當系統提示(system prompt)保持穩定時,可以利用模型的快取機制節省高達 90% 的輸入 token。然而,這需要極高的命中率才能發揮效益——單次長 context 呼叫的成本可能抵消數十次快取節省的金額。

最佳實踐是採用 Context 分層策略:

這種分層架構確保快取命中率維持在 60% 以上,同時確保每次回應都包含最新的對話脈絡。IEEE 的人工智慧倫理標準(IEEE 7000)也建議企業在設計 AI 系統時採用此類分層架構,以確保決策的可解釋性與成本可控性。

RAG 精準檢索:只傳入必要的片段

根據 Gartner 人工智慧研究的技術成熟度曲線,RAG(檢索增強生成)已進入「生产力高原期」,是企業級應用的成熟技術。關鍵在於如何實現「精準檢索」——只將回答問題所需的確切段落傳入 context,而非整份文件。

# 精準檢索配置範例
retriever = vector_store.as_retriever(
    search_type="mmr",  # Maximum Marginal Relevance
    search_kwargs={
        "k": 3,  # 只取最相關的 3 個片段
        "fetch_k": 10,  # 初步取回 10 個候選
        "lambda_mult": 0.7  # 多樣性權重
    }
)

這個配置的巧妙之處在於:透過 MMR(最大邊際相關性)演算法,我們在「高度相關」與「資訊多樣性」之間取得平衡,避免模型重複處理語意重疊的內容。

輸出控制與模型分層路由

輸出 token 的成本是輸入的 4 倍,因此控制輸出長度是成本優化的槓桿點。除了在 Prompt 中明確指定回應格式與長度限制外,模型分層路由(Model Tiered Routing)是更進階的策略。

具體做法是:簡單的事實查詢交由小模型處理(如 GPT-4o Mini),複雜的推理任務才調用旗艦模型。國際電氣電子工程師學會(IEEE)在其 AI 技術路線圖中指出,這種「智慧路由」架構可再額外節省 30-40% 的總成本。

綜合以上四個策略:語義快取 + Prompt 快取 + RAG 精準檢索 + 輸出控制,實際測試可達到 70-80% 的 Token 費用削減。部分 Medium 工程師案例更顯示,透過完整的 Context Engineering 優化,已實現高達 90% 的成本降低。