想快速掌握大模型關鍵技術?本文從 AI 產品經理視角,深入淺出剖析 Agent、MCP 等術語,涵蓋定義、原理、應用場景及相關概念關系,為你構建清晰知識體系,助你在大模型浪潮中把握技術核心,提升產品競爭力。
在大模型快速演進的今天,我們每天都能聽到各種新詞橫飛—Agent、SFT、MCP、RAG、LoRA……仿佛不懂這些術語,就跟不上AI時代的腳步。然而,這些詞語背后不僅僅是技術,更代表了AI應用的邏輯結構、訓練范式和演進方向。
作者從一名 AI 產品經理視角來帶你們了解并知道這些內容是做什么的。
更多AI教程:
定義:國內也叫做(智能體)是一個可以自主感知、思考、決策并行動的軟件“角色”或系統,它能根據外界輸入自主完成任務。
先說結論:Agent 是一個具備目標導向、自主決策與實際執行能力的 AI 智能體,正是 AI 從“懂你說什么”到“能替你完成”的關鍵一躍。
通俗解釋:你可以把 Agent 想象成你手機里的“聰明小助理”——比如 Siri、ChatGPT、或自動回復機器人,但更智能、更有主見。
1. Agent 原理
下面用一個通俗易懂、生活化的方式,詳細解釋 Agent 是什么、它怎么工作的、背后是怎么分析用戶需求的。
環境/用戶 →「觀察」→ 狀態/記憶 →「推理/規劃」→「行動/調用工具」→「獲得反饋」→ 循環
一句話:Agent 是一個能“感知—思考—行動—再感知”的閉環系統。它在環境中接收信息(觀察),根據目標與記憶做決策(推理/規劃),調用工具執行動作(API/代碼/機器人手臂等),再根據結果調整后續行為,直到完成任務或達到終止條件。
舉個例子:
假設你跟它說:“我想訂一張下周去北京的火車票。”
普通程序只能告訴你一些車次信息。
Agent 會自動:
- 明白你要“訂票”這個意圖;
- 知道你的位置是“上海”,目的地是“北京”;
- 查詢你喜歡的出發時間和座位類型(軟臥/高鐵/二等座);
- 登錄訂票系統;
- 自動幫你選好車次、填好乘客信息;
- 提醒你付款,甚至自動完成。
這就好像它“幫你辦事”,不需要你一步步教它。
2. Agent 的基本組成
Agent 不只是一個程序,而是由多個“腦子 + 手腳”組成的智能體:
3. Agent 是怎么“理解”你需求的?
背后靠的是大語言模型 + 多模態感知 + 推理引擎等 AI 技術,流程如下。
總結一句話:
Agent = 能理解人類語言 + 自主思考 + 自動辦事的“數字小助手”。
它不只是聊天,而是“有大腦、能干活”的 AI 小工人,可以應用于自動客服、個人助理、數據分析、企業流程等各種場景。
與相關概念的關系:
- 與 Chatbot 的區別:Chatbot 多為“問答/對話”,Agent 以完成目標為中心,能主動拆解任務、調用工具與記憶、與環境交互并閉環。
- 與 RAG 的關系:RAG 是一種取數/補充上下文的技能。在 Agent 中,RAG 常被當作一個工具:當缺知識或需查事實時調用檢索再決策。
- 與 MCP/工具協議:像 MCP 這類“模型與工具/資源之間的協議與標準”,本質是讓 Agent 以統一方式發現并調用外部能力(文件、數據庫、工作流、API),降低集成成本、提升可移植性。
- 與 SFT(監督微調):SFT 可把“遵循指令、使用工具、寫結構化調用”的能力固化進模型,使 Agent 更穩更聽話;也可對特定域(客服、法務、運維)做專精。
4. Agent 特征
- 自主性(Autonomy):智能體能夠在沒有人類直接、實時干預的情況下獨立運行和做決策。它的行為是基于自身的經驗和感知,而不僅僅是執行預設的指令。
- 反應性(Reactivity):能夠感知環境的變化并及時做出響應。例如,一個機器人在前進時,如果傳感器檢測到障礙物,它會立即停下或繞行。
- 主動性(Proactiveness):不僅僅是被動地對環境做出反應,還能主動地、有目標地發起行動,以達成既定目標。例如,一個投資交易智能體可能會主動分析市場趨勢,并在它認為合適的時機執行買賣操作,而不是等待指令。
- 學習能力(Learning/Adaptability):這是智能體“智能”的核心體現。它能夠從過去的經驗中學習,不斷調整和優化自己的行為策略,以在未來獲得更好的性能。例如,一個下棋 AI(如 AlphaGo)通過數百萬次的自我對弈來學習,不斷提升棋藝。
- 目標導向(Goal-driven):智能體的所有行為都是為了實現一個或多個預設的目標。例如,恒溫器的目標是保持室內溫度在一個特定范圍。
- 社交性(SocialAbility):在多智能體系統(Multi-AgentSystem)中,智能體能夠通過某種通信語言與其他智能體進行交互、協作、協調或談判,共同完成更復雜的任務
1. MCP 是什么?——像安排外賣小哥送餐的詳細步驟
MCP 的特征:
MCP 就像你是一個外賣平臺的調度員,你要讓 AI(小哥)完成一項任務,比如送餐,你會怎么安排?
你不會只說一句“去送餐”,你得一步步告訴他:
- 先查訂單:哪位顧客、什么地址、點了什么?
- 去商家取餐:到哪個店、什么時間去拿?
- 規劃路線:怎么送最快?
- 聯系客戶:臨時找不到門牌號怎么辦?
- 送達并確認:顧客收貨后拍照留底
這就是 MCP:把大任務分成多個小步驟,AI 按步驟完成,更準也更聰明。
2. API 是什么?——像你點了一單外賣
API 是 Application Programming Interface 的縮寫,意為“應用程序編程接口”。
本質上是:
一個系統或服務暴露出來的 接口或通信協議,用于讓其他程序調用其功能或數據。
常見類型包括:
- RESTfulAPI(Web 服務,如 GET/user/info)
- LLMAPI(調用大模型,如 OpenAIAPI)
- 內部系統 API(企業系統之間通信)
舉例:
- 用 API 向 OpenAI 發請求調用 GPT 模型
- 使用第三方支付 API 實現微信/Stripe 支付功能
- 使用天氣 API 獲取實時氣象數據
你作為用戶,只要點一點按鈕:“我要點外賣” → 這個請求就發給外賣平臺。
平臺收到后,會自動調用后臺:
- 派單給騎手
- 通知商家做菜
- 更新配送進度
你發的這個請求,就是 API:你調用了別人的服務,讓對方幫你干活。
總結對比:像你管理外賣平臺 vs 你自己點外賣
一句話總結:MCP 是 AI 干活時的“分步驟計劃書”,API 是你去找別人幫忙的一張“請求單”。
MCP 是 Multi-Component Prompting 的縮寫,中文叫“多組件提示工程”或“多模組件提示”。它是一種用于構建復雜任務鏈的提示工程框架,廣泛用于 Agent 系統、RAG 系統或鏈式大模型執行環境中。
3. MCP 和 API 的區別
通俗理解:
- MCP 是你如何組織思路和任務讓大模型聰明地一步步完成。
- API 是你如何把這個模型的能力打包成服務供別人調用。
Transformer 是一種在自然語言處理和生成任務中廣泛使用的神經網絡架構,由 Google 于 2017 年提出。它徹底改變了機器學習對語言的建模方式,是 GPT、BERT 等主流模型的基礎。
一句話總結:Transformer 是一種完全基于注意力機制的模型架構,可以并行處理序列數據,用于文本理解和生成任務。
1. Transformer 是什么?(通俗版)
Transformer 是一種人工智能的大腦結構,專門用來處理語言。比如:
- 讓 ChatGPT 能看懂你的問題
- 讓翻譯軟件知道“你好嗎”該翻成“Howareyou”
- 讓 AI 寫小說、生成文章、做總結……
類比:Transformer 就像一個特別聰明的「翻譯專家團隊」
你可以把 Transformer 想象成一個團隊,這個團隊里每個成員負責理解一個詞,但他們都會:
- 互相溝通(注意力機制)
- 商量每個詞之間的關系(誰更重要)
- 一起得出結論(比如:整個句子的意思)
舉個例子——假設你說:
“小明今天去學校”
這個句子進入 Transformer 后,它會像這樣處理:
- “小明”是誰?和“去”有關系。
- “今天”是時間詞,要和“去”搭配。
- “學校”是目的地,和“去”關系最緊。
于是它會得出結論:這是一個人今天去了學校。
2. Transformer 有什么厲害的地方?
通俗記憶法:Transformer = “每個詞都能開會的團隊”
不像傳統方法一個人拍板,Transformer 更像:
每個詞都開會每個詞都能說:“我覺得我和某個詞關系很大!”最終得出最合理的理解結果
它是很多 AI 的核心引擎!
- ChatGPT(聊天)
- Google 翻譯
- Midjourney(圖像 AI)
- Suno(AI 音樂)
- BERT(搜索引擎理解你的問題)
背后其實都在用 Transformer!
2. 工作原理詳解(逐層分析)
1)輸入編碼(Input Embedding + Position Encoding)
- 將詞轉換為向量(WordEmbedding)
- 加上位置編碼(因為 Transformer 不具備 RNN 的時序性,需顯式添加位置信息)
2)Encoder 編碼器部分
包含 N 個重復的子結構,每個子結構有:
a. 多頭自注意力機制(Multi-Head Self-Attention)
每個單詞都可以關注其他單詞的表示。
多頭機制能從多個角度建模關系。
b. 前饋神經網絡(Feed Forward)
對每個位置單獨應用一個小型的兩層全連接網絡。
增強非線性建模能力。
c. 殘差連接 + LayerNorm
保持梯度穩定,增強訓練效果。
3)Decoder 解碼器部分
也包含 N 個子結構,與 Encoder 類似但多了一步:
a. 掩碼自注意力(Masked Multi-Head Attention)
防止看到未來詞,用于生成任務。
b. Encoder-Decoder Attention
解碼器可以訪問 Encoder 輸出,建立翻譯/問答的對齊關系。
1. 什么是 Diffusion Model(擴散模型)?
Diffusion Model(擴散模型) 是一種 AI 圖像生成技術,現在很多爆火的 AI 圖片(比如 Midjourney、Stable Diffusion、DALL·E)背后用的都是它。
通俗講,它像是“在畫布上不斷擦除噪聲,逐漸顯現圖像細節的過程”。
你可以把它想象成這樣的過程:
一個比喻:照片修復術
想象你有一張清晰的照片;你故意往照片上涂很多雜亂的噪聲,照片被弄糊了;然后,你訓練一個 AI 模型,去一步一步地把噪聲“清除”掉,直到恢復出原始圖像;
最神奇的是:只要告訴它一句話(比如“一個在火星上彈吉他的貓”),它可以從純噪聲開始,一步步還原出這張從未存在的照片。這就是擴散模型的魔力。
工作原理詳解(通俗版):
整個過程分為兩個階段:正向擴散(加噪聲) 和 逆向擴散(去噪聲)1.正向擴散(Forward Process)
從一張真實圖片開始,不斷加入隨機噪聲,最后變成一張“白噪聲圖”(像電視雪花那樣)。
過程是有步驟的,比如 1000 步,每一步都讓圖像更模糊。
這個階段其實不需要模型預測,是“已知”的過程。
2. 逆向擴散(Reverse Process)
模型的目標是:學習怎么從噪聲中一步步還原出圖像。
它是通過訓練數據學到的,比如看了很多貓的圖,就知道“從噪聲中恢復出一只貓”的方法。
每一步,模型會預測“這張圖中,哪里是噪聲,哪里是內容”,然后一點點清除噪聲,直到生成完整圖片。
2. 為什么它這么強?
多模態模型(Multimodal Model),通俗來講就是一種“能看、能聽、能說、能理解”的 AI 模型。下面我用非常簡單的方式為你解釋它的本質和工作方式。
1. 什么是“模態”?
在人工智能里,模態(modality)就是信息的類型或感官通道,比如:
- 圖像、視頻→視覺模態
- 聲音、語音→聽覺模態
- 文本、語言→語言模態
- 傳感器數據(GPS、雷達、熱感等)→其他模態
所以,“多模態”就是同時處理多種信息源,而不是只理解文字。
2. 多模態模型是干嘛的?
它能同時理解和融合多種信息形式,就像一個人可以一邊看圖,一邊聽聲音,還能用語言表達和思考。
舉個最簡單的例子:
你發給它一張圖片,問它:“圖中人在干嘛?”
多模態模型能看懂圖片,還能讀懂你的問題,并用語言回答。
如果是傳統語言模型(如早期的 GPT-3),它只會處理文字,看不懂圖片。
3. 它是怎么工作的?(通俗流程)
1)感知階段:
- 把圖片轉成“視覺特征”;
- 把聲音轉成“語音特征”;
- 把文字變成“語言特征”。
2)理解階段:
把不同模態的特征統一轉化成一樣的向量格式;這樣模型就可以在同一個“腦子”里理解各種輸入。
3)生成階段:
根據指令或上下文,選擇輸出方式:
- 回答文字;
- 生成圖片;
- 合成語音等。
4. 多模態模型能做什么?
代表性多模態模型有哪些?:
- GPT-4o:OpenAI 多模態模型,會看圖、聽音頻、對話
- Gemini(Google):文字、圖片、音頻、代碼全能型
- Claude3(Anthropic):支持長文本和圖片理解
- 文心一言、通義千問:國內大廠也在搞
總結一句話:多模態模型就像是擁有“眼睛、耳朵和嘴巴”的 AI,比只能“讀文字”的模型更像人類,能理解復雜場景,也更適合真實世界的任務。
SFT 是 “Supervised Fine-Tuning” 的縮寫,中文一般翻譯為 有監督微調。它是訓練大語言模型(比如 GPT、LLaMA 等)中的一個重要步驟。下面我用通俗的方式詳細解釋一下。
一句話解釋:SFT 就是“用人工標注的好樣本來教 AI 怎么更聰明地回答問題”。
1. 為什么需要 SFT?
在訓練語言模型的過程中,最開始它只是通過大量文本進行“無監督預訓練”(比如看百科、論壇、新聞等),學會了“語言”的基本規則。
但這種模型可能會:
- 胡說八道
- 回答不符合人類期望
- 不太懂怎么禮貌表達
- 不知道哪些回答是“對的”
這時就需要 SFT 來“糾正它的行為”!
2. SFT 是怎么做的?
SFT 過程就像老師帶學生寫作文一樣,步驟如下:
準備一批高質量的“標準答案”
比如用戶問題:“如何炒西紅柿雞蛋?”
答案:“先把雞蛋打散炒熟盛出,再炒番茄,最后一起翻炒,加鹽出鍋。”
這些數據是人工標注、精選的好內容。
用這些問答對微調模型
把模型原來“模模糊糊”的知識,通過這些具體例子“拉正”。
這就像老師給你一堆范文,指導你如何答題。
模型學到更符合人類習慣的表達方式和結構
比如更禮貌、更有邏輯、不跑題、內容更實用。
1. 什么是模型預訓練(Pretraining)?
一句話解釋:就像我們上學要先打好基礎知識一樣,大模型在被真正用來解決具體任務前,也要先“上學”學點通用知識,這個階段就叫“預訓練”。
詳細通俗解釋:
把 AI 大模型想象成一個新員工,你想讓他來寫文章、寫代碼、回答問題、畫圖…… 但在他正式開始工作前,你總不能啥都不教就讓他上崗吧?
所以,你會先給他安排一個“通識培訓”:
- 給他看很多書籍、網頁、百科全書,讓他熟悉語言、常識、世界知識;
- 讓他學會分辨什么是語法正確的句子,什么是胡言亂語;
- 教他如何“理解”一段話里說了啥。
這個通用培訓階段,就是“預訓練”。
它的目標是讓模型掌握語言規律、積累常識、形成通用的表達能力,為后續“專門任務”打下基礎。
舉個真實案例
模型名字:GPT
GPT 就是通過預訓練起家的。它的預訓練方式是:
- 給它看互聯網上的大量文本,比如維基百科、Reddit、書籍、新聞等;
- 給它一個句子的一部分,例如“世界上最高的山是___”,
- 讓它猜出下一個詞是“珠穆朗瑪峰”。
它不斷在這種“猜下一個詞”的游戲中訓練,逐步學會語言表達和世界常識。
最終結果:它不僅能寫句子,還能寫文章、寫代碼、做翻譯,甚至回答各種問題。
類比案例:教小孩學語言
你教小孩說話,不是一下子就讓他去答題,而是:
- 多聽別人說話(輸入);
- 嘗試模仿說話(輸出);
- 不斷糾正他錯的表達(學習反饋);
這就是“預訓練”過程。
后面你才會讓他去考語文(翻譯)、數學(邏輯)、寫作文(內容創作)這些“下游任務”。
總結一句話:模型預訓練,就是 AI 在“上崗”前的大規模通識教育,教它語言規律和世界常識,為后續專門任務打基礎。
質檢 = 對模型輸出結果進行“質量檢查”,通常是由專人或者質檢團隊來做的。
舉例說明:
假設你在做一個問答大模型,你讓模型回答問題,比如:用戶問:“月亮上有水嗎?”
模型回答:“月亮上沒有任何水或冰。”
這時候,質檢員會檢查這個回答是不是準確的、有沒有語病、是否邏輯混亂或事實錯誤。
他們可能會從以下維度來打分或評判:
- 準確性(答得對不對)
- 流暢性(語句是否通順自然)
- 邏輯性(有沒有前后矛盾)
- 敏感性(有沒有涉及違規內容)
- 是否“答非所問”
通常還會記錄問題,反饋給模型訓練團隊或者數據標注團隊。
1. 大模型中的“互檢”是啥意思?
互檢 = 數據標注員或評估員之間互相檢查對方的標注或判斷是否合理。
舉個例子:
你和你的同事小李都在給模型“標注數據”或“評估模型回答”。
比如你倆都在看下面這個模型回答:
用戶問:“狗能不能吃巧克力?” 模型回答:“可以適量吃一點。”
你覺得這個回答有誤,打了“不合格”;但小李覺得“還行”,打了“合格”。
這時候你倆會互相檢查對方的打分或評語是否合理,甚至提交給“第三人仲裁”,以保證數據標注一致、評估標準統一。
2. 總結對比(適用于大模型數據工作)
用大白話說:“上下文長度”就是模型一次能帶在腦子里看的“聊天記錄/材料”的容量。超出這個容量,最前面的內容會被“擠掉”,它就記不清了。
1. 快速類比
- 像一塊白板:你不斷寫字,寫滿后再寫,最早的內容就被擦掉了。
- 像購物車容量:能裝這么多,再多就掉出來。
2. 舉例
你和模型聊項目,先說了目標、預算、時間,然后又連發一大段無關閑聊。 如果總字數超過它的上下文長度,最早的“目標/預算/時間”可能被擠出,它后面答復就會忽略這些關鍵信息。
你丟一本很長的文檔(比如幾十頁)讓它總結: 如果文檔整體超過上下文長度,它只能看“放得下”的那一段,沒看到的部分當然也就總結不到。
3. 和“記憶/知識”不是一回事
- 上下文長度:一次對話里能帶著看的臨時輸入上限。
- 模型知識:訓練時學到的長期知識(不會因為當前對話長短改變)。
4. 怎么避免“被擠掉”
- 分段提問:長材料切塊問,每塊都讓它先“摘要+要點”。
- 重復關鍵約束:在新問題開頭,再把核心要點復述一遍。
- 滾動摘要:讓它把前文壓縮成要點清單,再繼續討論。
- 用外部記憶(RAG/知識庫):把大材料放在外部,按需檢索片段再喂給它。
一句話總結:上下文長度 = 模型一次能“隨身攜帶”的內容上限;裝不下的早期內容會被頂掉,所以長對話里要學會提煉與分段。
- GPT-3.5 的上下文長度是 4,096 tokens
- GPT-4 是 8,192 到 32,768 tokens
- GPT-4o 是 128,000 tokens
首先需要理解什么是「量化」?
把模糊的、連續的、難度量的東西,變成可用數字表示的東西。 一句話:從“感覺”到“數字”。
1. 在 AI 里的“量化”(模型量化)
把模型里原本用 高精度小數(比如 32 位浮點數)的參數,壓縮成 更少的比特(如 8 位或 4 位整數)。 目的:更省內存、更快推理,代價可能是精度略降。
比特數與可表示級數
- 8 位(int8)→2?=256個等級
- 4 位(int4)→2?=16個等級
直觀例子
假設一個 70 億參數的模型:
- 16 位(2 字節)存:約 14GB
- 4 位(0.5 字節)存:約 3.5GB 體積直接縮小到四分之一左右,載入更快、顯存壓力小,但可能精度稍有損失。
小貼士:常見做法有訓練后量化(PTQ)和量化感知訓練(QAT);后者在訓練中考慮量化影響,精度通常更穩。
什么是“模型參數”?
把 AI 模型想成一臺有很多很多小旋鈕的機器。每個小旋鈕就是一個“參數”,都記著一個數字。 訓練=不停擰這些旋鈕,讓機器更會“做題”。訓練好之后,這些旋鈕固定住,用來回答問題/生成內容。
1. 單位是啥?
我們常用縮寫來表示有多少個:
- K=千(差不多一千個)
- M=百萬(一百萬個)
- B=十億(一十億個)
所以:
- 7B=70 億個小旋鈕
- 128B=1,280 億個小旋鈕
為啥大家老說“參數越多越強”?
旋鈕越多,機器能記住/表達的細節越多,通常更聰明; 但同時也會更占內存、更慢、更費電。就像功能越多的家電更笨重一樣。
2. 容易混淆的“B”
- 說模型規模時:B=十億個參數(比如“7B 模型”)
- 說文件大小時:B=字節(Byte)(比如“128B 文件”=128 字節)看上下文判斷就行。
一句話總結:
- 模型參數=模型里的小旋鈕數量
- 單位=個(用 K/M/B 表示數量級)
- 128B 模型=1,280 億個參數
- 參數越多通常越強,但更占內存、跑得更慢
1. LoRA 是什么?
LoRA = Low-Rank Adaptation(低秩適配)。 在 Stable Diffusion/SDXL 這類模型里,LoRA 就像給“會畫畫的機器人”裝可插拔的小外掛:不改機器人的核心(底模),只加幾塊很小的“插件參數”,就能學會一個新風格/角色/產品外觀。
它怎么做到的?
底模里有很多大矩陣(權重)。LoRA 把“要學的新東西”壓縮成兩個小矩陣 A、B(秩 r 很小),只訓練它們;用的時候把它們按一定強度“加回去”。 結果:顯存小、訓練快、文件小(通常幾 MB~幾十 MB),還不破壞原模型。
2. 它改哪里?
在圖像模型里(以 SD/SDXL 為例),LoRA 最常插在:
- U-Net 的 Attention 層:學到新風格、新紋理、新特征最有效
- TextEncoder(如 CLIP):讓提示詞更貼近某風格或專有名詞(VAE 很少插)
什么時候用 LoRA?
- 學風格(賽博朋克、油畫、水彩…)
- 學專屬角色/藝人/IP(同一臉型服飾)
- 學產品外觀(你的品牌手表/汽車/包)
一句話總結:LoRA = 給底模加“可拔插的小插件”。只訓練很少參數,就能把通用模型快速變成“懂你那一味兒”的專屬畫師。
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 752 位幸運星
發表評論 為下方 8 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓