誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

Hi,我想先請你只看下面這張照片,推測它的拍攝城市:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

這是一類叫做「網絡迷蹤」的推理游戲:只看照片,判斷拍攝地點的位置,距離越近,得分越高。

游戲過程是這樣的 :

當視頻在手機上無法加載,可前往PC查看。

太適合測試 AI 的視覺推理能力了。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

完美模擬了人類玩家的視覺推理過程:

  1. 精準識別視覺元素:解讀路牌文字、辨認植被類型、分析建筑風格特征;
  2. 調用知識儲備:判斷特定電線桿造型屬于哪個國家或地區;
  3. 以及多層次線索整合推理。

要想在這個游戲中取得好成績,AI 們必須同時發揮其視覺識別、模型知識、邏輯推理的最大潛能。

當 AI 答題結果被標注在地圖上后,它們之間的智力差距也就一目了然。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

比單一維度的 Benchmark 跑分,能更有趣、直觀地看到模型的差距。

所以我拉上了國內外 5 個頂流多模態推理模型,一起來做了這項比賽。

你猜,誰是視覺推理 AI 之王?

更多AI模型測評:

簡單介紹「AI 網絡迷蹤」賽制

本次比賽的參賽選手如下:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

注:DeepSeek-R1 其實不支持多模態(視覺識別),故不參加比賽。

比賽規則很簡單:

① 共 5 道題目,每題提供同一位置兩張不同拍攝方向的照片(題源:圖尋-每日挑戰-全球 04/20)

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

② 通過統一的比賽 Prompt,要求 AI 給出它認為最可能的經緯度坐標

你正在參與地圖迷蹤比賽,不準聯網。 右下角小地圖不包含任何有效信息。 分析提供的圖片,推斷其拍攝的地理位置的行政區劃層級(格式:大洲,國家,行政區,城市,鄉鎮)和經緯度(格式,如 41.40338, 2.17403),盡可能準確。 使用中文回答。

③ 每一題均在地圖上標注出所有 AI 的猜測點和實際位置,距離越近,排名越高

第一輪:某熱帶地區

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

非常典型的熱帶地區植被,棕櫚樹、闊葉樹隨處可見,現代化風格的住宅樓,路面狀況良好,略微傾斜,似乎是丘陵地帶。

第一輪測試中,各模型回答如下:

ChatGPT-o3:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

Gemini-2.5-pro:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

Claude-3.7-sonnet-thinking:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

Doubao-1.5-thinking-pro:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

QVQ-Max:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

把第一輪的答題結果對應到地圖坐標位置,與實際答案距離位置如圖:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

實際位置約在:1.266428, 103.823641,可在 Google 地圖查看街景

不過第一輪照片,其實還是缺乏了決定性信息。如果要完全精準,就需要對照新加坡的衛星/街景影像,進行一一排查。

本輪排名? :

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

第二輪:有俄文名稱的工廠

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

第二輪的各 AI 的猜測結果,對應地圖位置如下:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

其中 ChatGPT 和 Gemini 表現出了意外的準確性,誤差均在 1 公里左右。

雖然不小心定位到海里去了,但無傷大雅。(主要是因為本輪比賽中,AI 不能通過地圖服務確認經緯度的真實位置情況)

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

實際位置約在:44.727172, 37.823414,可在 Google 地圖查看街景

特別的,ChatGPT-o3 在本次推理過程中,對圖像進行了多次“縮放再識別”,類似人類識別圖像細節的過程,“當整張圖像看不出足夠的信息時,通過放大圖像,來加強對某個特征區域的細節識別”。

想來這種視覺推理方式,很快會成為各家的共識。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

本輪排名 :

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

第三輪:某海邊公路

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

沿海的公路,遠處西方有雪山,太陽非常好,繞山公路的方向也很明顯。

第三輪的各 AI 的猜測結果,對應地圖位置如下:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

實際位置約在:38.658016, 23.967011,可在 Google 地圖查看街景

本輪排名 :

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

第四輪:零售園區

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

這輪其實給出的信息已經很多,各式各樣的建筑招牌名稱、各型號的汽車、以及平坦的地貌。

第四輪結果,對應地圖位置如下:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

實際位置約在:44.867243, 13.868149,可在 Google 地圖查看街景

ChatGPT 和 Gemini 表現的都很“本地人”,不過 Gemini 這次更勝一籌。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

值得一提的是,本次實測中,只有 QVQ-Max 和 ChatGPT-o3 識別出了圖二遠處很小的“Decathlon”迪卡儂 Logo。

(這樣來看,QVQ 沒做縮放再識別,識別精度也不錯)

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

如果 AI 能調用 Google 地圖,進行建筑名稱的布局、距離的真實比對,應該更容易找到完全精確的位置。

本輪排名 :

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

第五輪:干燥丘陵

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

最后一輪的信息就相當有限了,干燥的丘陵地形,主要為低矮灌木,符合地中海氣候區或者溫帶大陸性半干旱氣候區的特征。

維護得相對良好的土路,道路大致朝西南方向。估計是在鄉村或偏遠地區,交通不便。推理難度確實比之前的更高。

各家 AI 推測的地圖位置如下:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

實際位置約在:40.372043, 31.760780,可在 Google 地圖查看街景

本輪排名 :

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

比賽結果:o3 第一

統計 5 輪比賽結果,平均名次就是最終成績:

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

  1. ChatGPT-o3 毫無疑問是本次視覺推理的王者, 在 4/5 的輪次中得到第一名。也是唯一一個支持“縮放再識別推理”的模型,在精細識別視覺線索時表現突出
  2. Gemini 和 ChatGPT 的推測位置差距不大,實際上表現接近
  3. 阿里云的 QVQ 整體表現也挺穩定;還識別出了只有 ChatGPT 通過放大才識別出來的 logo。另外,作為本次參賽模型中唯一有開源習慣的 Qwen 系列模型,還可以期待后續 Max 版本的開源
  4. Btw:其實沒想到 Claude 3.7 sonnet thinking 在「AI 網絡迷蹤」中表現會這么不如意

小結

這次比賽,并沒有讓 AI 聯網使用地圖服務或圖像搜索,純粹考察模型基于自身的視覺識別、知識儲備、多模態推理這三大核心能力。

(模擬了真實人類玩「圖尋」的情況,沒時間用地圖查詢作弊)

但在 AI 的幫助下,我依然超過了今天 94.88% 的玩家,刷新了我自己的得分紀錄。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

而這當然不是當前 A能I 的力邊界。

當我們把衛星地圖、街景影像服務,甚至小紅書等社交平臺的權限,通過類 MCP 協議提供給 AI 后,

任何人都能用 AI 快速推測一張照片的大致范圍,再利用衛星影像、社交平臺照片內容精細比對,最終推測出精度極其恐怖的位置信息。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

那樣,精準定位一個人的位置不再是難題。

而一個能看懂世界、調用互聯網海量工具、多步推理的 AI,將在地圖導航、生活服務、乃至安防監控等方方面面帶來多大的變化?

Now, Big Brother is watching you.

如果覺得這篇文章對你有啟發或幫助,歡迎點贊、轉發分享,讓更多熱愛 AI 的朋友能夠受益。

也期待在評論區看到你的實踐和思考。

本文采用 CC-BY-4.0 協議開源,你也可以隨意進行二創。如果你能在自己的文章提及來源,那就太好了。

誰是視覺推理AI之王?一場游戲橫評5大頂流模型!

收藏 5
點贊 58

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。