智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬

智東西4月29日報道,剛剛,DeepSeek的多模態(tài)能力已經(jīng)開啟灰度測試?,F(xiàn)在,被選中的用戶會發(fā)現(xiàn),DeepSeek首頁多了一個“識圖模式”的入口。上傳圖片后,DeepSeek能像人一樣理解畫面,不管是物體還是場景,而不是像過去僅能識別文字。

DeepSeek終于能看圖了!我第一時間用它算命

多位DeepSeek研究員第一時間發(fā)文宣傳了這一新功能。DeepSeek研究員陳德里稱,這一功能來自DeepSeek的“天才多模態(tài)同事們”,小鯨魚現(xiàn)在有了看見世界的能力。

DeepSeek終于能看圖了!我第一時間用它算命

▲DeepSeek多位研究員宣布識圖模式的灰度上線(圖源:X平臺)

我們也有幸被灰度到了,并迅速進行了一波測試。

首先是基本的識物能力,我們上傳了一張兔子的照片,識圖模式下DeepSeek一眼就判斷出兔子的品種,并且可以描述這只兔子的姿態(tài)。

DeepSeek終于能看圖了!我第一時間用它算命

我們給DeepSeek上了點難度,上傳了一張來自它老家杭州知名景點靈隱寺的照片,圖中僅有右下角的路燈上有草書寫就的“靈隱寺”字樣,不過對人類來說這些字樣也有點難懂。我們要求DeepSeek判斷這是哪里,并報出圖城市的經(jīng)緯度。

DeepSeek終于能看圖了!我第一時間用它算命

根據(jù)建筑風格和路燈上的字樣,DeepSeek很快判斷出這里是靈隱寺,給出的坐標準確無誤。其生成速度也很快,未開啟思考模式時,一眨眼的功夫就好了。

DeepSeek終于能看圖了!我第一時間用它算命

我們又上傳了一張包含視覺陷阱的圖片,這張圖中幾個物品的擺放很容易讓人誤以為圖中有個人坐在椅子上。

DeepSeek終于能看圖了!我第一時間用它算命

這樣的題目同樣沒能難倒DeepSeek,它判斷圖中有墻面修補痕跡、垃圾收集區(qū)、雜物等等,沒有被視覺陷阱蒙騙。

DeepSeek終于能看圖了!我第一時間用它算命

DeepSeek的視覺模式支持深度思考,我們上傳了一張隨手拍的照片,圖中沒有任何文字參考,看看DeepSeek能否根據(jù)蛛絲馬跡判斷出位置。

DeepSeek終于能看圖了!我第一時間用它算命

開啟推理后,DeepSeek的視覺能力明顯增強了。它可以分步驟拆解畫面信息,能看到前景、中景、背景的所有信息,然后將地標特征與地理區(qū)域匹配,直接判斷出山脈是燕山山脈、建筑風格在北京昌平等郊區(qū)很常見。

DeepSeek終于能看圖了!我第一時間用它算命

最后它直接把范圍收窄到北京昌平區(qū)或者海淀山后地區(qū),其中某些猜測選項離我的實際距離已經(jīng)不到10公里。未來如果接入聯(lián)網(wǎng)搜索,DeepSeek很可能就順著網(wǎng)線把我家地址給開盒了。

DeepSeek終于能看圖了!我第一時間用它算命

我們還嘗試了熱門的看手相玩法,上傳后,DeepSeek第一眼先把左右手看錯了,我們上傳的圖片是左手,它判斷成了右手。

DeepSeek終于能看圖了!我第一時間用它算命

進入實際分析后,DeepSeek對手相形態(tài)的描述基本符合事實,分析得也是頭頭是道,不過具體該相信多少,這就見仁見智了。

DeepSeek終于能看圖了!我第一時間用它算命

結語:DeepSeek多模態(tài)拼圖,終于補齊

在過去很長一段時間里,DeepSeek多模態(tài)能力的缺失一直是一個遺憾。DeepSeek一直維持著多模態(tài)的相關研究,并曾在早期發(fā)布開源多模態(tài)模型Janus等成果。不過,DeepSeek一直未在其產(chǎn)品中向公眾提供多模態(tài)能力。

AI走向多模態(tài)已經(jīng)成為不可逆轉的大趨勢。多模態(tài)內容所蘊藏的豐富信息可以擴展AI認知這一世界的觸角,也更貼近人類本身理解世界的方式。目前,DeepSeek的識圖模式還只是一個測試功能,不過它已經(jīng)讓我們看到了其在視覺解析與跨模態(tài)推理上的潛力。