DeepSeek超越OpenAI的秘密武器:創新
專題:DeepSeek為何能震動全球AI圈
當前,全球AI社區正在瘋狂熱議一種新的開源推理模型DeepSeek R1。
該模型由中國AI初創公司DeepSeek開發,該公司聲稱R1在多個關鍵基準上與OpenAI的ChatGPT o1相媲美,甚至還有所超越,但成本只是后者的一小部分(有報道稱約為3%至5%)。
美國埃默里大學(Emory University)信息系統助理教授Hancheng Cao表示:“這可能是一個真正的均衡突破,對資源有限的研究人員和開發人員來說是件好事,尤其是來自南半球的研究人員。”
考慮到硬件等資源方面的限制,DeepSeek的成功更加引人注目。DeepSeek等初創公司正以優先考慮效率、資源共享和協作的方式進行創新。
DeepSeek前員工、現任美國西北大學(Northwestern University)計算機科學博士生Zihan Wang表示,為了創建R1,DeepSeek不得不重新設計其訓練過程,以減輕其GPU的壓力。
DeepSeek R1因其處理復雜推理任務的能力而受到研究人員的稱贊,特別是在數學和編碼方面。該模型采用了一種類似于ChatGPT o1的“思維鏈”方法,通過逐步處理查詢來解決問題。
微軟AI前沿研究實驗室的首席研究員Dimitris Papailiopoulos表示,R1最讓他驚訝的是它的工程簡單性。他說:“DeepSeek旨在獲得準確的答案,而不是詳細說明每個邏輯步驟,從而在保持高水平效率的同時顯著減少計算時間。”
DeepSeek還發布了六個較小版本的R1,這些版本足夠小,可以在筆記本電腦上本地運行。該公司稱,其中一個甚至在某些基準測試中表現優于OpenAI的o1-mini。
盡管R1備受關注,但DeepSeek仍然相對不為人知。該公司總部位于中國杭州,由浙江大學信息與電子工程專業校友梁文峰于2023年7月創立。該公司由梁文峰在2015年創立的對沖基金幻方(High-Flyer Quant)孵化。與OpenAI的薩姆·奧特曼(Sam Altman)一樣,梁文峰的目標是建立通用人工智能(AGI),即一種可以在一系列任務上與人類匹敵甚至擊敗人類的AI。
訓練大型語言模型(LLM)需要一個訓練有素的研究人員團隊和強大的計算能力。資深企業家、谷歌中國前負責人李開復近日在接受媒體采訪時表示,只有“一線玩家”通常會參與構建ChatGPT等基礎模型,因為它需要大量資源。
據報道,為了訓練其模型,DeepSeek購買了10000多塊英偉達GPU,隨后又擴大到50000塊。與OpenAI、谷歌和Anthropic等領先的AI實驗室相比,這明顯相形見絀,因為這些實驗室每個都有超過50萬塊GPU。
盡管如此,DeepSeek前員工Zihan Wang表示,他在DeepSeek工作時可以獲得豐富的計算資源,并可以自由地進行實驗,這對應屆畢業生來說是一種少有的奢侈。
梁文峰稱,除了硬件方面的限制,公司面臨的另一個挑戰是,他們的AI工程技術往往效率較低。他說:“我們(大多數中國公司)必須消耗兩倍的計算能力才能達到同樣的結果。再加上數據效率差距,這可能意味著需要高達四倍的計算力。我們的目標是不斷縮小這些差距。”
但DeepSeek找到了在不顯著犧牲準確性的情況下,減少內存使用和加速計算的方法。Zihan Wang說:“團隊喜歡把硬件挑戰變成創新的機會。”
梁文峰本人仍然深度參與DeepSeek的研究過程,與他的團隊一起進行實驗。王說:“整個團隊都有一種協作文化,并致力于核心研究。”
除了優先考慮效率,DeepSeek還越來越多地接受開源原則。阿里云已經發布了100多個新的開源AI模型,支持29種語言,迎合了包括編碼和數學在內的各種應用。同樣,像Minimax和01.AI(零一萬物)這樣的初創公司也將他們的模型開源。
根據中國信息通信研究院(CAICT)去年發布的一份白皮書,全球AI大型語言模型的數量已達到1328個,其中36%來自中國。這使中國成為AI的第二大貢獻者。
塔夫茨大學(Tufts University)技術政策助理教授Thomas Qitong Cao表示:“這一代年輕的中國研究人員強烈認同開源文化,因為他們從中受益匪淺。”
卡內基國際和平基金會(Carnegie Endowment for International Peace)的AI研究員馬特·希恩(Matt Sheehan)稱:“中國公司必須利用有限的計算資源提高效率。將來,我們可能會看到很多與缺乏計算相關的整合。”
事實上,這種情況可能已經開始發生了。兩周前,阿里云宣布與李開復創立的北京初創公司“零一萬物”合作,合并研究團隊,建立“工業大型模型實驗室”。
Thomas Qitong Cao說:“AI行業出現某種分工是節能和自然的。AI的快速發展要求中國企業保持敏捷才能生存。”
標簽: DeepSeek
相關文章
-
DeepSeek R1模型完成小版本試升級詳細閱讀
鳳凰網科技訊 5月28日,DeepSeek在官方交流群中發布通知:DeepSeek R1模型已完成小版本試升級,歡迎前往官方網頁、App、小程序測試(...
2025-05-28 28 DeepSeek
-
DeepSeek R2,即將到來!詳細閱讀
今日市場情緒不佳,業績暴雷致多股受挫,如東阿阿膠跌停、芒果超媒暴跌超 10%,高標股也遭兌現。消費地產等政策不及預期方向被資金拋售,短線交易價值低。明...
2025-04-29 11 DeepSeek
-
如何使用DeepSeek提高投研效率詳細閱讀
好的,用戶問的是如何使用DeepSeek提高投研效率。首先,我需要明確DeepSeek的功能和優勢。根據之前的信息,DeepSeek在數據處理、信息檢...
2025-03-01 25 DeepSeek
-
7連板夢網科技:公司與DeepSeek系統的開發、應用等核心技術無關詳細閱讀
每經AI快訊,2月13日,夢網科技發布股票交易異常波動公告稱,公司旗下的天慧智匯臺2.0集成了DeepSeek的能力,截至目前,該平臺主要應用服務于...
2025-02-13 32 DeepSeek
-
三六零:公司暫未向DeepSeek提供任何服務詳細閱讀
證券時報e公司訊,三六零(601360 2月5日晚間發布股票交易異動公告稱,在DeepSeek基于MIT開源協議的生態環境下,公司旗下的部分產品進行...
2025-02-06 28 DeepSeek
發表評論