找回密碼
 註冊
查看: 16|回覆: 4

陸DeepSeek掀熱議卻面「偷用模型」指控 專家指可帶來2啟示

[複製鏈接]
簽到
202

1856

主題

8335

回帖

3萬

積分

超級元老

積分
30460

百萬富翁勳章論譠元老勳章高級元老勳章超級元老勳章

發表於 2025-2-8 11:28:09 | 顯示全部樓層 |閱讀模式
由中國新創DeepSeek推出與公司同名的對話式AI服務(conversational AI),以及服務背後同樣以DeepSeek命名的語言模型,同時在技術、經濟和政治上,掀起關注人工智慧發展者的熱烈討論。DeepSeek在突破GPU限制的同時,也被指控可能「偷用」OpenAI模型,為何大師仍稱讚DeepSeek?

去年(2024)聖誕節期間,DeepSeek在介紹新模型DeepSeek-V3,也一併揭露其訓練成本,雖然在關注科技進展的社群上激起一陣水花,但並沒有像過去一週那樣突破圈層。

1856

主題

8335

回帖

3萬

積分

超級元老

積分
30460

百萬富翁勳章論譠元老勳章高級元老勳章超級元老勳章

 樓主| 發表於 2025-2-8 11:28:37 | 顯示全部樓層
DeepSeek之所以能夠左打NVIDIA股價、右踢OpenAI,關鍵在於他們在過年期間,推出具有推理能力(reasoning)的R1模型。推理是AI從助理(assistant)走向代理(Agent),再邁向通用(artificial general intelligence)的必備能力,也是Google、Anthropic和OpenAI開發模型時的最大戰場。

不過,從地緣政治對抗的角度來說,美國分明限制高階晶片出口,為何DeepSeek和阿里巴巴、騰訊等中國企業還是有辦法推進基礎模型的研發?再從政治切換到經濟,DeepSeek被控利用OpenAI的模型產出,蒸餾出便宜但表現優異的模型,卻仍被專家們認為有利於AI民主化?
回覆 讚好 不讚 使用道具

舉報

1856

主題

8335

回帖

3萬

積分

超級元老

積分
30460

百萬富翁勳章論譠元老勳章高級元老勳章超級元老勳章

 樓主| 發表於 2025-2-8 11:29:00 | 顯示全部樓層
不畏禁令,中國企業仍有管道取得GPU

「中國不好買GPU,這個沒有想像的嚴重。⋯⋯我不知道任何一個中國做大模型的公司,是因為買不到GPU,才做不出好的結果,如果說做不出好的結果,主要的理由還是行不通。」去年年中接受《遠見》採訪,比較中美大模型進展時,零一萬物創辦人李開復如此分析。

自2022年起,時任美國總統拜登便以《晶片與科學法案》和其他政策工具,既要讓美國半導體供應鏈回流,同時也希望打擊中國研發人工智慧的能力,管制出口到中國的CPU、GPU、記憶體,甚至直接禁止先進半導體設備和人才在中國落地。

拜登在卸任前,更宣布將在一年後(2026)全面管制美國的先進晶片出口,除了禁止出口至中國與俄羅斯等國家以外,同時也對中東、東南亞以及新加坡等國施以出口總額限制。
回覆 讚好 不讚 使用道具

舉報

1856

主題

8335

回帖

3萬

積分

超級元老

積分
30460

百萬富翁勳章論譠元老勳章高級元老勳章超級元老勳章

 樓主| 發表於 2025-2-8 11:29:37 | 顯示全部樓層
為何要管制競爭對手以外的國家?為的就是避免中國暗渡陳倉,取得算力。不管是在新加坡、日本甚至台灣成立公司採購,還是以走私方式進口,又或者是在禁令實施前大量儲備,甚至調用海外雲端服務,從中國科技巨頭與新創的公開發言中,便能看出他們手上都有一定數量的先進晶片,只是效能上有所減損。

當然,這對中國企業研發基礎模型來說,仍然是種限制。因此,據傳只利用「降級版」的H800訓練,卻能與OpenAI產出的模型競爭,這是DeepSeek受到矚目的重要原因之一。

「最新的發明還是美國厲害,但中國能夠找到方法節省成本,用更少的錢,或者是更優質的工程技術,訓練出同樣好的模型。」李開復解釋,美國創投市場願意給AI模型企業更高估值,企業也因此有辦法購買更多GPU,中國AI模型創業家們資金相對沒那麼充裕,因此要在模型架構、硬體配適等層次下苦工。

DeepSeek在介紹DeepSeek-V3的論文便提到,透過改善演算法、架構與硬體協同設計,模型的總訓練成本能夠壓低至約560萬美元。雖然DeepSeek並未刻意標舉其訓練模型成本的低廉,但仍引發大量質疑。
回覆 讚好 不讚 使用道具

舉報

1856

主題

8335

回帖

3萬

積分

超級元老

積分
30460

百萬富翁勳章論譠元老勳章高級元老勳章超級元老勳章

 樓主| 發表於 2025-2-8 11:30:30 | 顯示全部樓層
成本有無造假?論文便提到560萬美元不是全部

事實上,DeepSeek在論文中就曾解釋,560萬美元只是訓練正式階段所要花費的GPU使用成本,並沒有計入團隊研發上的費用。

社群媒體上時常能看到援引Scale AI創辦人亞歷山大(Alexandr Wang)所言,DeepSeek擁有5萬個高階晶片,用作指控DeepSeek謊報訓練成本的論據。

先不論比較模型訓練成本時,計算的是運行GPU的時間長乘上租用價格,即便DeepSeek擁有大量先進晶片,如同科技分析師湯普森(Ben Thompson)所說,DeepSeek為克服H800的性能問題,在模型架構和基礎設施上做了許多努力,單就560萬美元的數字來說,「這只是最終運行的成本,並非總成本(total cost),但是一個合理的數字。」
回覆 讚好 不讚 使用道具

舉報

您需要登錄後才可以回帖 登錄 | 註冊

本版積分規則

Archiver|聯絡我們|141華人社區

GMT+8, 2025-4-5 13:58

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回覆 返回頂部 返回列表