|
樓主 |
發表於 2025-1-27 06:31:44
|
顯示全部樓層
據報導,DeepSeek僅用2,048片H800顯示卡(GPU)、耗時兩個月,就訓練出了一個6,710億參數的DeepSeek-V3。相較於Meta訓練參數量4,050億的Llama 3,用了16,384片更強的H100顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。
陸媒《每日經濟新聞》昨(26)日報導稱,在美國總統川普宣布5,000億美元的「星際之門」(Stargate)發展人工智慧基礎建設計畫之際,DeepSeek以極低的價格建立了突破性的AI模型,且未使用尖端晶片,讓人們質疑,AI行業數千億美元資本的巨額投入,是否真為最有效的方法? |
|