<汇港通讯> 中国人工智能(AI)大模型公司DeepSeek,以仅约560万美元及使用2048颗Nvidia「H800」绘图处理器(GPU),推出的新模型DeepSeek-R1,成本远低美国科技巨擘,震惊全球市场。半导体研究机构SemiAnalysis近日发表报告估计,DeepSeek历来硬体投资支出远高於5亿美元。
SemiAnalysis报告估计,DeepSeek使用5万颗Nvidia的Hopper架构GPU,包括1万颗H800及1万颗「H100」,还有特供中国的「H20」,这些GPU主要用於AI训练、研究及财务模型。
换算下来,DeepSeek总资本支出约为16亿美元,其中营运成本估计有9.44亿美元,对GPU的投资额超过5亿美元。
综合外媒报道,DeepSeek指只用6710亿个参数数进行训练的「V3」模型;2048颗Nvidia「H800」GPU、仅费时2个月,相当於280万个GPU小时。
至於Facebook母公司Meta Platforms使用4050亿个参数训练的「Llama 3」模型,用3080万个GPU小时,花费运算资源较V3多10倍,并采用的超级电脑内建16384颗「H100」GPU、费时54天。
至於DeepSeek日前文件透露,其模型DeepSeek V3的训练成本仅为557.6万美元,并注明成本包括V3的官方训练,不包括与架构、演算法或资料相关的先前研究和消融实验(ablation experiments)的成本。 (JJ)
#AI
新闻来源 (不包括新闻图片): 汇港资讯