来源:柠檬直播
2025-01-28 16:47:26
“预训练”是AI大模型学习中的一种方法,指的是通过海量的数据,训练一个大模型。训练时需要大量的数据和算力支持,每次迭代可能耗资数百万至数亿美元。
官方技术论文披露,DeepSeek-V3在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。这个费用是什么概念?
据报道,GPT-4o的模型训练成本约为1亿美元。简单粗暴地说,这相当于DeepSeek-V3比同等性能的AI大模型,降了十几倍的成本。
早在2024年5月,深度求索发布DeepSeek-V2时,就曾因给模型的定价太过于便宜,开启了中国大模型的价格战,被称之为“AI界的拼多多”。
“相比于说它是‘拼多多’,它更像小米,贴近成本定价,并且自产自销。”马千里认为,训练成本比较低的原因,离不开深度求索团队自研的架构和算力,他们自身的算力储备可以与大厂比肩,并且更注重底层的模型。
“ChatGPT走的是大参数、大算力、大投入的路子,DeepSeek-V3的路径用了更多的巧思,依托数据与算法层面的优化创新,从而高效利用算力,实现较好的模型效果。”马千里说道。
相关新闻
《哪吒2》海外票房将突破1亿美元,20年来中国电影"出海"最好成绩
来源 : 柠檬直播2025-06-18 08:47:48
历史上最混乱开发过程!爆料称GTA6因剧情推翻3次而拉长开发周期
来源 : 柠檬直播2025-06-18 08:47:48
美测服18日改动:龙龟W、豹女Q、千珏R等加强,卡牌R削弱
来源 : 柠檬直播2025-06-18 08:47:47
Doinb:完了下版本卡牌瑞兹全削,我左右手全断了
来源 : 柠檬直播2025-06-18 08:47:46
生化危机9:安魂曲女主官方介绍:因母亲离世变得沉默寡言的FBI分析员
来源 : 柠檬直播2025-06-18 08:47:44
首轮就看中韩?!BLG晋级正赛对阵情况一览:一半概率交手GEN 而AL要直面T1
来源 : 柠檬直播2025-06-18 08:47:44
开始熬鹰!MSI赛制公布 胜决前6场比赛半夜3点 其余比赛早上8点
来源 : 柠檬直播2025-06-18 08:47:33
哥哥记得来看!入围赛赛制公布 28日早8点BLG交手GAM 取胜则都8点出场
来源 : 柠檬直播2025-06-18 08:47:33
TES超话热议试训辅助:light都看不上的辅助 你还要捡?
来源 : 柠檬直播2025-06-18 08:47:33
仍立志于进世界赛!Doinb:我会从涅槃打到骑士之路 再进冒泡赛跟S赛
来源 : 柠檬直播2025-06-18 08:47:33