3月1日晚间消息,DeepSeek开源周第六日,DeepSeek官方团队在Github和知乎上公布了DeepSeek-V3/R1推理系统的技术解读。据官方介绍,通过优化吞吐和延迟,DeepSeek“理论上一天的总收入为562027美元,成本利润率545%”。
在该技术解读发布后,硅基流动创始人、CEO袁进辉第一时间现身评论区点评道:“DeepSeek 官方披露大规模部署成本和收益,又一次颠覆了很多人认知。”他指出,“现在很多供应商还做不到这个水平,主要是V3/R1架构和其它主流模型差别太大了,由大量小Expert组成,导致瞄准其它主流模型结构开发的系统都不再有效,必须按照DeepSeek报告描述的方法才能达到最好的效率,而开发这样的系统难度很高,需要时间,幸好这周DeepSeek五连发已经把主要模块开源出来了,降低了社区复现的难度。”

袁进辉表示,“这些成果充分体现了DeepSeek团队第一性原理的思考方式和强悍的意志,他们应该是首先是基于某些原因想到了用这样的模型结构,然后发现这样的结构无论是训练还是推理,要做好都有非常大的工程挑战,不过这些问题在他们工程团队来说并不是搞不定的,关键是花那么大力气做完是否有大的收益呢,在最终结果出来前,谁也说不准,他们还是赌了,结果是赌对了。”
当然,对于上述推测,袁进辉也进一步表示,“这也可能是反过来的,基于系统的出发点设计了这样一个全新的模型结构。”
今年春节期间,在DeepSeek-R1、DeepSeek-V3 开源并引发广泛关注后,硅基流动作为初创企业,领先业内绝大多数企业率先宣布大模型云服务平台 SiliconCloud 上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1,允许用户通过SiliconCloud使用稳定的DeepSeek访问服务。
据袁进辉个人透露,公司是赌DeepSeek最早的团队了,DeepSeek V2时,很长一段时间公司是官方之外唯一第三方供应商。“我们当时眼光为什么那么好呢?其实主要是赌开源,也只能用开源模型,但当时开源模型普遍还不太行,DeepSeek恰好开源了,编程能力非常突出,很多人想用,就只好硬着头皮把DeepSeek支持了。”袁进辉表示。(文猛)
港股地产板块午后大幅拉升。 10月16日,A股全天成交额合计1.39万亿元,创10月以来新低。相比上个交易...
11月2...
由中达安(300635)负责项目监理的蒙西基地库布其200万千瓦光伏治沙项目于2023年实现全容量并网。 项目于2021年10月16日开工,占地10万亩,...
在冬季,减肥似乎成了一项“高难度任务”。寒冷的天气让人食欲倍增,想要躲在暖和的房间里不愿动弹。正是因为冬季新陈代谢加快,身体为了维持温度会消耗更多能量,因此抓住冬季瘦身的黄金期,效果会事半功倍。以下是...