在GAIA基准测试中超越OpenAI同层次模型

花花2025-03-09热点分享66

在GAIA基准测试中超越OpenAI同层次模型


  作 者丨孔海丽

  DeepSeek又传来大消息!

  微软测试DeepSeek等模型,直面 OpenAI!

  据券商中国援引The Information最新报道,微软正在开发内部人工智能推理模型,以与OpenAI竞争,并可能将其出售给开发者。微软测试由马斯克旗下xAI等向其Copilot提供支持。微软正在尝试Anthropic、DeepSeek、Meta等的模型。

  全球知名创投机构Andreessen Horowitz(a16z)近日发布2025年全球100大生成式AI应用排行榜,DeepSeek在网页版应用中排名第二,其惊人的成长速度引起全球关注。

  会自主干活?Manus爆火!能否“接力DeepSeek”?

  近期热度持续飙升的Manus也传来最新消息。3月8日,ManusAI官方X账号已经复原。3月7日,ManusAI 在海外社交平台“X”上的官方账号,意外遭遇冻结。

  “我们回归了,提醒下,这是我们唯一官方账号,接下来我们会继续分享炫酷的用例,敬请期待。”ManusAI(ManusAI_HQ)官方账号指出。 

  Manus首席科学家和联合创始人季逸超也第一时间公布了这一消息,并重申:“Manus从未参与任何加密货币项目、代币发行、区块链首发等。任何有相近名称的虚拟货币,其声称与我们有关的提法都是虚假的。” 

  Manus以“全球首款通用型AI Agent”之名刷屏。这款宣称能将思维转化为行动、直接交付成果的AI代理,在GAIA基准测试中超越OpenAI同类产品,创下SOTA(当前最优)纪录。

  Manus的创新在于其“手脑并用”的能力。与ChatGPT等大模型仅提供文本生成不同,Manus被定义为“自主智能体”(Agent),能够独立规划并执行复杂任务,直接交付结果。

  例如,用户上传15份简历压缩包后,它能自动解压、分析、生成推荐报告,支持异步处理任务,全程无需人工干预。这种“类人类工作流”的能力,在招聘、旅行规划、财务分析等场景中展现了很强的实用性,确实是优秀“助理”的角色呈现。

  据21世纪经济报道记者观察,Manus有三个特点:一是多模型协同架构,整合多种大模型能力,支持跨领域任务;二是自主决策逻辑,通过规划、验证、执行闭环,降低任务出错率;三是工程化优化,在GAIA基准测试中超越OpenAI同层次模型,凸显中国团队在系统集成与场景适配上的优势。

  这些特点使得Manus不再是简单的“玩具”,而是类似于得力的生产力助手,实用价值肉眼可见,这也是市场为之兴奋的核心逻辑。

  从技术本质看,Manus并非底层大模型的颠覆者,而是在成熟模型(主要是Claude)基础上进行系统性工程优化的另一次集成。它所走的其实还是DeepSeek那条路,门槛不算高,胜在产品理念和工程优化。

  内测邀请码一度被炒至5万元天价

  Manus所展现的“类人”思考和执行能力,精准击中了公众对AI替代复杂劳动的期待。其内测邀请码一度最高被炒至5万元天价,A股相关概念股集体涨停。

  Manus恰逢其时地出现,其“主动干活”的定位填上了资本市场急需故事的AI焦虑,演变为一场技术与流量的共谋。“DeepSeek概念股”之后,可能又诞生了一种“Manus概念股”。

  “AI应用元年”来了

  从DeepSeek、阿里腾讯到Manus,“AI应用元年”正在一步一步深化。

  从DeepSeek到Manus,前者通过极致的成本优化重塑行业逻辑,阿里、腾讯紧随其后发布对标GPT-4的旗舰模型,而Manus则在应用层证明工程创新的爆发力。这种从底层设施到上层应用的“接力跑”,标志着中国AI产业正从技术追随转向生态协同。

  这种接力模式揭示了中国AI发展的独特路径:以工程优化驱动技术实用化。相较于追求参数规模,更注重场景适配与应用效率。与移动互联网的落地一样,中国具有AI应用最广阔多元的场景,而且用户敢于尝鲜。

  DeepSeek打破了华尔街和硅谷的AI叙事霸权,Manus的出现,既是工程优化的进阶,也是社会情绪的投射。

  AI时代,人人都有一个合格的AI Agent。Manus作为一个中间产品,不可能是终极,今年还会有其他新的形态接力,直到那个或几个公认的超级应用的出现。

  你在用哪个AI大模型?欢迎评论说说!

相关文章

久旱逢甘霖!CXO大举反攻,医疗器械同步活跃,医疗ETF(512170)单周累涨3.23%,大幅跑赢市场!

久旱逢甘霖!CXO大举反攻,医疗器械同步活跃,医疗ETF(512170)单周累涨3.23%,大幅跑赢市场!

  周五(12月6日),医疗久违爆发!267亿体量顶流医疗ETF(512170)早盘持续拉升,午后维持高位,盘中一度冲击4%,场内收涨3.23%,跑赢逾7成成份股!场内人气爆...

何小鹏:中国出海分5个阶段,从性价比产品转向高科技产品

何小鹏:中国出海分5个阶段,从性价比产品转向高科技产品

 7月13日上午消息,小鹏汽车董事长兼CEO何小鹏近日参加央视《开箱改革开放关键词》栏目,分享对出海观点。   他表示,改革开放以来,中国...

中铁“曲线”加码上海高端楼市:14亿中标杨浦历史风貌保护地

中铁“曲线”加码上海高端楼市:14亿中标杨浦历史风貌保护地

  2024年的上海高端市场走出了独立行情,令一众开发商逆势改运。   最典型的就是中海、融创。央...

越来越多的国家加入到构建命运共同体的行列

越来越多的国家加入到构建命运共同体的行列

专题:中国经济前景广阔、大有可为——2025全国两会财经特别报道...

萨默斯夸美联储走出离谱的通胀之过 但称其对中性利率的判断严重有误

萨默斯夸美联储走出离谱的通胀之过 但称其对中性利率的判断严重有误

专题:聚焦杰克逊霍尔全球央行年会 美联储主席鲍威尔暗示即将降息...

“山西新闻联播”2025年1月1日,张碧涌已任山西省委常委、宣传部部长

“山西新闻联播”2025年1月1日,张碧涌已任山西省委常委、宣传部部长

  山西省委领导班子近日新增一名成员。   据微信公众号“山西发布”2025年1月1日消息,近日,山西省委常委所在部门分别召开会...