马斯克最聪明AI翻车:能算火星任务,却分不清9.11和9.9谁更大?
2025-02-21 15:22:53

一、发布会高光:Grok3的“宇宙级”野心


2025年2月18日,马斯克携xAI团队高调发布Grok3,宣称这是“地球上最聪明的AI”,并计划将其用于SpaceX火星探测任务的复杂计算,甚至预言“三年内实现诺贝尔奖级别突破”。从技术参数看,Grok3的算力配置堪称“暴力美学”:基于10万块英伟达H100GPU搭建的Colossus超算,消耗2亿GPU小时训练,算力是前代Grok2的10倍以上。在数学、科学和编程领域的基准测试中,Grok3全面超越GPT4o、Gemini等主流模型,甚至以1400分刷新了盲测榜单LYSYSArena的历史纪录。


然而,这场技术盛宴的余温未散,一场“小学数学级”的测试却让Grok3跌下神坛。


二、翻车现场:一道题撕开AI的“常识黑洞”


当用户向Grok3提问“9.11与9.9哪个更大”时,这款号称“最聪明”的AI给出了错误答案。相比之下,竞争对手DeepSeek无论是否开启深度思考模式,均能正确回答“9.9更大”;而ChatGPT4o、GeminiAdvanced等模型也曾在此问题上集体翻车,但Grok3的失误因其高调宣传更显讽刺。




为何AI“奥数冠军”败给常识?


1.数值比较的“思维陷阱”:对人类而言,“9.11”是两位小数(9.11),而“9.9”可视为一位小数(9.90),因此9.90>9.11。但AI可能将输入简化为“9.11vs9.9”的字符串对比,误判为“9.11>9.9”。


2.训练数据的“偏见”:Grok3虽擅长处理复杂数学问题,但训练数据中可能缺乏对“常识性数值比较”的针对性优化,导致模型过度依赖符号逻辑而非实际语义。


3.模式依赖的局限性:据实测,Grok3在普通模式下答错,但开启“Think模式”(深度推理)后却能正确解题。这表明其基础模型仍需依赖特定功能模块弥补短板。


三、技术争议:算力堆砌VS算法优化


Grok3的失败引发了行业对AI发展路径的反思。xAI选择“大力出奇迹”,通过扩大基座模型规模(推测达2000亿参数以上)和堆砌算力提升性能,但此举被质疑性价比极低。相比之下,DeepSeek等团队更注重算法优化,例如用2048块GPU训练2788千小时,通过“蒸馏深度思考数据”提升模型效率。


专家观点:ScalingLaw的“天花板”之争


中国中文信息学会理事张俊林指出,Grok3的路径依赖预训练阶段的“模型尺寸扩大”,而当前行业趋势是转向RL(强化学习)和TestTimeScaling(推理时扩展)等性价比更高的方法。若RL和TestTime的天花板尚未触顶,盲目扩大基座模型可能是一种“资源浪费”。


四、行业启示:AI的“智商”与“情商”如何兼得?


1.常识库建设的紧迫性:AI在专业领域的高智商表现与常识缺失形成鲜明对比。未来需构建更全面的常识数据集,例如将日常对话、基础教育题目纳入训练。


2.功能模块的精细化设计:Grok3的“Think模式”证明,通过模块化分工(如分离逻辑推理与常识判断)可针对性补足短板,但这也增加了使用门槛。


3.用户期待的落差管理:马斯克将Grok3定位为“理解宇宙”的通用AI,但其表现暴露了宣传与实际能力的差距。行业需更谨慎地平衡技术突破与用户预期。


五、未来展望:Grok3的“进化论”与AI竞争格局


尽管遭遇质疑,Grok3的潜力仍不可小觑。其开放的DeepSearch智能搜索引擎、图像生成与语音交互功能已展现多模态能力,而马斯克承诺“每天改进模型”并计划通过API开放企业级服务。若能在常识推理上补足短板,Grok3或将成为AGI(通用人工智能)竞争中的关键选手。


然而,这场“翻车事件”也提醒我们:AI的终极挑战或许不是攻克奥数题,而是理解人类世界中那些“不言自明”的常识。正如网友调侃:“天才AI的崩溃,从一道小学数学题开始。”


Grok3的发布如同一面镜子,既映照出AI技术的飞跃——从火星任务计算到图像生成的惊艳细节,也暴露出其“高智商低情商”的致命伤。当马斯克用10万GPU点燃算力狂欢时,行业更需要冷静思考:AI的“聪明”,究竟该如何定义?是benchmark上的冰冷分数,还是对人类常识的细腻理解?答案或许藏在两者平衡的某个临界点,而Grok3的“进化之路”,正是寻找这一临界点的缩影。

核心产品
    联系方式
      Public QR Code
      官方公众号
      Affairs QR Code
      商务合作