“格罗克3”优于竞争对手产品?美媒进行对比
据美国科技时代网2月20日报道,埃隆·马斯克的xAI公司终于发布了新的人工智能(AI)模型“格罗克3”,并声称其性能优于开放人工智能研究中心(OpenAI)和中国深度求索公司(DeepSeek)等竞争对手的产品。但它真的名副其实吗?
让我们看看这款模型与现有的顶级AI模型相比如何。
xAI公司声称,“格罗克3”模型在关键基准测试中的表现优于OpenAI的o1模型和深度求索的DeepSeek-R1模型。在聊天机器人竞技场的盲测中,代号为“巧克力”的“格罗克3”模型排名靠前。这证明尽管其进入市场较晚,但已经赶上了行业领导者。
AI领域先驱安德烈·卡尔帕蒂是OpenAI的创始成员之一,也是特斯拉公司前AI总监。他测试了“格罗克3”模型并与大家分享他的见解。
根据他的说法,拥有“深度搜索”推理功能的“格罗克3”模型与OpenAI的顶级模型(如每月收费200美元的o1-pro模型)相比具有竞争力,并略微优于DeepSeek-R1。不过卡尔帕蒂认为“格罗克3”模型还不足以促使用户取消他们对ChatGPT的订阅。
意大利马沙布尔网站的一篇文章写道,尽管存在一些质疑,但“格罗克3”模型的快速发展是不可否认的。谷歌和OpenAI在这方面起步更早,享有多年的领先优势——分别为13年和8年——而xAI公司在2023年才成立。尽管如此,“格罗克3”模型已经作为领先的AI模型加入讨论。
马斯克还表示,“格罗克3”模型使用20万块图形处理器(GPU),所涉及的训练量是“格罗克2”模型的10倍。这再次印证了计算量增加会提高AI性能这一普遍规律。
不过,计算量的提升是否会进一步提高AI的智能,以使其超过某一阈值,加里·马库斯等AI研究人员仍对此表示质疑。
尽管“格罗克3”模型取得了长足进步,但它仍然存在许多与其他AI模型一样的问题:
——幽默能力较弱:和许多AI模型相类似,“格罗克3”模型在制造幽默方面的能力较差,经常讲一些枯燥乏味的“老爹笑话”。
——SVG图像生成难题:AI模型往往难以定位复杂的视觉元素。“格罗克3”模型的表现优于谷歌“双子座”1.5 Flash等模型,但在处理复杂空间关系时仍存在局限性。
对AI和马斯克的粉丝来说,“格罗克3”模型是AI领域一个值得欢迎的新成员。但对于那些寻找最佳AI模型的人来说,“格罗克3”模型目前可能还未强大到足以让用户从其他行业内顶级产品转投其怀抱的地步。
在美国“解密”网站的另一篇测评中,与其他AI聊天机器人相比,“格罗克3”模型允许更多的“言论自由”。在编程方面,它比其他产品要好用。不过在数学推理方面,OpenAI和DeepSeek的模型仍然更胜一筹。