超越DeepSeek V3!Ai2再祭开源杀器Tülu 3

行业资讯· 2025-02-05 14:12:59

当我们在欢呼Deepseek超越ChatGPT时,来自美国的艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,不仅能够媲美GPT-4o,更在多项关键基准测试中超越了DeepSeek v3。

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。


论文链接:https://arxiv.org/pdf/2411.15124

1月30日,更大杯的Tülu 3 405B震撼登场。

Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。


各项基准结果比较,最后一列是强化学习优化过的Tülu 3 405B的表现,在多项指标上超越了Deepseek V3

不过在官网提供的体验版上试了试,效果也并不是那么好,对于经典的数Strawberry中有几个r的问题,Tülu 3同样扑街,不过之后需要推理的问题,模型倒是给出了正确的回答思路。


demo传送门:https://playground.allenai.org/

至于其生成出的一些与蛇相关的格言,大多都没有理解传统文化中「蛇」的寓意,显得牛头不对马嘴。



文章链接: http://huangxinwei.com/aizixun/7281.html Chat AI人工智能机器人在线使用

[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。