一线大模型,正在全面进入智能体时代。
1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。
OpenAI 甚至给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,这也符合 Sam Altman、黄仁勋、扎克伯格等科技大佬对于「2025 年将是 AI 智能体之年」的趋势判断。
实际上 Operator 只是最近一段时间,全球大模型公司智能体集中发布浪潮的一部分。早于 Operator 发布前两天,字节跳动豆包大模型团队就已经公布了同类型智能体:UI-TARS。
据悉,UI-TARS 的名字来源于电影《星际穿越》的 TARS 机器人,预示着它具备高度的智能和自主思考能力。
重点是:UI-TARS 是开源的!大家可以免费使用。而且,UI-TARS 还有对应的详细技术报告可供学习。所以,无论从应用普及还是学术研究的角度来看,UI-TARS 都将成为一股重要的力量,推动智能体时代加速到来。
发布三四天,UI-TARS 的 GitHub star 量就突破了 1k,支持 Windows 和 Mac 系统的 UI-TARS-desktop 客户端达到了 1.6k stars,可见这种质量的开源智能体项目在社区是非常稀缺的。
此前在业内小有名声的 Web 自动化框架 Midscene.js ,在接入 UI-TARS 之后也增加了大量 star 关注,上榜 Github Trending。
下面是 UI TARS 实测效果。可以看到,它不仅能像 Operator 一样控制浏览器和执行推理,并且只要是能显示在屏幕上的,它都能操作。
UI-TARS 帮用户调整 Chrome 浏览器的字体大小。可以看到,UI-TARS 似乎有一些内置的知识可以支持自己的思考,比如它知道通过 Chrome 右上角三个点的图标可以访问「设置」,并且能精准地在屏幕上找到这三个点。
UI-TARS 帮用户订机票。它不仅能根据设置搜索到对应机票,还可以按照价格排序。
有意思的是,相比于 Operator 只能操控电脑,UI-TARS 还能操控手机。
UI-TARS 帮用户播放歌曲
与字节开源的 UI 自动化工具 Midscene.js 放到一起,UI-TARS 还能发挥更大的价值 —— 支持目标驱动、兼容画布操作、允许私有化部署、执行效率跃升等等,开发者能明显感受到其中的变化。
联合应用 Midscene.js 与 UI-TARS ,用 JS 代码驱动编排任务,搜集周杰伦演唱会的信息,并写入 Google Docs。
目前,已经有许多海内外用户在测试 UI-TARS,并给出了非常积极的反馈
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表炎黄立场。