首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

挤爆字节服务器的 Agent 到底啥水平?一手实测来了

  • 25-04-23 21:20
  • 4730
  • 8687
juejin.cn

“字节版 Manus” 有多能打?量子位实测在此。

△扣子智能体生成的活动介绍网页

我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。

结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。

不过在指令遵循方面,还是比较 “有自己的想法”。

简单介绍一下,扣子空间是字节在刚刚过去的周末推出的智能体协作系统,官方主打 “你和 AI Agent 协同办公的最佳场所”。

由于放出来的 demo 效果惊艳,过去几天里还出现了挤爆服务器的场面。

而第一波拿到邀请码的幸运儿,在体验后也第一时间分享了使用感受:

对比智能体确实是一个大飞跃。

更适合用来分析报告,主要作用是帮助用户搭起整体框架。

当然,作为幸运儿之一,我们也赶紧进行了一波实测。

有脑有手的通用智能体

扣子平台的通用智能体,分成了探索和规划两种模式,官方的介绍是这样的:

实际用下来的话,探索模式更注重效率,而规划模式则会对任务进行详细拆分,条理更加清晰。

自动整理搜集信息,一句话制作网页 / PPT

先来看探索模式,我们让它整理了一下波音 747 系列飞机的发展历程。

可以看到,智能体根据给出的话题自行扩展延伸了许多搜索词并执行了检索,最后形成了一份文字报告。

利用整理好的资料,可以直接制作出一个网页(或者 PPT 也可以),页面包含了比较丰富的内容,排布简洁,美观性也说得过去。

并且除了文字内容,生成网页时智能体还补充了产量统计图和关键时间线。

有脑还有手,自主规划执行任务

在规划模式下,扣子智能体不仅会整理资料,还支持在虚拟沙盒环境中操纵电脑、浏览网页,执行订票等操作。

比如我们让它帮忙订一张明天(23 日)下午从北京到上海的高铁票。

比较有意思的是,智能体一开始的动作是搜索高铁票该怎么订,不清楚是模型自己真的不知道,还是这里强制设定了检索过程,但总之,如果真遇到不会的技能,通过检索来弥补也不失为一种策略。

12306 平台需要登录才能进行订票,智能体能够准确识别到这种状况,并提示我们手动接管。

不过,可能是沙盒环境受到了限制,在执行检索之后页面并未显示结果,因此整个流程未能顺利完成。

但从智能体的操作过程来看,网页信息识别和规划执行能力已经很不错了。

接入 MCP,智能体不再 “孤军奋战”

除此之外,扣子也支持 MCP 协议,并接入了飞书文档、GitHub、MySQL 数据库、天气、地图等一系列 MCP 应用。

于是结合 MCP,我们来整个大活。

上周,量子位中国 AIGC 产业峰会 2025 成功举行,我们将其会议流程和嘉宾信息整理到了一份文档当中,要求智能体将这些材料整理出一份网页版会议指南。

并且还调用了地图、天气和语音合成三个 MCP 插件,在网页中加入天气预报、交通指南和嘉宾介绍语音播报。

可以看到,智能体首先利用工具从文档中提取出文本,然后通过 MCP 协议调取了天气、地图等信息。

由于任务比较复杂,制作耗时也比较长,第一版成品长这样:

这个版本,要求的内容都有呈现,但是活动流程没有遵循要求的格式,天气预报的日期也不对。

所以我们针对这两点要求智能体进行修改,修改的过程没有一步到位,而是经过了多轮调整。

以及到后面修改的过程才发现,扣子智能体一开始偷懒并没有合成嘉宾介绍的语音,只是在网页里放了按钮,单独指出之后才开始合成。

不过最终还是得到了符合期待的页面,该有的内容都正常展现,滑动和点击查看详情的功能都成功实现,合成的音频也能正常播放。

虽然整体经历了不短的时间,但对于一个完全不懂网页制作的用户而言,扣子智能体已经很好地解决了工具有无的问题。

在时间上,一个可以改进的方向是让可以并行进行的任务同时进行,比如这个任务当中的语音合成实际上是独立于网页设计的,而智能体目前采用的是串行方式,带来了不少的额外耗时。

总结一下,作为一个通用智能体,扣子智能体的任务规划比较合理,资料搜集能力也表现不错,不过在指令遵循方面,还是比较 “有自己的想法”。

当然作为通用智能体,优先考量是提升技能的丰富度,尽可能覆盖更多的任务,所以在具体任务细节上,也还有不少提升空间。

更懂行的专家智能体

所以,在通用 Agent 之外,扣子空间还提供了**「专家模式」**。

Beta 测试版首页,目前有两个专家 Agent:

  • 用户研究专家:模型学习了字节资深用研专家、产品经理等分享的用研工作技巧;

  • 华泰 A 股观察助手:扣子团队与华泰证券联合孵化的 Agent,让模型学习了如何分析上市公司和发展潜力等专业知识。

我们实测下来发现,吸收了更多私人数据和第三方数据的专家 Agent,在实用性方面确实大有提升,尤其在面对复杂任务过程中易出错的问题,它总是能自主发现错误并不断尝试更正。

不过由于涉及的领域确实比较专业,任务耗时也大大增加,类似股票分析的任务往往需要运行几十分钟。

以下为具体实测过程。

0 产品经验也能做出完整用户调研

假如有一个新入行的产品经理,想要设计一个北京地区的户外活动 APP,需要对用户需求进行调研。

尽管没有工作经验,也可以使用简单描述来生成一份用户访谈提纲。

实测不到 1 分钟,这个 Agent 就生成了一份可下载的 Markdown 文档,10 个问题基本覆盖了我们想要调研的需求。

然后我们又继续在输入框中下达新指令:

再帮我生成一份调研问卷。

从思考过程可以看到,面对一个比较模糊的需求,它能通过自主规划_(设计约 30 个问题的调研问卷)_进一步明确任务。

而且评估其生成效果,从一名资深户外运动爱好者的角度来看,这份调研报告可谓非常完整——

7 个大类、30 个小问题,从用户基本信息到户外运动参与情况、活动信息与获取等等,均考虑到了。

接下来,鉴于我们目前缺少真实问卷结果,所以又给它扔了个 “麻烦”:

能直接帮我生成一份虚拟完整用户调研数据,并最终生成一份用户分析报告吗?

大约几分钟后,这个 Agent 自己生成了一份虚拟用户数据:

横向标准项需要长时间拖动才能看完整,竖向共有 100 条数据:

当然,过程中 Agent 也自己发现了错误,并多次尝试更正。


最终,基于虚拟数据,Agent 确实生成了一份可下载的完整用户画像报告。

整体而言,这个用户研究 Agent 具备问卷数据分析、访谈纪要总结、调研问卷生成、访谈提纲生成这四大能力,即使零产品经验也能通过持续对话实现自己的调研需求。

每天都能收到专属股票早报

而另一个股票专家 Agent,由于涉及的领域比较复杂,官网显示平均任务耗时为 42 分钟。

能做的事儿包括下面这些:

这里我们简单测试了其早报生成功能。

支持选定 3 支关注的股票_(这里就不具体展示选了哪些了)_,以及三个关注的板块,然后给出当日 A 股早报。

有意思的是,相比之前的用户调研 Agent,这个智能体则更加谨慎了,过程中还需要用户手动确认其阶段性完成情况,然后才继续执行。

而且整个过程搜集了大量数据:

不过比较遗憾的是,截至发稿前_(已经跑了一个多小时)_,可能由于服务器资源问题,暂时没有跑出最终结果。

然而,从其他网友对该智能体的测试来看,据称效果惊艳。

(股票功能)实测蛮惊艳的

小结一下,相比通用 Agent,专家 Agent 在实用性方面确实更胜一筹。

就产品的初步设计来看,和 “扣子空间” 这个名字相呼应,扣子团队希望打造一个“通用 Agent 和专家 Agent 协作的系统”。

不过按照扣子团队的长期设想,最终目标则还是打造一个开放的 Agent 系统——

当用户提出需求时,系统能自动调度最合适的一位或多位专家 Agent 协同完成任务。

而抛开长远不谈,仅就当下这个测试版扣子空间而言,得益于它在自主规划和任务驱动方面的加强,对于绝大多数实际情况,它已经是一个可以上手、能用的 Agent 系统了。

One More Thing

这一次,字节在扣子空间上还搞了一波 “裂变玩法”。

我们实测过程中发现,在执行完第一个任务之后,还可以得到五个邀请码。

并且当五个邀请码全部用完后,还能获得更多邀请资格。

所以相比其他家那种完全封闭的测试,扣子空间的体验资格也更容易获得。

最后,有获得邀请码的童鞋来说说你的使用体验吗?

欢迎在评论区留下你的想法!

— 完 —

注:本文转载自juejin.cn的量子位的文章"https://juejin.cn/post/7496338587509571618"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

109
人工智能
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2025 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top