发布时间:2023-09-18 13:47:00 来自:网易科技
李晨亮投稿
量子位公众号 QbitAI
现在,小白也可以打造专属的智能体了!
达摩院最新出品 Agent 框架 ModelScope-Agent,直接可用可定制。
比如,可以同时执行多个工具的规划、调度。
写一篇关于 Vision Pro VR 眼镜的 20 字宣传文案,并用女声读出来,同时生成个视频看看。
也能在多轮对话中持续不同的工具。
光集成的工具就有这么多,比如 NLP、语音、视觉、多模态等多种模型,以及默认集成知识检索、API 检索等方案。
在 GitHub 上还专门提供了详细教程,这就来看看究竟如何构建?
四步构建自己的 Agent
1、首先拉取 ModelScope-Agent 代码并安装相关依赖。
2、配置 config 文件,ModelScope token 和构建 API 工具检索引擎。
3、中枢大模型启动。
4、Agent 构建和使用,依赖之前构建好的大模型,工具 list,工具检索和记忆模块。
构建完毕后,还可以注册新工具。GitHub 上同样有食用教程。
开发者们可以参考上述教程很容易搭建属于自己的智能体,ModelScope-Agent 依托魔搭社区,未来会适配更多新增的开源大模型,推出更多应用。
如客户服务 Agent、个人助理 Agent、Story Agent、Motion Agent、multi-Agent(多模态 Agent)等等。
框架如何设计的?
作为一个通用的、可定制的 Agent 框架,ModelScope-Agent 主要有以下特点:
它主要包括这些模块,以开源大语言模型 (LLMs) 为核心,以及记忆控制、工具使用等模块。
开源 LLM 主要负责任务规划、调度以及回复生成;记忆控制模块,主要包含知识检索以及 prompt (提示词)管理;工具使用模块,包含工具库以及工具检索和工具可定制化。
在执行任务时,它会将其拆分成更小的任务,然后一项一项完成。
以写一个简短故事,并用女声朗读,同时配个视频”为例。
ModelScope-Agent 会展示整个任务规划过程,先通过工具检索检索相关的语音合成工具,然后由开源 LLM 进行规划调度——首先生成一段故事,然后调用对应语音生成模型,生成语音并用女声念出,展示给用户,最后再调用视频生成模型,针对生成的故事内容生成一段视频.
这里全程不需要用户配置当前请求可能需要调用到的工具。
除此之外,他们还提出了新的工具指令微调训练方法:Weighted LM,通过对工具指令调用部分 token 进行 loss 加权,提升开源大模型工具指令调用能力。
基于该训练方法和配套的开源中英文工具指令调用数据集 MSAgent-Bench,基于 Qwen-7B 优化训练了 MSAgent-Qwen-7B 模型,相关数据集和模型都已开源。
论文链接:
https://arxiv.org/abs/2309.00986
代码链接:
https://github.com/modelscope/modelscope-agent
ModelScope 体验地址: