简要总结
Media Understanding
这页说明书在讲一个叫“媒体理解”的小帮手。当你给OpenClaw发送图片、声音或视频时,这个小帮手可以提前帮你看看、听听,然后用简单的文字告诉后面的程序“这里面有什么”。这样,后面的程序就能更快地知道你想做什么。如果你不打开它,OpenClaw也会像平常一样收到你发的文件。
五岁小孩版解释
这个“媒体理解”小帮手,就像一个眼睛和耳朵。它的工作是在OpenClaw正式回复你之前,先看看你发的图片,听听你发的声音或视频,然后写一小段话告诉后面的程序。
它是怎么工作的呢?
- 收集文件:首先,它会找到你发送的所有图片、声音或视频文件。
- 选择要理解的文件:它会根据一个规则(默认是选第一个文件)来决定先理解哪个。你可以设置让它理解“全部”文件。
- 找一个小老师来分析:它会从你准备好的“小老师”名单里,按顺序找一个能看懂图片(或听懂声音)的来帮忙。这些小老师可以是像OpenAI、Google这样的在线服务,也可以是你电脑上安装的小程序(CLI)。
- 如果小老师不行,就换下一个:如果文件太大,或者第一个小老师出错了,它就会自动去找名单里的下一个小老师试试。
- 成功啦!:如果成功了,它就会把文件替换成一段简单的文字描述,比如
[图片]或[视频]。对于声音,它还会把听到的话(Transcript)记下来,方便后面的程序理解你的命令。
如果理解失败了,或者你根本没打开这个功能,也没关系!OpenClaw会继续正常工作,把你发的原文件直接交给后面的程序。
怎么告诉它该怎么做?(配置)
你需要在一个叫 tools.media 的地方设置规则。这里有一些重要的开关和按钮:
models:这是“小老师”的共享名单。名单里的小老师可以轮流尝试。image/audio/video:这三个是分别给图片、声音、视频设置的“专属房间”。你可以在每个房间里单独设置:enabled:打开或关闭这个房间的功能。maxBytes:文件不能超过多大。比如图片通常不超过10MB。maxChars:小老师写的描述不能超过多长。比如图片和视频的描述最好短一点(500字以内),方便理解命令。attachments:处理附件的规则。比如是处理“第一个”还是“全部”。- 你还可以在每个专属房间里放一个自己的“小老师”名单,它会比共享名单更优先。
关于“小老师”(模型条目) 每个“小老师”可以有两种类型:
- 在线服务(provider):比如
{ provider: "openai", model: "gpt-5.2" }。这就像是请一个很聪明的云端机器人来帮忙看图片。 - 本地程序(CLI):比如
{ type: "cli", command: "whisper", args: ["{{MediaPath}}"] }。这就像是用你电脑上安装的一个小工具来听声音。你需要把工具的名字和命令写清楚。
一些重要的规矩和提醒
- 自动帮忙(默认):如果你没有设置任何“小老师”,OpenClaw会自己想办法!它会按顺序检查:你电脑上有没有装能听声音的小工具?有没有可用的在线服务密钥?找到第一个能用的就会开始工作。如果你不想让它自动帮忙,可以把对应房间的
enabled设为false。 - 小心文件太大:每个房间都有文件大小限制(
maxBytes)。如果文件太大,当前的小老师就会跳过,换下一个试试。 - 声音文件太小:如果声音文件小于1024字节(非常非常小),会被当成空的或坏掉的,直接跳过。
- 可以设置活动范围:你可以用
scope来规定,只在私聊或者特定的频道里,才让这个小帮手出来工作。
举几个例子
- 例子1:用一个共享名单,里面放了OpenAI、Google和本地Gemini工具来理解图片和视频;并且设置声音房间可以一次处理最多2个文件。
- 例子2:只打开声音和视频的理解功能,图片功能关掉。给声音准备两个小老师:一个用OpenAI在线服务,另一个用电脑上的
whisper工具。 - 例子3:只打开图片理解功能,并设置好文件大小和描述长度限制,准备了三个小老师(OpenAI、Anthropic和本地Gemini工具)轮流尝试。
最后记住,这个“媒体理解”小帮手会尽力帮忙,但就算它出错了,也不会影响OpenClaw正常回复你。你发的原始文件总会安全地送过去。