OC
OpenClaw 中文解释版

给五岁小朋友也能看懂的说明书

简要总结

Media Understanding

这页说明书在讲一个叫“媒体理解”的小帮手。当你给OpenClaw发送图片、声音或视频时,这个小帮手可以提前帮你看看、听听,然后用简单的文字告诉后面的程序“这里面有什么”。这样,后面的程序就能更快地知道你想做什么。如果你不打开它,OpenClaw也会像平常一样收到你发的文件。

五岁小孩版解释

这个“媒体理解”小帮手,就像一个眼睛和耳朵。它的工作是在OpenClaw正式回复你之前,先看看你发的图片,听听你发的声音或视频,然后写一小段话告诉后面的程序。

它是怎么工作的呢?

  1. 收集文件:首先,它会找到你发送的所有图片、声音或视频文件。
  2. 选择要理解的文件:它会根据一个规则(默认是选第一个文件)来决定先理解哪个。你可以设置让它理解“全部”文件。
  3. 找一个小老师来分析:它会从你准备好的“小老师”名单里,按顺序找一个能看懂图片(或听懂声音)的来帮忙。这些小老师可以是像OpenAI、Google这样的在线服务,也可以是你电脑上安装的小程序(CLI)。
  4. 如果小老师不行,就换下一个:如果文件太大,或者第一个小老师出错了,它就会自动去找名单里的下一个小老师试试。
  5. 成功啦!:如果成功了,它就会把文件替换成一段简单的文字描述,比如 [图片][视频]。对于声音,它还会把听到的话(Transcript)记下来,方便后面的程序理解你的命令。

如果理解失败了,或者你根本没打开这个功能,也没关系!OpenClaw会继续正常工作,把你发的原文件直接交给后面的程序。

怎么告诉它该怎么做?(配置) 你需要在一个叫 tools.media 的地方设置规则。这里有一些重要的开关和按钮:

  • models:这是“小老师”的共享名单。名单里的小老师可以轮流尝试。
  • image / audio / video:这三个是分别给图片、声音、视频设置的“专属房间”。你可以在每个房间里单独设置:
    • enabled:打开或关闭这个房间的功能。
    • maxBytes:文件不能超过多大。比如图片通常不超过10MB。
    • maxChars:小老师写的描述不能超过多长。比如图片和视频的描述最好短一点(500字以内),方便理解命令。
    • attachments:处理附件的规则。比如是处理“第一个”还是“全部”。
    • 你还可以在每个专属房间里放一个自己的“小老师”名单,它会比共享名单更优先。

关于“小老师”(模型条目) 每个“小老师”可以有两种类型:

  1. 在线服务(provider):比如 { provider: "openai", model: "gpt-5.2" }。这就像是请一个很聪明的云端机器人来帮忙看图片。
  2. 本地程序(CLI):比如 { type: "cli", command: "whisper", args: ["{{MediaPath}}"] }。这就像是用你电脑上安装的一个小工具来听声音。你需要把工具的名字和命令写清楚。

一些重要的规矩和提醒

  • 自动帮忙(默认):如果你没有设置任何“小老师”,OpenClaw会自己想办法!它会按顺序检查:你电脑上有没有装能听声音的小工具?有没有可用的在线服务密钥?找到第一个能用的就会开始工作。如果你不想让它自动帮忙,可以把对应房间的 enabled 设为 false
  • 小心文件太大:每个房间都有文件大小限制(maxBytes)。如果文件太大,当前的小老师就会跳过,换下一个试试。
  • 声音文件太小:如果声音文件小于1024字节(非常非常小),会被当成空的或坏掉的,直接跳过。
  • 可以设置活动范围:你可以用 scope 来规定,只在私聊或者特定的频道里,才让这个小帮手出来工作。

举几个例子

  • 例子1:用一个共享名单,里面放了OpenAI、Google和本地Gemini工具来理解图片和视频;并且设置声音房间可以一次处理最多2个文件。
  • 例子2:只打开声音和视频的理解功能,图片功能关掉。给声音准备两个小老师:一个用OpenAI在线服务,另一个用电脑上的whisper工具。
  • 例子3:只打开图片理解功能,并设置好文件大小和描述长度限制,准备了三个小老师(OpenAI、Anthropic和本地Gemini工具)轮流尝试。

最后记住,这个“媒体理解”小帮手会尽力帮忙,但就算它出错了,也不会影响OpenClaw正常回复你。你发的原始文件总会安全地送过去。