Media Understanding | OpenClaw 中文解释版

这个“媒体理解”小帮手，就像一个眼睛和耳朵。它的工作是在OpenClaw正式回复你之前，先看看你发的图片，听听你发的声音或视频，然后写一小段话告诉后面的程序。

它是怎么工作的呢？

收集文件：首先，它会找到你发送的所有图片、声音或视频文件。
选择要理解的文件：它会根据一个规则（默认是选第一个文件）来决定先理解哪个。你可以设置让它理解“全部”文件。
找一个小老师来分析：它会从你准备好的“小老师”名单里，按顺序找一个能看懂图片（或听懂声音）的来帮忙。这些小老师可以是像OpenAI、Google这样的在线服务，也可以是你电脑上安装的小程序（CLI）。
如果小老师不行，就换下一个：如果文件太大，或者第一个小老师出错了，它就会自动去找名单里的下一个小老师试试。
成功啦！：如果成功了，它就会把文件替换成一段简单的文字描述，比如 [图片] 或 [视频]。对于声音，它还会把听到的话（Transcript）记下来，方便后面的程序理解你的命令。

如果理解失败了，或者你根本没打开这个功能，也没关系！OpenClaw会继续正常工作，把你发的原文件直接交给后面的程序。

怎么告诉它该怎么做？（配置） 你需要在一个叫 tools.media 的地方设置规则。这里有一些重要的开关和按钮：

models：这是“小老师”的共享名单。名单里的小老师可以轮流尝试。
image / audio / video：这三个是分别给图片、声音、视频设置的“专属房间”。你可以在每个房间里单独设置：
- enabled：打开或关闭这个房间的功能。
- maxBytes：文件不能超过多大。比如图片通常不超过10MB。
- maxChars：小老师写的描述不能超过多长。比如图片和视频的描述最好短一点（500字以内），方便理解命令。
- attachments：处理附件的规则。比如是处理“第一个”还是“全部”。
- 你还可以在每个专属房间里放一个自己的“小老师”名单，它会比共享名单更优先。

关于“小老师”（模型条目） 每个“小老师”可以有两种类型：

在线服务（provider）：比如 { provider: "openai", model: "gpt-5.2" }。这就像是请一个很聪明的云端机器人来帮忙看图片。
本地程序（CLI）：比如 { type: "cli", command: "whisper", args: ["{{MediaPath}}"] }。这就像是用你电脑上安装的一个小工具来听声音。你需要把工具的名字和命令写清楚。

一些重要的规矩和提醒

自动帮忙（默认）：如果你没有设置任何“小老师”，OpenClaw会自己想办法！它会按顺序检查：你电脑上有没有装能听声音的小工具？有没有可用的在线服务密钥？找到第一个能用的就会开始工作。如果你不想让它自动帮忙，可以把对应房间的 enabled 设为 false。
小心文件太大：每个房间都有文件大小限制（maxBytes）。如果文件太大，当前的小老师就会跳过，换下一个试试。
声音文件太小：如果声音文件小于1024字节（非常非常小），会被当成空的或坏掉的，直接跳过。
可以设置活动范围：你可以用 scope 来规定，只在私聊或者特定的频道里，才让这个小帮手出来工作。

举几个例子

最后记住，这个“媒体理解”小帮手会尽力帮忙，但就算它出错了，也不会影响OpenClaw正常回复你。你发的原始文件总会安全地送过去。