Talk Mode | OpenClaw 中文解释版

“对话模式”是一个可以一直用声音和你聊天的小助手。它工作起来就像在玩一个“我说你听，你说我听”的游戏，总共有四步：

第一步，听你说话。它会竖起小耳朵，一直等着你开口。
第二步，把话变成字。等你停下来一小会儿，它就把听到的话变成文字，送给一个聪明的“大脑”（我们叫它模型，你可以把它想成一个很会聊天的机器人朋友）去思考。
第三步，等答案。它要耐心地等“大脑”朋友想好怎么回答。
第四步，把答案说出来。等答案想好了，它就会通过一个叫“ElevenLabs”的工具，用像真人一样好听的声音把答案念出来。

它工作时的样子（在苹果电脑上） 当你打开这个模式，屏幕上会一直有一个小云朵图标飘着。它会变来变去，告诉你它现在在干嘛：

当它在听你说话时，小云朵会像心跳一样一闪一闪。
当它在想答案时，小云朵会有一个慢慢下沉的动画。
当它在说话时，小云朵周围会有一圈一圈的光波散开。
你可以用鼠标点一下小云朵，让它马上停止说话。
你也可以点小云朵旁边的“X”，来关掉整个对话模式。

一个特别的小秘密：用声音指令 有时候，那个聪明的“大脑”朋友会在回答里藏一个小纸条（我们叫它JSON），来告诉说话的声音要变成什么样。比如，它可以说：“这次用另一个声音说话吧！”或者“让声音说得快一点！”。这个纸条必须是回答里的第一行字，而且只能用一次。如果纸条上写了 once: true，那这个声音指令只用在这一句话上；如果没写，那以后就一直用这个新声音了。说完之后，这个纸条会被悄悄扔掉，不会念出来。

怎么设置它？ 你需要在一个叫 ~/.openclaw/openclaw.json 的配置文件里告诉它一些事情。你可以把它想成是给小助手写一张“工作须知”。里面可以写：

voiceId：你想让哪个声音来和你说话？（就像选一个讲故事的人）
modelId：你想用哪个“大脑”模型来思考？（默认是 eleven_v3）
apiKey：使用 ElevenLabs 声音服务的密码。
interruptOnSpeech：当你在小助手说话时插话，它要不要马上停下来听你的？（默认是 true，也就是“要”）
outputFormat：声音用什么格式播放？在苹果电脑和手机上，默认是 pcm_44100；在安卓手机上，默认是 pcm_24000。如果你想用 MP3 格式，可以设置成 mp3_44100_128 这样的。

需要注意的事情

在使用前，你需要给你的电脑或手机“麦克风”和“语音识别”的权限，就像你要先允许它用你的话筒和耳朵。
它会把聊天的内容，也像打字一样，显示在旁边的网页聊天窗口里。
它使用一个叫 ElevenLabs 的流式播放技术，这样回答的声音可以一边生成一边播放，不用等全部做完，速度更快。
有些设置是有固定范围的，不能乱写。比如 stability（声音的稳定度）在 eleven_v3 这个模型下，只能是 0.0、0.5 或 1.0。latency_tier（延迟等级）如果设置了，只能是 0 到 4 之间的数字。