简要总结
Talk Mode
这页说明书在教你一个叫“对话模式”的好玩功能。它就像你有一个会一直听你说话、然后回答你的智能小助手。当你打开这个模式,它就会一直等着你说话,然后把你说的话变成文字,送给一个聪明的大脑(我们叫它模型)去思考,最后再用一个好听的声音把答案说出来给你听。如果你在它说话时突然插话,它还会停下来听你的新问题呢!
五岁小孩版解释
“对话模式”是一个可以一直用声音和你聊天的小助手。它工作起来就像在玩一个“我说你听,你说我听”的游戏,总共有四步:
- 第一步,听你说话。它会竖起小耳朵,一直等着你开口。
- 第二步,把话变成字。等你停下来一小会儿,它就把听到的话变成文字,送给一个聪明的“大脑”(我们叫它模型,你可以把它想成一个很会聊天的机器人朋友)去思考。
- 第三步,等答案。它要耐心地等“大脑”朋友想好怎么回答。
- 第四步,把答案说出来。等答案想好了,它就会通过一个叫“ElevenLabs”的工具,用像真人一样好听的声音把答案念出来。
它工作时的样子(在苹果电脑上) 当你打开这个模式,屏幕上会一直有一个小云朵图标飘着。它会变来变去,告诉你它现在在干嘛:
- 当它在听你说话时,小云朵会像心跳一样一闪一闪。
- 当它在想答案时,小云朵会有一个慢慢下沉的动画。
- 当它在说话时,小云朵周围会有一圈一圈的光波散开。
- 你可以用鼠标点一下小云朵,让它马上停止说话。
- 你也可以点小云朵旁边的“X”,来关掉整个对话模式。
一个特别的小秘密:用声音指令
有时候,那个聪明的“大脑”朋友会在回答里藏一个小纸条(我们叫它JSON),来告诉说话的声音要变成什么样。比如,它可以说:“这次用另一个声音说话吧!”或者“让声音说得快一点!”。这个纸条必须是回答里的第一行字,而且只能用一次。如果纸条上写了 once: true,那这个声音指令只用在这一句话上;如果没写,那以后就一直用这个新声音了。说完之后,这个纸条会被悄悄扔掉,不会念出来。
怎么设置它?
你需要在一个叫 ~/.openclaw/openclaw.json 的配置文件里告诉它一些事情。你可以把它想成是给小助手写一张“工作须知”。里面可以写:
voiceId:你想让哪个声音来和你说话?(就像选一个讲故事的人)modelId:你想用哪个“大脑”模型来思考?(默认是eleven_v3)apiKey:使用 ElevenLabs 声音服务的密码。interruptOnSpeech:当你在小助手说话时插话,它要不要马上停下来听你的?(默认是true,也就是“要”)outputFormat:声音用什么格式播放?在苹果电脑和手机上,默认是pcm_44100;在安卓手机上,默认是pcm_24000。如果你想用 MP3 格式,可以设置成mp3_44100_128这样的。
需要注意的事情
- 在使用前,你需要给你的电脑或手机“麦克风”和“语音识别”的权限,就像你要先允许它用你的话筒和耳朵。
- 它会把聊天的内容,也像打字一样,显示在旁边的网页聊天窗口里。
- 它使用一个叫 ElevenLabs 的流式播放技术,这样回答的声音可以一边生成一边播放,不用等全部做完,速度更快。
- 有些设置是有固定范围的,不能乱写。比如
stability(声音的稳定度)在eleven_v3这个模型下,只能是0.0、0.5或1.0。latency_tier(延迟等级)如果设置了,只能是0到4之间的数字。