自动精灵安卓版官网（自动精灵官方下载最新2022）

升级到AliGenie5.0后，CC10电池版还支持多种手势隔空操控，比如对屏幕竖大拇指就能收藏当前播放内容，做个"嘘"的手势，就可以马上让天猫精灵静音，这种很"拟人化"的交流方式让交互感受更顺畅了。

使用过程中我还发现，从侧过脸到讲出指令，或者举手做"嘘"的手势，到CC10电池版接收指令做出反应，中间并没有太多等待时间，整个响应过程是一气呵成的，这当中也离不开多模态唤醒的作用。

据介绍，天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义，把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑"，进而做出综合性决策，让机器"能听、会看"。

也就是说，开启多模态唤醒功能后，在盯着机器张嘴说话时，天猫精灵会自动识别出我的唇动、眼神朝向、表情动作，接收语音信息的同时就能直接给出对应的反馈了。

自动精灵安卓版官网,自动精灵官方下载最新2022(5)

使用CC10电池版的时候，我也发现，如果我对着CC10电池版时没有讲话，而旁边的同事在讲话，它也不会被误唤醒，因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候，它接收到我的嘴唇动作和声音是匹配的信息，就会被唤醒并识别指令。

我们在对未来人工智能的畅想中，并不希望看到唤醒-接受指令这种机械的方式，而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词，就能跟CC10电池版自然交互时，我发现这个智能助手是真的懂我了。

让每个人无差别享受AI

根据天猫精灵数据，在家庭生活场景下，结合人脸、唇动唤醒和语音自然对话，多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看，近距离的唇动唤醒成功率是很高的，即使是人声更嘈杂的办公室环境，它也没有被其他人的语音误唤醒的情况出现。

自动精灵安卓版官网,自动精灵官方下载最新2022(6)

事实上，多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中，为了语音唤醒成功率这个指标，算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节，因此哪怕是一家人日常闲聊，电视里播放新闻，乃至三更半夜时，音箱里的语音助手们都可能突然说话，让人莫名其妙。

在免唤醒的对话情景下，天猫精灵需要融合嘴唇、语音的动态信息识别，能够帮助机器过滤掉90%以上的环境背景干扰信息，反而能够做到比特定的唤醒词更高的准确率，同时大大降低误唤醒率。

唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创，先提取人讲话时的唇动关键特征点，经过唇动的分析，当图像序列和音频序列能成功匹配时，继而结合上下文语义综合判断出用户与机器对话的行为意图，最终唤醒设备。

搭载AliGenie 5.0的CC10电池版，根据生活中常见的"近场、中场、远场"三类人机交互情景，可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下，唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下，模拟人们打招呼的形式，对着机器挥手说话即可唤醒，此时也不需要喊出"天猫精灵"。

自动精灵安卓版官网,自动精灵官方下载最新2022(7)