升级到AliGenie5.0后,CC10电池版还支持多种手势隔空操控,比如对屏幕竖大拇指就能收藏当前播放内容,做个"嘘"的手势,就可以马上让天猫精灵静音,这种很"拟人化"的交流方式让交互感受更顺畅了。
使用过程中我还发现,从侧过脸到讲出指令,或者举手做"嘘"的手势,到CC10电池版接收指令做出反应,中间并没有太多等待时间,整个响应过程是一气呵成的,这当中也离不开多模态唤醒的作用。
据介绍,天猫精灵的算法专家通过融合视觉识别能力、语音识别能力以及上下文语义,把视觉和语音信息通过深度学习的方式进行融合然后输入到机器"大脑",进而做出综合性决策,让机器"能听、会看"。
也就是说,开启多模态唤醒功能后,在盯着机器张嘴说话时,天猫精灵会自动识别出我的唇动、眼神朝向、表情动作,接收语音信息的同时就能直接给出对应的反馈了。
使用CC10电池版的时候,我也发现,如果我对着CC10电池版时没有讲话,而旁边的同事在讲话,它也不会被误唤醒,因为这时机器接收到的声音和图像信息没有匹配。而当我在说话的时候,它接收到我的嘴唇动作和声音是匹配的信息,就会被唤醒并识别指令。
我们在对未来人工智能的畅想中,并不希望看到唤醒-接受指令这种机械的方式,而是全面"拟人化"的交流。当不需要再喊出"天猫精灵"的唤醒词,就能跟CC10电池版自然交互时,我发现这个智能助手是真的懂我了。
让每个人无差别享受AI根据天猫精灵数据,在家庭生活场景下,结合人脸、唇动唤醒和语音自然对话,多模态识别的准确率超过99%。从CC10电池版在我办公桌旁的这段时间来看,近距离的唇动唤醒成功率是很高的,即使是人声更嘈杂的办公室环境,它也没有被其他人的语音误唤醒的情况出现。
事实上,多模态唤醒相比单一的语音唤醒词能够更好降低误唤醒率。在各家智能助手发展的过程中,为了语音唤醒成功率这个指标,算法会把语音感知的灵敏度调整得很高。过高的灵敏度很容易捕捉到汉语里某些发音相似的音节,因此哪怕是一家人日常闲聊,电视里播放新闻,乃至三更半夜时,音箱里的语音助手们都可能突然说话,让人莫名其妙。
在免唤醒的对话情景下,天猫精灵需要融合嘴唇、语音的动态信息识别,能够帮助机器过滤掉90%以上的环境背景干扰信息,反而能够做到比特定的唤醒词更高的准确率,同时大大降低误唤醒率。
唇动唤醒的方式也是此次天猫精灵AliGenie 5.0系统的首创,先提取人讲话时的唇动关键特征点,经过唇动的分析,当图像序列和音频序列能成功匹配时,继而结合上下文语义综合判断出用户与机器对话的行为意图,最终唤醒设备。
搭载AliGenie 5.0的CC10电池版,根据生活中常见的"近场、中场、远场"三类人机交互情景,可以综合调动多种交互信息来确认我们的交流意图。近场也就是1米左右的交互情景下,唇动唤醒无疑是最自然的。1-1.5米左右的中场距离下,模拟人们打招呼的形式,对着机器挥手说话即可唤醒,此时也不需要喊出"天猫精灵"。
更远距离时,直接通过"天猫精灵"唤醒词下指令也是最拟人化的体验,未来,天猫精灵还将利用声纹识别技术来辨别声音来源的方向、位置,让语音唤醒的反馈更精准。虽然真实生活场景中,还会受到人脸距离、光线等因素的影响,但AliGenie 5.0在人机交互上无疑已开始一段新的征程。
有了多模态识别的能力,经过一段时间的训练,未来人工智能助手能把人和声音及声音方向、手势动作都"对号入座",在一个家庭空间中,可以真正认识、分辨出每一位家庭成员,熟知每个人的生活习惯和喜好,并且在任一位置都能与家庭成员自然交流,它与理想中的未来智能助手的样子已越来越接近了。
许多科幻电影描绘的未来生活,人工智能化身成一个不折不扣的管家,不再是被动的接受命令,而是通过用户的私人喜好与定制化需求主动提供服务。这个过程的建立就是通过自然语言的交流实现的,之所以它看起来如此美好,正是因为自然交流对于人来说几乎没有学习成本。
家庭里的成员构成复杂多样,与机器的自然交流还意味着它可以让所有人无差别使用最新技术。语音对话、唇动唤醒、眼神手势交流融合的自然交互方式,意味着在技术层面,降低了人们触达前沿科技的门槛。
网购、移动支付、网约车、外卖,还有人人都离不开的健康码,技术让许多人生活变得越来越便利,但有的人却因为种种原因无法享受到,这不是人或者技术的错,在改变的过程中,技术需要辅助人们适应变化,而不是跟人对立起来,造成所谓的"淘汰"。
天猫精灵AliGenie 5.0将多模态唤醒的落地,其实就是做了一件看起来简单但伟大的事:用跟人一样打交道的模式,为更多人提供前沿科技带来的便利,让每个人无差别享受AI。