你应该看过那个视频吧:有人跑到苹果店里大喊一声"嘿,Siri",一瞬间几十上百个Siri齐声"在呢,什么事",那环绕立体声效堪比杜比全景声!
干这事的人无疑是为了搞笑,但也无形中戏谑了一把所谓人工智能语音助手的一个不足,那就是必须要喊唤醒词才能进行对话或下达指令。需要唤醒词唤醒的语音助手们,似乎成了天经地义,但这事现在就被颠覆了。
9月17日,天猫精灵在云栖大会发布了首个全场景人机交流系统AliGenie 5.0,首次将人脸唤醒、唇动唤醒、手势操控、语音交互等多种形态的交互方式融合在一起。
简单地说就是,我不需要再喊一声"天猫精灵",直接就能跟机器对话了,有时候做减法比做加法更难,AliGenie 5.0省掉的这一步对于人机交互来说是革命性的。
多模态唤醒首次大规模应用落地AliGenie升级到5.0后,将唇动、手势、语音语义等多种形态的交互信息融合在一起,这也就是人机交互领域常说的多模态。
模态,虽然不是我们的日常用语,但从字面意思上其实很容易理解。正如我们有视觉、听觉、嗅觉和触觉等,传递出的信息就有视频、图像、语音、手势、姿态等,每种形式可以称作一种模态。
多模态融合的人机交互一直是人工智能研究的热门领域,但此前更多停留在学术研究层面。而AliGenie 5.0系统已同步落地到天猫精灵今年的三款秋季新品上:天猫精灵CC10电池版家庭智慧屏(以下简称CC10电池版),天猫精灵CC MINI智能时钟屏以及IN糖2智能时钟音箱。其中,CC10电池版将率先上线多模态唤醒功能,并在10月中旬逐步升级覆盖CC带屏系列产品。
这是多模态唤醒首次大规模应用在消费电子产品上,不管是对阿里公司,还是整个人机交互技术领域来说,它都具有重要意义。这或许也意味着,很快你对手机、智能音箱乃至整个智能家居发号施令的方式要全面变革了。
当然,变革的前提是,天猫精灵AliGenie 5.0系统所带来的多模态唤醒体验像它们宣称的那样好。我已对CC10电池版搭载的多模态唤醒功能体验了一段时间,可以说它确实刷新了我对智能音箱这类产品的使用认知,这种感受不能说是颠覆性,却新颖又熟悉。
就像在跟身旁同事说话新颖和熟悉本是两个矛盾的词,但用在CC10电池版的交互体验上很合适。之所以说新颖是因为,居然我不需要先喊一声"天猫精灵",它就能直接回应我。
举个例子,我平时把CC10电池版放在办公桌一侧,写稿子时想要听歌了,把头一转向它,左下角的天猫精灵便提示"已人脸唤醒,我正在听……",几乎就是同时,我对它说"播放音乐",然后就开始放歌了,整个过程就像跟旁边工位的同事对话一样,根本不需要多费口舌喊声"天猫精灵"。
这也是我说它"熟悉"的原因,你想想和它对话就跟旁边同事聊天一样,自然的交流,能不熟悉吗?