语音识别
「语音识别(Speech Recognition)」 使计算机能够进行聆听,包括我们可以在日常生活中使用的iPhone上的Siri;在Google语音输入中,您可以说出一个句子,然后变成文字;与Google地图通话可说出我要去的地方,它可以自动为你生成导航。这些是语音识别的一些应用。语音识别可以分为三个方面:
- 语音合成, 包括在线和离线语音合成;
- 语音识别, 包括语音听写和其他方面;
- 语义理解 是使用神经网络提取语音的含义,包括语音评估和我们一些常用机器翻译的某些功能。
计算机视觉
「计算机视觉(Computer vision)」 使计算机可以代替人眼的某些功能。例如,有一种非常有用的文档分析技术,称为OCR。我们可以让计算机扫描文档并阅读。例如,我们可以获得发票,以便计算机可以立即对其进行扫描,然后从发票中提取有关金额,税率和我们关心的其他信息。在智能医疗诊断领域中有一些关于计算机视觉的研究。尽管它尚未在市场上出售,但我相信将来会有广泛的应用场景。同时,在军事领域,无人驾驶飞机正在取代人类的观察和测量导弹的弹道。
计算机视觉的流行方向是:
- 对象识别和检测。 计算机可以快速检测出我们通常从照片中看到的内容。例如,如果我们拍出一个旅游区的风景照片,我们可以立即识别出上面的植物,人,动物或车辆,计算机也可以。
- 对象运动跟踪。 我们已经在某个帧上捕获了对象的图像。在随后的视频中,我们可以不断跟踪该对象的变化和状况。这不是一件容易的事。难以准确识别物体,因为物体会不断受到阳光和光线的影响。
另一个是计算机查看图片和说话的功能。例如,给定图片,计算机可以识别图片中包含的内容,然后告诉一些预制的内容。现在,许多展厅已经使用了这项技术。它可以预制解释性单词和指导性单词。参观者仅需使用手机或其他设备即可扫描展品或展区中的某些指定位置,以听到相关的指导词。