导语:2017年7月,国外媒体报道苹果或将于WWDC 推出智能音箱产品,引发语音人工智能领域关注。一方面,以亚马逊Echo 智能音箱为代表的现象级AI 产品广泛应用于日常家居生活;另一方面,中国2017 年两会政府工作报告首提人工智能,“科技创新2030—重大项目”关注人工智能2.0 主题,AI 全面升级为国家层面发展战略。由于学习驱动方式、数据处理方式、计算形态、平台生成方式和研究理念五大方面的变化,政策和产业的现状表明AI 2.0 时代已经来临。
人工智能跃迁2.0 阶段,
智能音箱催熟语音AI 新入口
(一)市场面语音类产品热度提升,政策面AI 被密集提及
1、语音类AI 产品突破市场,用户体验良好带动销量大增
2017年7月,来自AppleInsider、KGI 等多处消息显示苹果公司正在筹划推出智能音箱类产品,其中或将植入Siri 语音助手,并有望在WWDC 苹果大会上发布。全球消费者电子龙头公司的加入,让语音类人工智能产品再次吸引了业界和消费者的浓厚兴趣。
一方面,人工智能受多个有影响力影响力的事件推动早已成为关注点。2016 年谷歌AlphaGo 大比分战胜人类围棋高手李世石,2017 年初腾讯围棋机器人绝艺在UEC 杯世界计算机围棋大赛等比赛中战绩突出,近期百度小度机器人在《最强大脑》节目里击败人类顶尖选手。这些事件表明AI 技术发展越来越成熟,特别是深度学习技术不断实现突破。
另一方面,从产品化角度看,语音类AI 产品最为接近实用,性能表现能够基本满足用户需求。最有代表性的是Amazon 在2014 年11 月发布的Echo 智能音箱,以及在后期陆续发布入门级智能音箱Echo Dot 和便携式蓝牙智能音箱Echo Tap。消费者可通过内置语音助手Alexa 进行智能设备控制、多媒体操作、信息获取、日程提醒等服务,Echo 还可提供第三方接口以实现功能扩展。根据CIRP 和RBC Capital Market 等公司的估计,截止到2017 年2 月,Echo 系列产品累计销售量接近1000 万台,销售额达到8~10 亿美元。客户体验方面,Echo 系列产品一改早期AI 产品“尝鲜胜过实用”的表现,收获了良好的用户口碑。其官网已积累了5 万余条用户评论,评分达4.4 星。
销量激增和口碑优秀的背后折射出Echo 这一类语音交互类产品正迅速从早期用户的小众圈子进入大众市场。受此影响,Google、京东等也陆续推出Google Home、叮咚音箱等类似产品。若苹果推出智能音箱,则将成为另一个重要玩家。美国调查公司VoiceLabs在2017 年初发布的《2017 年语音报告》预测2017 年将有2450 万台以语音为主要交互方式的智能硬件产品发货,市场总量将达到3300 万台,市场规模超过200 亿美元。
Google Home 音箱
Amazon 借助Echo 音箱构建智能生态
2、两会首提人工智能,科技规划紧随其后
2017 年3 月5 日国务院总理李克强在政府工作报告中首次提到要加快人工智能等技术研发和转化,做大做强产业集群。实际上,最近一年来政府对人工智能的关注明显提升,相关政策的推进也有所加快:2016 年7 月,国务院在《“十三五”国家科技创新规划》中提出重点发展新一代信息技术,对人工智能和智能交互做出重点规划;2017 年2 月15日,科技部表示在“科技创新2030—重大项目”中新增“人工智能2.0”项目,并已进入实施方案的最终论证阶段;2017 年3 月11 日,科技部部长万钢还在表示,科技部正和相关方面共同起草促进中国人工智能创新发展规划,此规划旨在推动人工智能在经济建设、社会民生、环保事业、国家安全等方面应用。我们认为,政府工作报告首次提及AI,表明其已升级为国家战略,相关规划的具体设计和配套政策的落地也将助力AI 产业深化发展。国家陆续出台的多项政策在政策面对人工智能产业的发展起到积极的助推和引导作用。
(二)AI 2.0 概念成型,语音入口地位显现
1、AI 2.0时代来临
目前多个研究认为,人工智能已基本发展到2.0 阶段,应用领域深入到机器人、安防、金融、医疗、家居等多个垂直行业。总的来说,AI 2.0 的基本含义是指人工智能在内部新算法模型和高性能硬件发展的支持下,应对外部信息环境及社会需求的快速变动,从单个技术解决单一场景的“1.0”阶段跨越到不同产业融合式发展的新阶段。
AI 1.0 向2.0 转型升级具有五大表现特征:
(1)学习驱动方式升级:从传统知识表达方式、单纯大数据驱动方式,转向大数据驱动和知识指导相结合的方式,可自动进行机器学习,其应用范围更加广泛;
(2)数据处理方式升级:从分类型处理多媒体数据 (如视觉、听觉、文字等),迈向跨媒体认知、学习和推理的新水平;
(3)计算形态升级:从直接追求“智能机器”和高水平的人机协同融合,走向渐进型混合增强智能的新计算形态;
(4)平台生成方式升级:从聚焦研究“个体智能”,走向基于互联网络的群体智能,形成在网上激发组织群体智能的技术与平台;
(5)研究理念升级:从机器人主导,转向更加广阔的智能自主系统,从而促进改造各种机械、装备和产品,走上泛智能化之路。
支撑技术日趋成熟,产品服务创新有迹可循。语音AI 技术包括三个要素:算法、计算能力和数据。(1)算法方面,按照“机器感知—人机理解—智能判断”这一典型语音AI 作业流程划分,涉及的基础支撑技术主要包含语音识别、声纹识别、自然语言处理、深度学习等;(2)计算能力方面,主要涉及用于计算加速的GPU 芯片和提升语音预处理效果的麦克风阵列等硬件;(3)数据方面,则和业务相关,主要分为通用型(如人机对话等)和专用型(如工作任务、特定信息查询、操作指令等)等。
(一)语音识别技术高度成熟,传统科技公司优势明显
语音识别(Automatic Speech Recognition,ASR)是将人类的声音信号转化为文字或者指令的过程,是大多数语音交互的第一道门槛,只有首先听对用户说的话才能进行后续的理解和决策。一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。而在具体实现上,一般的需要先准备特征模型库,在识别时对采集到的语音信号提取待检测特征,然后将得到的语音特征参数与模型库进行比对。由声音模式匹配模块对该段语音进行识别,从而识别出语音内容。
语音识别系统流程
从市场格局来看,传统的科技公司占据ASR 市场绝对份额:2015 年,全球市场中Nuance、谷歌、苹果、微软占据绝对市场份额,国内市场中科大讯飞和百度占据约73%的份额。
(二)声纹识别助力身份认证,安防与移动支付场景成看点
1、VPR 技术原理、应用和实现路径
声纹识别技术(Voiceprint Recognition,VPR)是通过语音信号提取发声人的身份的相关特征,并通过这些特征进行模式匹配,从而识别出发声人身份的技术。声纹是一种承载语音频谱的音频信息,不同生物个体的发音器官均有其特殊性,发出的语音、语调等信号是有区别的,因此声纹识别技术可以实现身份信息的识别,并在现实生活中得到广泛应用。声纹识别作为生物识别技术的一种,受益于消费者电子技术创新的发展趋势。生物识别技术进入消费者电子产品的标志事件是2013 年iPhone 5S 采用指纹识别技术。随后,虹膜、人脸、声纹等其他的生物识别技术也开始获得长足的发展。
VPR 技术原理:VPR 的实现是先对收到的语音信息提取特征做预处理,然后进行语音训练和语音识别两个阶段处理。语音训练是对提取出的语音信息特征进行学习训练,创建全面的声纹信息模板或语音信息库。识别部分则是根据信息模板或信息库对语音特征进行模式匹配计算,由此判断该语音是否为已知模板或语音库中的特征信息,从而得出识别结果。
声纹识别系统原理图
VPR 技术主要使用动态检测的方法。动态检测的方法是在静态检测的原理方法之上增加语音激活检测(Voice Activity Detect,VAD)、降噪、去混响等算法。VAD 的目的是检测人声开始与结束的时间点,将对应音频截取出来以供分析,避免无效的录音部分带来的额外时间开销;降噪和去混响是排除环境干扰,进一步提高识别正确率。
2、安全控制应用广泛,移动支付成看点
VPR 在政府、铁路、电力、安全等特殊部门中依然具有较好的实用价值。根据美国联邦调查局对近2000 例与声纹相关的案件进行的统计,利用声纹作为证据时只有0.31%的错误率。同样声纹鉴别已是国内公安部的证据鉴定标准之一,这说明某些环境下声纹可以用来作为有效的身份鉴别方式。
产业界一些领先企业开始在移动支付领域采用“声纹+人脸识别”的融合方式开展产品化工作。2015 年,支付宝和百度钱包相继上线声纹支付功能。科大讯飞依托声纹识别和人脸识别技术构建了统一生物认证系统,并联合中国银联、徽商银行共同推出“声纹+人脸”融合认证个人转账应用。声纹识别一个重要的的优点是可以将语音操作和身份认证融合在同一个环节中,即用户发出语音指令即可同时进行声纹识别和语义理解,因此我们预计未来配合人脸识别的声纹认证服务将更多涌现。
图:科大讯飞等联合推出的“声纹+人脸”支付产品
图:支付宝声纹支付演示
(三)自然语言处理仍存技术难点,机器翻译或为突破口
1、自然语言处理是语音AI 的重要核心
自然语言处理(Natural Language Processing,NLP)是一门融语言学、计算机科学、数学于一体的科学。NLP 可分为自然语言理解和自然语言生成。前者是计算机能理解自然语言文本的意义,后者是计算机能以自然语言文本来表达给定的意思。NLP 是语音AI领域中的核心部分,但当前面临的技术挑战难度较大,基于统计技术的传统方法并未完全解决语言理解的难点。
人机对话是NLP 技术最为典型的应用之一。人机对话系统的基本结构包括三个部分:语言理解、语言生成和对话管理。语言理解和生成分别是指理解用户的语言输入和产生系统的语言输出。这两部分直接影响对话系统的性能,成为NLP 中其他应用不可缺少的部分。对话管理则可用于区分对话系统和问答系统,是指从语言理解部分获取输入信息,维护对话过程中的系统内部状态(如上下文、指代词等),并基于状态生成对话策略,为产生对话言语提供依据。对话管理的评价指标主要是要控制对话流程的自然程度和用户体验。
2、机器翻译技术发展迅速,互联网公司占主导优势
NLP 领域一个较成熟的方向是机器翻译(Machine Translation)。一种方案是采用神经机器翻译模型,是一种通用的计算装置,适合处理“序列到序列”的问题。所谓“序列”是指机器翻译中源语言的句子和对应的目标语言的对应关系。机器翻译的发展主要经历以下四个阶段,如下图所示。
图:机器翻译发展历程
影响机器翻译水平的方面中双语语料库的构建很关键。大型互联网公司在这一领域积累深厚,已占据主导优势。例如科大讯飞在2016 年底的年度发布会上演示的讯飞听见系统在实时转写的同时,能同步翻译成英语、日语、韩语、维语等。
除了机器翻译应用,在新的消费者电子产品上NLP 主流应用以智能语音助手为主,如IBM Watson、苹果Siri、Google Assistant、微软小冰和小娜、百度度秘等。人们对此已经比较熟悉,不再过多论述。目前,由于技术成熟度有限,NLP 应用整体上还处于一个早期阶段,只能理解一些简单的句子,满足用户初级的沟通与交互需求。