AI 2.0时代(二)

发表时间:2017-08-03    文章来源:远博志城

导语:2017年7月,国外媒体报道苹果或将于WWDC 推出智能音箱产品,引发语音人工智能领域关注。一方面,以亚马逊Echo 智能音箱为代表的现象级AI 产品广泛应用于日常家居生活;另一方面,中国2017 年两会政府工作报告首提人工智能,“科技创新2030—重大项目”关注人工智能2.0 主题,AI 全面升级为国家层面发展战略。由于学习驱动方式、数据处理方式、计算形态、平台生成方式和研究理念五大方面的变化,政策和产业的现状表明AI 2.0 时代已经来临。

往期报告回顾:

AI 2.0时代(一)

科技企业积极布局,共同推动产业链成熟

语音AI 产业链主要分为上游的基础技术层、中游的基础应用层和下游的方案产品集成层。上、中游主要参与者是擅长基础技术研发的科研院所、技术与资金实力比较雄厚的传统巨头厂商(如亚马逊、谷歌、百度等),包括英伟达、英特尔等芯片厂商。下游主要参与者包括智能语音助手软件服务商和嵌入智能语音系统的硬件服务商等,国内如云知声、思必驰等研发实力较强的创业公司也通过与实力较强的企业合作参与其中。

ai21_副本.jpg

图:语音AI产业链(资料来源:36氪)

(一)Google:底层技术积累深厚,持续发力布局全产业链

公司于2011 年正式成立AI 部门,目前包括Google 搜索、Google Now、Gmail 等100余个团队使用机器学习技术,并往其开源Android 手机系统中注入大量机器学习功能(如用卷积神经网络开发Android 手机语音识别系统)。目前产品和服务主要依靠AI 技术驱动,如使用深度学习技术改善搜索引擎、识别Android 手机指令、鉴别其Google+社交网络的图像等。掀起AI 并购狂潮,持续发力语音AI 领域。“内生+外延”双轮驱动成为科技龙头企业布局AI 的一般战略。谷歌在成立专门的AI 研究团队以维持自身在先天基础技术和产品集成优势的同时,也积极并购或参股AI 初创公司,以期搭建完整的AI 生态链。

公司2016 年9 月收购的Speaktoit 是专注于语音交互功能和自然语言学习,为有语音识别功能的应用app 提供云端应用接口编程。2017 年1 月收购的Limes Audio 在音频信号处理方面经验丰富,技术可用于减少因物理空间条件不足所导致的音效不佳问题。底层语音AI 技术不断积累,用户使用场景进行重点覆盖。在语音AI 布局方面,谷歌的布局分成三个方面。第一是做好底层技术积累,研发先进的深度学习算法,增强语音识别能力,对于信息处理和用户服务产生更好反馈;第二是覆盖用户生活使用场景,抓取到更多信息;第三是将技术转化为商业应用,以Google Home 作为家居系统入口,着力打造智能家居生态产业链。

ai22_副本.jpg

图:google语音AI领域布局路径

开源第二代深度学习系统,设计专用集成芯片。2015 年11 月,谷歌宣布开源第二代深度学习系统Tensor Flow。TensorFlow 可模仿人类大脑工作的方式并识别出模式,在数据输入和输出方面都有较好的精度和速度,被广泛应用于语音识别、图像识别等领域。2016年5 月,谷歌发布专为TensorFlow 设计的专用集成芯片,命名为张量处理单元TPU(Tensor Processing Unit),大幅度提升深度学习系统运行效率。2017 年2 月15 日第一届TensorFlow开发者峰会上,TensorFlow 1.0 版本正式推出,加强了Python API 的稳定性,使得加入新特征变得更加容易,更适合商业化使用。

推出智能音箱Google Home,标志谷歌语音AI 商业应用落地。2016 年5 月召开的Google I/O 开发者大会上,谷歌推出语音智能助手Google Assistant 与智能音箱GoogleHome,利用虚拟助理融合智能家居,加速推进智能生态建设。之后能与Google Home 兼容的家庭智能设备继续增多。2017 年1 月25 日,Google 宣布与Belkin 的Wemo 系列智能插头和照明开关和Honeywell 智能恒温器展开合作。Google Home 用户只需打开App,就可以在控制菜单中将这些设备连接到智能音箱上。更进一步的是谷歌在MWC2017 展会上宣布,Android 6.0 以上版本获取Google Assistant 无需系统更新,谷歌会通过Play 服务为符合运行条件的设备自动添加Google Assistant 服务。

Wavenet 语音合成方法开创全新思路。2016 年9 月,谷歌发布由零开始创造整个音频波形输出的语音合成方法Wavenet,通过利用真实的人类声音剪辑和相应语言、语音特征来训练其卷积神经网络,让其能够辨别语音和语音模式,输出音频更接近人声。

(二)Amazon:以Alexa+Echo 为核心,构建智能生态系统

市场优势明显,智能音箱Echo 抢占先机。亚马逊作为全球大规模跨国电商,拥有海量C端市场用户。2006 年后,公司借助AWS 在云市场的领先地位为AI 产业发展积累基础数据量。2014 年11 月,亚马逊智能音箱Echo 与个性化语音助手Alexa 诞生,并在随后的两年时间内得到消费者的高度认可。尽管Amazon 推出Echo 时,它只是一个内置几个语音命令的智能扬声器,但随着用户习惯培养以及近两年语音技术的不断精进,已经发展成为一个丰富的智能生态系统。

加强Alexa 第三方合作,步入相关智能设备领域。目前搭载Alexa 的硬件品类已经超过7000 种。产品品类从电器、手机到机器人、汽车信息娱乐系统等多个领域,品牌涵盖了LG、华为、GE、福特、大众、联想、优必选等。2017 年1 月,Amazon与华为达成合作,在面向美国发售的Mate 9 上搭载语音助手Alexa,同时与摩托罗拉合作开发Moto Mods。Moto Mods 是与Moto Z 手机配合使用的可拆卸模块,可为手机增加音箱、投影仪等功能。2017 年2 月,高通宣布旗下公司将帮助高通蓝牙音频系统芯片SoC 实现内置Alexa 唤醒支持,Amazon 顺利进入智能耳机领域。

后续借力AWS 云服务,开源DSSTNE。2016 年底亚马逊re:Invent 大会上,AWS(亚马逊公司旗下云计算服务平台)正式推出自己的AI 产品线:Amazon Lex、Amazon Polly以及Amazon Rekognition,分别可用于自然人机交互、语音转换以及图像识别等服务。此外,2016 年5 月亚马逊开源了针对深度学习的模型库DSSTNE。通过改善搜索、定制化产品推荐以及语音识别、增加有质量的产品评价,公司内部利用机器学习改善端到端的用户体验。

(三)科大讯飞:全面布局智能语音产业链

科大讯飞作为国内智能语音产业领导者,实行全产业链发展战略,从上游的语音硬件芯片、麦克风阵列,到中游基础应用层的语音合成、语音识别和语音拓展等技术,再到下游的服务方案和产品均有完整布局。

成功自主研发语音芯片和麦克风阵列。语音芯片研发方面,科大讯飞已成功研发出基于自身核心技术高度集成中英文语音合成芯片系列,在业内具有较好的语音合成体验。根据科大讯飞研究院魏斯介绍,在深度学习平台架构上,科大讯飞使用GPU 作为主要的运算部件,并结合算法的特点,进行大量的并行化工作。例如,在分块模型更新基础之上设计融合弹性平均随机梯度下降(EASGD)算法的并行计算框架,在64 位GPU 上实现了近线性的加速比,大大提升训练效率,加快深度学习相关应用的研究进程。

科大讯飞麦克风阵列主要有二麦、四麦、六麦三类,主要应用场景有机器人、智能家居、智能硬件等,功能聚焦于智能硬件远场拾音的实现。

ai23_副本.jpg

图:科大讯飞麦克风阵列产品比对(资料来源:讯飞开放平台)

语音合成和语音识别等基础应用技术遥遥领先。(1)语音合成:公司成功研发全新的基于深度学习的语音合成系统,合成语音的自然度和表现力得到显著提升,在国际最高水平的语音合成比赛Blizzard Challenge 中再次夺冠,且七项指标全部全球第一。(2)语音识别:针对人与人之间自由交谈、会议演讲等场景,语音实时转写通用正确率很高,能够在实际应用场景中达到实用门槛的中文语音转写。2016 年9 月,科大讯飞参加由Google承办的第四届CHiME Challenge 国际多通道语音分离和识别大赛获取全部三项赛事第一名,说明其语音识别以及麦克风阵列处理技术处于国际顶尖水平。

ai24_副本.jpg

图:科大讯飞AI+业务领域

(四)Apple:以Siri 为入口,拓展智能设备应用

苹果对于自身在人工智能领域的定位是设备智能技术研发商和产品提供商,即将人工智能技术纳入到硬件,利用如Siri 语音以及iOS 10 中的图片自动识别分类机制,拓展语音、图像识别方面的应用。Siri 于2011 年和iPhone 4S 同时推出,客户体验经历了一个逐步攀升的过程。经过较长的语音技术探索,在2016 年苹果开发者大会上,iOS 10 搭载的Siri 开放新功能API 和SDK,支持Siri 控制第三方应用,如使用Siri 叫滴滴专车、为QQ好友发送消息等。相较谷歌助手仅支持5 种语言,亚马逊语音助手Alexa 仅支持英语和德语,Siri 支持语言的种类高达24 种,可以更好地本地化、融入用户生活。今年3 月,苹果表示iOS 10.3 版本中语音助手Siri 将支持上海话,这是继粤语和台湾国语之后的另一种中文方言上线。

以智能耳机完善布局,智能家居或紧随其后。2016 年9 月秋季发布会上苹果发布了智能耳机AirPods,支持和Siri 的结合。(1)AirPods 和iPhone 配对之后,用户轻点两下AirPods 即可激活Siri。(2)在打电话或与Siri 交谈时,采用波束成形技术的双麦克风可过滤背景噪音。相信随着AirPods 的上线,未来Siri 将会更多地参与到用户日常活动中,对于苹果在AI 领域的布局产生重大影响。据Bloomberg 报导,苹果正打造与亚马逊Echo类似模式的智能家居设备,目前进入样品测试阶段,有望切入智能家居方面。

ai25_副本_副本.jpg

图:AirPods无线智能耳机

(五)Microsoft:“小冰”、“小娜”与合作方切入多个领域

2014 年5 月,微软首次发布人工智能伴侣虚拟机器人“微软小冰”,经过两年的技术改进与调试,第四代微软小冰于2016 年8 月5 日发布。2016 年12 月9 日,微软(亚洲)互联网工程院宣布与腾讯达成合作,小冰进入腾讯QQ,让手机QQ 聊天功能“厘米秀”拥有智能沟通的能力,与QQ 平台上获得首批AI体验资格的用户进行智能互动。3 月14 日,合作又进一步深入,小冰可被用户邀请至QQ群聊。小冰拥有实时情感决策对话引擎,可以与群用户进行实时对话,支持语音和图像多感官交流。除聊天功能外,QQ 群聊小冰还开放了测天气、猜成语、占星术、对诗等群游戏和群管理技能。

“微软小娜”语音助手或成微软合作企业首选。2014 年7 月,微软召开Windows Phone 8.1 Update 中国区发布会,正式发布Cortana 中文版“微软小娜”。在过去几十年里,微软一直是企业软件的主要提供商。日产和大众等公司将微软技术嵌入自己生产的汽车中,如日产将微软语音助手Cortana 嵌入了下一代汽车的仪表板。同时,Harman Kardon 宣布在2017 年推出集成Cortana 语音助手的智能蓝牙音箱,与亚马逊Echo、Google Home 在智能音箱市场展开角逐。

六)Nuance:语音识别传统巨头,车载与医疗语音前景看好

Nuance 是专注语音识别底层技术巨头之一。2012 年,Nuance 从底层语音技术输出商转型为企业解决方案服务商,成立四大业务部门,包括医疗业务部、企业业务部、移动设备业务部和图像业务部。凭借多年在银行、医疗、汽车等行业的服务经验,Nuance 开始布局语音AI 领域,试图率先建立行业壁垒。

ai26_副本.jpg

图:Nuance四大业务部门

推出物联网开发平台Nuance Mix,提供智能物联网家居体验。2015 年末,Nuance推出专门针对移动和消费电子产品的开发平台Nuance Mix。Nuance Mix 可以帮助设备制造商和开发人员快速创建自定义语音和自然语言处理接口,加速包括智能家居、游戏、机器人等行业在内的发展。同时,Nuance Mix 可以作为中间件对智能手机和物联网产品实施控制,并直接与设备本身交互。2017 年1 月,在国际消费电子展上,Nuance 通过融合Nuance Mix 平台的Greenwave Systems AXON Platform、家居安全系统集成、ROOBO JellyOS 等实现了对话型智能家居系统。现场有将物联网的连接范围延伸到互联汽车中的演示。

为声龙驾驶语音平台引入对话型智能汽车助手。2012 年9 月,Nuance 发布车载自然语言语音平台Dragon Drive(声龙驾驶),使用Nuance Dragon Dictation(声龙听写)和Dragon Go 解决方案的核心技术,为用户提供无缝互联汽车体验。2016 年1 月14 日,Nuance宣布为声龙驾驶添加人工智能,推出Dragon Drive Automotive Assistant(声龙驾驶汽车助手)。汽车助手能够通过Nuance 声纹验证技术识别乘客身份,与车内的多名乘客(而不仅仅是驾驶员)进行对话。2016 年10 月18 日,公司宣布为声龙驾驶推出Contextual Reasoning Framework(情境化推理框架),利用AI 在导航、用餐、加油、兴趣点等方面提供情境化、个性化推荐。目前,声龙驾驶技术已被福特、宝马、丰田、戴姆勒等众多世界领先汽车制造商所采用。

ai27_副本.jpg

图:dragon drive 智能车载自然语言语音平台六大特点

利用深度学习提升公司核心语音识别能力,布局AI 医疗。2017 年2 月,在医疗信息与管理系统学会2017 年会议上,Nuance 公布的报告称,通过启用AI 产品,临床医生可以节省45%整理文档的时间,并可以将文档质量提高36%。在此之前,Nuance 推出Dragon Medical One 临床语音云平台,该平台在语音识别技术基础上加入了深度学习系统,有效降低了临床医生口述转化为文档的误差,减少了医护人员的行政负担。同时,Nuance 的虚拟医疗助手Florence,可以听取并理解人类言语,并为重复活动提供帮助,例如药物,实验室或成像的订单。数据统计称,医生每年使用Nuance 的临床语音识别技术产品记录近一亿病人的数据。

(七)百度:整合打造AIG,度秘应用空间广阔

百度作为BAT 中最早进军人工智能的互联网公司,已将AI 作为未来最重要的核心战略,先后成立深度学习研究院(Institute of Deep Learning,IDL)、硅谷人工智能实验室、百度北美研究中心、AI 技术平台体系(AIG)等。2010 年,百度已经开始进行智能语音技术研发,并于同年10 月推出语音搜索服务。2014 年末,在百度任职的吴恩达团队发明了“Deep Speech”语音识别系统,可以在嘈杂环境下实现将近81%的辨识准确率。该系统采用深度学习算法取代了原有模型,在递归神经网络或者模拟神经元阵列中进行训练,让语音识别系统更加简单。2015 年11 月,百度推出Deep Speech 2.0 深度语言识别技术,用于提高在嘈杂环境下语音识别的准确率。2016年,百度公布深层卷积神经网络技术Deep CNN算法模型,此模型有望成为Deep Speech 3.0核心组成部分,并率先应用到百度语音搜索中。

全力推进云计算中心与开源深度学习平台,助力“百度大脑”项目。百度拥有强大的数据获取能力和数据挖掘能力,在国内拥有十几座云计算中心,为满足人工智能在计算和存储上的高要求,已投入使用4 万兆交换机,并在探索10 万兆交换机。在此基础上,2016 年9 月,百度向外界全面展示百度人工智能成果“百度大脑”,包含语音、图像等技术,并宣布对广大开发者、创业者及传统企业开放其核心能力和底层技术。同时,百度开源Paddle-Paddle 云端托管分布式深度学习平台,对于序列输入、稀疏输入和大规模数据的模型训练支持良好,支持GPU 运算,仅需少量代码就能训练深度学习模型,大幅降低用户使用深度学习技术的成本。

2015 年9 月,百度发布声控人工智能个人助理“度秘”,在广泛索引服务信息的基础上,依托百度智能交互技术,为用户提供优质服务。2015 年12 月,度秘与华为荣耀“精灵键”深度集成,为华为手机用户提供秘书化服务。目前,度秘可以在餐饮、电影、宠物等场景提供秘书化服务,还将延伸到代驾、教育、医疗、金融等行业中。2016 年11 月22 日,百度宣布在其语音开放平台上线三周年之际,将四项技术免费开放给用户和开发者共享,包括情感合成、远场方案、唤醒二次技术和长语音方案。

ai28_副本.jpg

图:百度大脑技术服务界面功能展示

(八)腾讯:借腾讯云布局语音AI,专注ASR 和NLP

2015 年8 月,腾讯设立TICS(智能计算和搜索)实验室,专注搜索、自然语言处理、数据挖掘和人工智能等方面。2015 年11 月,成立WHAT 实验室,即微信—香港科技大学人工智能联合实验室。2016 年4 月,腾讯成立AI 实验室,基于业务整合目标研究计算机视觉、语音识别、自然语言处理和机器学习等研究领域,和内容AI、社交AI、游戏AI、工具类AI 等研究方向。

ai29_副本_副本.jpg

图:腾讯人工智能垂直领域   (资料来源:机器之心)

ai230_副本_副本.jpg

图:腾讯人工智能三大应用场景

(九)IBM、Intel、阿里巴巴等纷纷布局语音AI 领域

1、IBM:Watson 不断完善,整体表现良好

公司主打产品Watson不断完善更新,应用领域进一步扩大。IBM 自2006 年开始研发Watson,并在《危险地带》智力抢答游戏中一战成名。在后期Watson 逐步转型为认知商业计算平台,并应用于医疗、金融等领域。2014 年1月,IBM宣布组建“ WatsonGroup”,旨在进一步开发、商用及增强Watson 及其他认知技术。2016 年3 月,IBM与科大讯飞正式建立战略合作,致力于在认知计算算法、云平台架构等层面合作。2017年3 月,IBM宣布在语音识别领域取得重大进展:Watson 的语音识别系统错词率降至5.5%。

2、Intel:携手科大讯飞,精研语音AI 芯片

2016 年10月,Intel 与科大讯飞宣布合作共同研发AI 芯片,该芯片将麦克风阵列、远场语音识别等功能集成到SoC 当中,形成完整的远场语音交互链条,面对来自国内初创公司技术的压力,此举进一步增强科大讯飞在麦克风阵列技术和方案方面实力,摆脱国内合作ARM 厂商的技术限制,同时自身也进入智能语音交互市场提供底层硬件。

3、阿里:智能语音助力电商发展

2015 年7月,阿里发布人工智能购物助理虚拟机器人“阿里小蜜”。2015年双十一期间,蚂蚁金服95%的远程客户服务已经由大数据智能机器人完成,并同时实现了100%的自动语音识别。2016 年8 月,阿里云宣布推出人工智能系统—ET。ET基于阿里云强大的计算能力,正在向多个领域不断进化,目前已具备智能语音交互、图像/视频识别、交通预测、情感分析等技能。

Copyright © 2019 远博志城 版权所有   All rights reserved.备案号:沪ICP备17029468号-2