不只是BAT,京东在谈智能仓储配送,滴滴在谈智慧交通……BAT,以及滴滴、京东这样的小巨头,手中攥着大量数据、也有直接服务消费者的场景,这意味着,AI走出实验室,变成你我可感知的产品,机会正越来越大。你熟知的那些互联网公司,会变得更“今日头条”和“快手”。
资本对AI疯狂,投资人已经对动辄估值过亿美金的早期项目见怪不怪。“我们是一家技术公司”,成了创业圈里风靡的说法。炒作AI概念的创业泡沫越吹越大。
一方面,资本的热度沿着产业链蔓延,为训练机器模型提供数据的“卖水人”,向企业和政府提供技术服务的公司,收割了第一桶金。智能音箱这类to C的硬件产品也因为人们的好奇心,初步撬开了市场。
但另一方面,落地体验问题依旧悬而未决。2018年,服务企业的AI技术类公司的核心任务是找到适合的场景活下来,深入到各个垂直行业中,做到“+AI”而非“AI+”。而to C的厂商,则需要找到真正刚需的产品,提升用户体验,毕竟用户的新奇感不足以让他们长期为不够聪明的智能产品买单。
但无论如何,AI技术都正在成为新商业的基础设施,成为新的“互联网+”。
关于接下来会发生什么,我们采访了创新工场创始人李开复、松禾远望基金创始人、迅雷创始人程浩、Face++(旷视科技)品牌与市场中心总经理谢忆楠,和科大讯飞消费者事业群首席战略官战文宇。对于2018年AI行业的发展趋势,我们有如下几个判断:
1 巨头逼近,站队开始
谁会在AI领域变得越来越强势、越来越有话语权?
答案是:掌握数据的公司。原因很简单,技术和算法上要产生差异很难,但大数据是独特的、稀缺的、有壁垒的。
BAT三家中,做搜索出身的百度,着力点是发展底层技术,而阿里和腾讯则不同,紧贴自家业务而行。以腾讯的组织架构为例,AI技术部门分散在微信等各个事业群里。过去十年,阿里和腾讯建立起涵盖零售、文娱、内容、广告、游戏等多板块的生态帝国。当用AI技术升级商业的时机带来,它们在整合技术和资源上就有很大优势。
一批主营业务看上去不是技术驱动型的独角兽也在布局AI。外卖战场的死对头美团和饿了么,都开始研发无人配送,希望未来无人配送规模化后能替代人工,节约成本。一种说法是,饿了么之所以收购百度外卖的一层原因,也是看上了百度外卖的技术。
围绕巨头的站队开始了。同时,BAT还在通过财务投资的方式,巩固自己的竞争壁垒。阿里投资了包括寒纪武、深鉴科技在内5家AI芯片公司,成为商汤科技和旷视科技两家计算机视觉巨头背后的股东。百度计划2018年投资10家以上AI创业公司。
互联网巨头的普遍做法,是以相对轻巧的模式推广自己的平台技术和生态,而不是事事亲力亲为。以智能家居为例,阿里和百度之所以亲自做智能音箱这个品类的硬件,目的是先做出搭载自己技术的标杆性产品,拿着产品去说服硬件厂商加入自己的生态,证明自己的技术实力,也容易得多。它们并不会把自己做成小米,更多硬件品类还是会输入技术,让生态合作伙伴来做。
对于创业公司而言,生存机会存在于垂直的细分场景,跟巨头在通用领域PzaK,几乎是死路一条。就算对于巨头而言,深入垂直行业也不是件容易事,特别是医疗这类专业性高、体系和数据相对封闭的领域。
就场景而言,金融、安防、教育、服务机器人、新零售和无人驾驶,被看作2018年最有落地机会的细分行业。
2 能“看懂”比能“听懂”更有钱赚
去年年底,国内大四计算机视觉独角兽中的两家先后破世界纪录拿到巨额融资:7月11日商汤科技拿下4.1亿美金B轮融资;10月,旷视科技宣布拿下4.6亿美金C轮融资。语音公司的风头,在这一年的下半年迅速被计算机视觉公司盖过。
原因在于,现阶段,视觉技术或许比语音技术的落地空间更大。因为让机器理解人类的自然语言处理技术尚不成熟,这极大地限制了语音技术的落地空间。
相比之下,图像识别技术已经可以解决很多实际场景中的问题。包括目前热度最高的场景安防、金融,以及无人驾驶。
这意味着什么?
你有没有觉得,身边的摄像头变多了?这种感觉没错。以安防为例,每年政府都有巨大的维稳投入,2016年中国安防市场的规模就已经超过5000亿元。有数据显示,以北京市为例,每千人拥有的监控摄像头数量是59个。反恐、刑侦、情报都对AI技术有所需求。
消费者们还能感受到,从几年前支付宝就开通刷脸支付,但去年iPhone X搭载了刷脸识别的Face ID,刷脸已经真正走入生活。包括小米、OPPO在内的国内手机厂商,也都在推广刷脸解锁,大有全面替代指纹解锁的趋势。
可以畅想,能“刷脸”的无人货架、无人便利店、打卡机等等都可能相继出现。一轮硬件升级正蓄势待发。
3 语音识别会死磕垂直行业,提供定制服务
2017年,AI语音技术大举进入生活场景,而今年这种势头将继续蔓延。
如今,智能硬件、金融、制造业、教育、翻译等行业,已经对人工智能表现出前所未有的尝试意愿。而作为AI领域里最早成熟的技术,语音识别就成了落地的首选。
最值得关注的是老牌语音公司科大讯飞,和以免费开放语音接口策略扩大市场的百度。它们试图通过输出AI技术,建立围绕自己的生态,和一套行业标准,从而建立竞争壁垒。
经过一年的试水,大家形成了一点共识——必须深入垂直行业,单纯做泛平台,随时有被替代掉的危险。以智能家居行业为例,科大讯飞这类技术服务商的活儿越做越深,开始做全栈,从芯片、麦克风阵列、软硬结合的解决方案甚至到直接提供内容和服务。谁能让合作伙伴更方便和顺利的接入AI技术,做出体验合格的产品,谁就更有胜算。
越来越多的技术服务商开始投入资源,提供定制化服务。仅科大讯飞消费者BG,就有接近500名研发人员,专门跟合作厂商对接做前端定制、以及后续运维等服务。
Siri这类大公司都在做的通用型的AI语言助手,要达到人们对智能的预期还有很长的一段路要走,但今年语音技术在产品化上也有能突破的空间。拿智能音箱来举例,从目前的体验来看,唤醒的成功率、远场识别的精准度、降噪水平、跟人类持续多轮对话的能力,以及机器说话的语调跟人类的相似程度,以及我们能在音箱上使用的技能的丰富程度,都有待提升。而这些方面,在未来一年很有可能看到成果。
记者采访了创新工场创始人李开复、松禾远望基金创始人、迅雷创始人程浩、Face++(旷视科技)品牌与市场中心总经理谢忆楠和科大讯飞消费者事业群首席战略官战文宇,以下为他们的观点呈现:
创新工场创始人李开复:
普华永道做过一个关于未来AI能带来的价值的最保守的预测:人工智能在2030年将带来中国GDP20%左右。我们认为人工智能有4波浪潮,它们同时发生,没有先后的顺序,但是都会带来巨大的商机。分别是互联网AI;商业AI化;实体世界感知AI化;全自动AI化;
互联网AI化。我们每天都在为BAT贡献数据,而且做免费的标注、捕捉,每次我们在百度、在腾讯、在朋友圈打开一篇文章,更重要在淘宝购买一个货都被捕捉起来,可能这样一个人会看到这个、点这个,以后我们看类似这个人会推类似的东西。我们发现5年前到今天,淘宝广告越来越精准,是因为它越来越了解你,今日头条是不是越来越推送你想点的文章,这都是AI在后面做的工作。
这个领域创业很难创业,创业做新的APP出来,靠这个流量做,几乎不是AI公司、要做流量。但是已有的流量公司转AI很容易的,看今日头条、快手。
商业AI化,指的是让AI用已有数据创造商业价值。最好的领域是金融,金融是人类的虚拟游戏,我们有大量的数据都不是真的东西,比如说股票、存款、利息,本身就是一个数字,数字收集起来标注很简单,股票一年之后不是涨就是跌了,贷款不是还了就是没有还,所以只要我们能累计一段时间数据,你往一年前、半年前、一个月前推算,都在标注你一切的过去,对发生意外的人,可能要收更多的保费,贷款如果你没有还就少借给你。
医疗是很应该做的,计算机视觉用在影像医学、用在病例、发射科最合适。但因为医疗的数据不足、医院不愿意分享、用户隐私这些世界性的问题,医疗并没有像金融那么容易推动。
实体世界感知AI化”是OMO,把没有数据变成有,然后产生价值,比如安防、购物中心铺的摄像头,就把真实的世界捕捉起来,用这个产生有价值的应用。可以想象真实生活中,你进入大润发,可能被阿里的摄像头捕捉下来,跟你在淘宝(的数据)做一个混合,所以线上线下无论是供应链、进货、还有客服人员对你的沟通,知道你是什么样的人,都有非常好的认知,线上线下的数据可以结合在一起。
我们的轨迹就捕捉下来,可以用在未来的预测上。
全自动AI化,不仅仅采集数据,这个AI就要动起来,就像科幻片的机器人、无人驾驶,我们不认为这个机器人有感情、控制欲望,但是能动、能触摸、能拿起来东西。
自动驾驶可能成为下一段的操作系统,之前有两个操作系统,Windows和安卓,第三个可能是自动驾驶。因为这个自动驾驶把多视觉、功能融合在一起,各种应用都可以在这个舞台识别出来。同样的原理机器人也可以动了,所以我们看到这么一个机会,可以让不同的传感器、控制系统都可以用起来。
智能驾驶发生之后,机器人的问题就随之而解了。现在很多人做的重复性流水线的工作会率先被机器取代,创造价值,省钱。
我认为AI会先在工业应用、商业应用里产生价值,解决老板的痛点,最后才是家里面。我们并不认可家里面有一堆机器人跑来跑去,因为如果它不能像人一样,人就会失望了。可能小鱼在家这类教育机器人会有一定的空间,但是家庭场景还是会最后被涉猎。
松禾远望基金创始人、迅雷创始人程浩:
去年国内AI公司的估值攀升迅速,有些早期项目一上来估值就1亿美金。很多人说这个领域的估值泡沫严重,不过我觉得短期内看不出估值下降的趋势,因为市场上钱还很多,头部企业的持续融资还很受追捧。
计算机视觉领域创业公司估值去年破了几次世界纪录。因为视觉相对于语音的应用范围更广。语音识别如果不和自然语言处理相结合,其实落地场景是很窄的,而自然语言处理的技术进步还需要比较长的时间。
在计算机视觉涉及的诸多落地场景中,2017年AI+安防特别火,根本原因是计算机视觉技术有长足进步。安防的单子都比较大,很多都在千万元量级。中国每年这块的预算非常大。当然这个领域规模效应不明显,和To C业务不一样。To C业务是赢者通吃,有很明显的网络效应,每个赛道只有前两名能存活。但做to B业务的安防不然,行业前3-4名也许也能活的不错。
因为安防创业的难点在于政府关系驱动,公司要每块地方政府逐一去敲定。所以尽管安防的玩家很多,但现市场还没有饱和。
这个领域中诞生了商汤科技、旷世科技这些独角兽,不过它们的竞争对手并不是对方,而是海康威视这类传统安防企业。大家起步点不同,海康威视也在补算法能力,未来竞争会比较激烈。
今年,我认为新零售、工业智能化都会是计算机视觉领域增长比较快的落地场景。新零售其实已经很火了,智能无人柜的场景就很实用,类似Amazon Go的无人便利店也有价值,只是落地周期要长一些。除此以外,作为早期投资人,现在我很看好服务机器人的项目(to B产品)。中国人力成本越来越高,很多服务行业都在用机器替代人力。服务机器人的价值主要是大幅度提高效率,以及大幅度降低成本。
一个新技术的发展,从商业化的角度一般都是先经过to B,然后to B to C,最后蔓延到to C的。目前To C领域的机器人市场还比较小,有出货量的基本就是四类:扫地机器人、无人机、STEM教育机器人、以及智能音箱。
早期的人工智能项目目前有两类共性的问题:一是CEO以前一直做技术,从来没有完整的负责过一个业务,商业思维还有所欠缺。另外一类就是有技术但是对行业不熟悉,因为现在AI的应用大多数还是行业+AI,所以行业背景是极其重要的。
Face++品牌与市场中心总经理谢忆楠:
今年和明年这两年,计算机视觉领域一个很明显的趋势是大家都会去选好赛道,没有明确落地场景的公司、不专注的只是泛泛提供平台技术的公司会很难存活。因为单纯做平台化的技术服务肯定会被替代掉,资本市场不认可不能落地的东西。所以今年大家无论在技术、设备、产品上的投入都要打出自己的全力,会投入很大资本,这将是一场军备竞赛。
如果之前很有前瞻性地选了条好的赛道,就会好存活些,但如果选择的赛道是偏长线的、不好变现的,很可能会出现问题。比如医疗场景,在一两年内人们的接受程度不会很高,因为它不是刚需,是一种专家型服务,或者它可能变成一种数据型服务,把健康情况变成数据化的东西。但是拿AI看片子这个场景来举例,需要大量数据,一方面医院开放数据资源难,另外得找到专家标准出合格的数据给机器学习。
所以起初的成本会很高,一张片子的成本平均在三到五位数。所以AI领域先赚到钱的其实是做数据的。
AI的落地场景上,现在安防、金融、无人驾驶是最大的。能赚钱的场景大家都会一拥而上,那时候如果你只做很浅的一层,生存空间就很低。另外你找到场景后需要迅速摸清这个产业的层级,再每个层级都建立自己的产品和壁垒,这很重要。如果只做一个赋能的平台,一旦遇到以免费的手法降维打击的对手,难免自己的客户会倒向提供免费服务的厂商。
目前来看,安防市场的空间还很大,到现在大家做的都只有刑侦抓逃这一个场景,有很多场景都可以做,比如情报系统和预警系统。比如预警系统里铁警抓小偷的场景,都是通过查身份证再去辨别,但我们并不认识小偷的脸,所以不会像抓逃犯一样通过人脸识别对应的数据库里的人。那通过什么去抓?可以看今年让我见过5次以上的人,我肯定就去查你,因为这是反常的。超过5次就会纳入灰色名单,再由铁警去查是否正常。
再说情报系统,原先我们只认识逃犯,但逃犯的同伴、逃犯的车辆等线索之间的联系我们并不知道,现在可以把跟逃犯相关的人、物、景全部联系起来,做简单情报的逻辑推理,这些事情以往是侦探做的,现在用机器也可以做。
包括安防在内,现在我们的几个核心的落地场景还有金融、地产、零售和手机。
去年Face++拿到4.6亿美元融资,这笔钱我们主要花在拓展落地场景、深入行业上。技术和场景互相解锁,做技术的话,一定要找场景,场景会提供数据,再来解锁技术。我们会在技术和业务上加大投入,多招聘一些产品销售,AI的销售必须和产品并行,懂技术,因为现在AI没有什么是标准品。
科大讯飞消费者事业群首席战略官战文宇:
2018年哪些AI语音的落地场景会增长迅速?其实去年我们已经看到一些苗头:机器翻译会有较快增长,以及垂直领域的人机对话,特别是新零售和教育场景。
翻译行业,智能硬件翻译机今年增长会比较快。翻译不是一个特别大的市场,它的场景出境游才体现的明显,也是相对低频的市场。但是我们发现,其中对于商务、政府群体而言,翻译是刚需和高频的市场。以及少数民族语言,我们跟新疆、西藏政府合作提供翻译机。翻译机的销量还是不错的,我们有几十万台的规模。2018年硬件会做最新的迭代。
为什么说垂直类人机对话会有很快增长?从供给侧来看,技术积累更成熟了。语音的成熟分成几个阶段,先是识别,进一步到实用性的层面不仅需要识别,还需要能在理解,在后台解决一些垂直领域的交互问题。
Siri比较傻,因为它是一个开放性的对话平台,短期内都看不到前景,但如果看垂直细分场景,其实容易用数据训练出来理解和交互能力。比如翻译在旅游场景常见的问路、景点介绍。以及新零售概念下,在实体店提供服务的机器人,用户会怎么问是可以预测,从而去训练机器的,迭代速度也会比较快。
而从需求侧来看,消费升级推进了出境旅游,儿童教育和新零售都受到资本追捧。之前实体店被电商冲击的七零八落,但如今都在强调线上线下结合,数字化全链路管理,而这是需要AI新技术去支撑的。
现在AI平台服务商都开始越做越深,向全链路蔓延。其实很多产业的趋势都是分工越来越细化,形成协作,但分工协作的前提一定是这个产业切分成几个不同环节,且每个环节都有一套标准和规范,大家各做各的之后能够按照标准把不同的模块这个起来。
但如今,AI语音这个领域的规范还没有建立起来,比如硬件选型、语音交互适配、预装哪些skill等,这些是需要全盘考虑的。加之,智能硬件不像手机,平台和产品的配合是多样性的,这也决定了它的分工合作不会像手机产业那么强。
包括科大讯飞在内的一类平台厂商,我们对全链路的理解会比单纯的硬件厂商要深刻。
在这个阶段,一方面起到布道的作用,在统一标准暂时没有建立起来的情况下,把硬件适配这些事通过个性化项目支持和开放的方式去弥补。另外也是在市场中做个标杆。这是未来一两年我们要做的事情。也是为未来产业链分工协作打个基础,最终的趋势会是不同环节都有细化的厂商在做的,不是一家什么都做。
国内有些互联网厂商开放了免费的语音接口,它们的思路是更希望做能够标准化、快速迭代和复制的产品,在更多领域落地。不过就像之前说的,目前AI市场的分工协作还没有那么完善,当你用一套特别标准的流程去输出,而没有提供那么多后端支持,其实你的合作伙伴是没有办法消化那么多东西的,特别对于大厂商而言,对标准化产品节约的成本并不是很在意,因为它让合作伙伴打造它的产品更难了。所以我们对头部厂商会有定制团队服务。科大讯飞消费者BG里有接近500人都是负责研发产品后续运维的。