郭炜大数据 联想研究院大数据总监郭炜:互联网 下的大数据技术探索

2018-03-16
字体:
浏览:
文章简介:联想研究院大数据总监郭炜:互联网 下的大数据技术探索首席数据官 CDO 联想研究院 大数据 郭炜 互联网 大数据技术 IoT,DT,BI,数

联想研究院大数据总监郭炜:互联网 下的大数据技术探索

首席数据官 CDO 联想研究院 大数据 郭炜 互联网 大数据技术 IoT,DT,BI,数据挖掘,数据安全

观点

2015年9月10日,首席数据官联盟成立仪式暨第一届首席数据官大会在北大召开,本次大会邀请到联想研究院大数据总监郭炜发表以互联网 下的大数据技术探索为题的演讲。

以下是演讲实录:

我跟大家分享的题目是互联网 下的大数据技术探索。大约10多年前,也是这个教室,我在台下听老师跟我讲什么是数据仓库,什么是数据挖掘,可能是在2000年左右的时候。那个时候,正好是数据时代的第一个时代,我叫做ERP/CRM时代。

那时候所有的数据都是内部系统,比如说CRM这些系统,那时候做数据的时候叫数据仓库,通过各种技术手段汇总到中央平台上,然后做决策支持系统,在那个时代互联网星期了,大家知道百度、京东、淘宝、亚马逊,开始收集大量人家点击的数据,这个是Web2.

0时代,主要做精准推荐,包括百度的小广告等等这些。这个时候大数据开始出来了,大家开始对大数据的技术有了更多的认识。到现在这个时候,其实从我的观点来看,我们已经进入了第三个时代,我叫O2O和IoT时代,现在很多智能设备兴起了,无论是手环,还是商场的智能WIFI,或者语音,个人画像,各种互联网的信息,这些信息爆发出来,相关的深度学习等等这些算法也成熟了。

这些数据的接入,由过去大家在网上点击,大家在线下的行为轨迹,这个时代已经和过去完全不同了。我们看到最终给大家提供什么样的服务,过去只是做推荐,推荐广告。现在推荐的时候,都是此时此刻此地,现在这个位置应该看到什么东西做推荐,现在这个技术已经达到了,所以现在这个时代已经进入了DT时代。

我跟一个老师聊天分享这个观点的时候,下一个时代应该是拟人时代。一个数据多了以后,大数据对人越来越了解,智能的算法越来越先进。前天我去百度,把大数据和人工智能放在一起,未来大数据一定会向拟人化方向发展。现在我看到的趋势,一个是我们叫做两层架构的技术的趋势,大家知道IBM发动了神经网络的芯片,在过去的时候,大数据到云端,用各种算法,通过算法进行精准推荐。

现在所有的计算,就在云端,马上计算出来给你做推荐。

百度科学家徐磊说,未来的时代是抢数据。做大数据最难的不是说数据量非常多的时候怎么处理,而是说现在刚刚起步的时候,数据量非常小,让你做一个准确的判断,这个判断在目前大数据的算法是没有做到的。在未来,一定有一些算法能够基于小数据,可以给大家做出跟大数据一样的事。

这个图在很多场合都跟大家分享过,这就是刚才我提到的人其实在线上通过所有的智能设备,无论是智能WIFI等,可以把你的线下的行为告诉我,把你的画像非常清晰的画出来。

第二个观点就是未来的大数据时代是属于内存计算的时代。我知道大家现在所有的这些数据专家,提到大数据都会谈到Hadoop。Hadoop社区参与程度趋于稳定,Hadoop新的功能也没有增加。2010年的IT厂商开始订购,2013年的时候,无论是联想、华为都开始发布大数据的产品。

这时候意味着什么?因为大的厂商有很多智能在外面,做了统计分析以后,发现这个技术已经成熟了,不像刚刚发展的时候有危险,所以才推广相应的产品,现在Hadoop已经进入了非常成熟的时代,为什么我说未来是内存时代?

不知道大家有没有关注内存的发展?未来1个T的内存就会发布。flash近几年来得到了成熟的发展,4个T的内存放在服务器上。这个时候我们发现Hadoop过去的性能的处理,HDFS各种架构,可能制约在高并发情况下大数据的算法。现在Spark已经进入成熟高速发展期。未来的时代应该不再是HDFS的时代,HDFS慢慢退化成真正存数据的地方,真正的大数据计算会进入到内存计算时代。

第三个观点就是大数据云计算,这两个东西是紧密不可分的。 为什么?因为一开始的时候,大家都说做大数据,过去都是企业内部把数据放在一个平台上。现在互联网出现了,所有的数据不是在企业内网,而是通过互联网把相关的数据传到数据中心。这个中心可以在企业内,也可以在企业外,有很多不是很好的企业,没有必要自己建大数据。这些非结构化数据可以放到云端。

第二个是挖掘服务。在物联网时代,每次点击都会形成一个日志,现在互联网每5秒就会触发一个系统,或者就会有一个信号,这个数据是以十倍百倍过去的数据,如果没有挖掘服务,你的数据成爆发式增长,那时候这些数据不是大数据,而是垃圾数据。挖掘技术并不是每一个企业都有这样的能力能很好的处理这样的数据。通过专业人才把这些数据处理好,除了传感器技术,迅速可以让你去理解,可以让你去处理大数据。

第三个是开源平台,无论是Hadoop,还是Spark,这些人都专业的人去做,不是所有的人都要做这样的工作。如果大家在云上用Hadoop,它的效率至少是两倍以上的减少。借助CDO联盟大会,我呼吁一下大家,目前在Hadoop,Spark在底层,目前这是世界范围的难题,大家可以在这方面解决一些问题,然后让大家用大数据像用自来水管一样。

像联想等这样的企业也会遇到这样的问题。亚马逊做大数据服务的时候,也不是把HDFS放在云端进行处理。大家有识之士可以在开源平台进行深入。

第四个是大数据联盟。过去的时候,企业的数据是数据孤岛,现在发展到现在,企业自己已经把这个孤岛打通了。两个企业在数据上进行融合,怎么融合?一定不是在企业自己的平台上进行融合,一定是第三方平台上,云计算和大数据一定会融合。

为什么是大数据,云计算另外一个核心技术就是压缩加密的技术。未来数据都直接传到互联网没有压缩和加密安全性很差,还有可能被盗。大家都发现,在新的时代下,所有的互联网上每一个网页的关点可以知道这句话是什么内容,在这种情况下,所有的企业都可以到网上爬自己相关的信息。我们希望做一个云平台,有几个大的云平台,把所有的互联网运行在上面,给大家做云服务。

第四个观点,大家说所有的大数据应该有一个出口。这个出口就是智能硬件。当你应用某一些具体事物的时候,事物在旁边会给你一些提示。我看到百度的一个小工具,就像一个耳机,把这个东西插在耳朵里面,有一个摄像头,然后可以很快识别出,这个人是熟人,还是什么人,可以识别男女。

过去的时候,大家在线下做交互,去商店买东西,进去商店,服务员说先生你好,看客单价,然后给你推荐这个,推荐那个。看你自己的偏好,等你进了试衣件,跟你说,你试试这个,试试那个,他在给你做推荐。

现在技术挖掘可以做到,有这样的智能硬件的设备,先生您又来了,上次的牛仔裤怎么样,这次有类似的牛仔裤,你可以试一下。智能硬件调用了过去的数据,将大数据平台给你的推荐,经过人脑处理再推荐给你。大家都逛过商场,比如说你去新光天地,你到那里以后,销售人员通过大数据,智能硬件,每一个销售成为高智能的销售,这就是未来智能硬件的出口。

现在联想去网上了解自己所有的3C产品。比如说产品设计,可以看到电脑的优缺点,性价比比较高,软件有什么问题,显示不太好。看到这些问题的时候,这些东西是可以从网通过爬虫爬出来的,然后通过观点提取,直接做出来。

通过所有这些爬的这些产品的一些东西,不仅是联想,我们还爬到了这个网上很多东西,还可以看到竞争对手的产品大家是怎么评论的,哪些是我们自己做的比较好的,哪些是我们竞争对手做的比较好的。联想也在推营销系统。

联想里面有好多电脑,大家现在去看电脑的时候,这个电脑跟过去不一样了。大家看到的是推的广告,云端一个系统直接推过来。你看电脑的时候,它也在看你。通过人脸识别判断你的年龄特征,然后反馈说,哪个类型的电脑你比较感兴趣。你会看到这个区域摄像头,物品的摆放是有设计的,然后做产品的调整,这都是线下门店做数据获取和数据分析的过程。过去大家买东西都从线下买,现在都是扫一个二维码,在线上去买产品。

购买的时候,消费者画像,无论是网上点击,还是实体店选择都会画出来,究竟是什么样的客户对你这个产品比较感兴趣。产品使用的时候也会用到互联网技术,怎么分析用户的使用跟大家分享。服务的时候,过去有很多用户报表,包括网上的报表,究竟怎么反馈给用户,会提取出来。最重大的问题怎么处理。最后我们有一些业务创新,比如说未来收入怎么样,还有其他的用户分析,还有推荐,这些都是以用户为中心做转型的过程。

这就是关于所有摩托手机的用户画像的分类。分了6类,有的人非常喜欢,有的人买电话就是当电话打,有的人喜欢上网发邮件,有的人专门玩微信等进行社交交流等。根据不同的用户怎么调整功能,这些在用户使用当中,再反馈到用户产品里面。

这是我对未来大数据平台趋势的判断。第一大家像使用自来水一样的使用大数据。第二通用性,这个东西不能看上去是非常高深的东西,一定要复用长期培养的BI人才与技术储备。第三是高效性,性能高效与维护高效并存。第四开放性,充分利用社区力量。有一些东西做好以后再反馈到开放平台,这样才能让大数据相关的平台接近用户的反馈。第五扩展性。

CDO究竟是什么?

CDO名字叫首席数据官,我们理解不仅仅是首席数据官,首先是首席数据布道官,把大数据应用在企业高管里面不断宣传,把它融合到业务里面,才能把大数据事情真正弄起来。第二个他得是首席数据架构师,判断数据技术的时候,你得知道大概怎么把数据平台建起来,而不是直接找外包,你做好了我用你就可以了。

要做首席数据产品设计师,要了解数据产品是什么样的,要控制产品的发展。首席数据产分析官,你要把数据分析好下一个是数据安全官,最后一个是首席个人隐私保护官。

如果你拿的数据太少没有办法获得你要的数据,没有办法做很好的服务。如果你数据太多,隐私完全暴露出来,企业发展的时候可能遇到很多是非。我每次都用道形容数据的情况,现在很多说法律怎么约束大数据的发展,也很难说哪个企业应该做什么样的数据。我希望CDO将道留在自己的心里,得道多助,失道寡助。