中国工程院院士邬贺铨 中国互联网协会理事长、中国工程院邬贺铨院士演讲

2017-05-09
字体:
浏览:
文章简介:[移动Labs]2014年8月27日,中国信息协会大数据分会成立暨第一届中国大数据产业发展大会在唐拉雅秀酒店召开,大会为落实党的十八大关于促进"新四化"同步发展的有关精神,联合国内政产学研各界共同把握全球大数据发展的有利时机和战略资源,促进我国大数据产业的发展,经国家发展和改革委员会有关部门同意,中国信息协会组建了"中国信息协会大数据分会".以下为中国互联网协会理事长.中国工程院邬贺铨院士演讲.以下为演讲速记:邬贺铨:尊敬的中国信息协会的各位领导.各位来宾,早上好,

【移动Labs】2014年8月27日,中国信息协会大数据分会成立暨第一届中国大数据产业发展大会在唐拉雅秀酒店召开,大会为落实党的十八大关于促进“新四化”同步发展的有关精神,联合国内政产学研各界共同把握全球大数据发展的有利时机和战略资源,促进我国大数据产业的发展,经国家发展和改革委员会有关部门同意,中国信息协会组建了“中国信息协会大数据分会”。以下为中国互联网协会理事长、中国工程院邬贺铨院士演讲。

以下为演讲速记:

邬贺铨:尊敬的中国信息协会的各位领导、各位来宾,早上好,很高兴在这个地方跟大家就大数据的产业机会与挑战说一下看法。先说一下大数据设施产业,数据挖掘的过程有数据获取、存储、计算、传送与分、挖掘、呈现、安全等很多环节。

把社会层面、物理层面、网络层面,选择数据之后去掉一些重复的可以说是资料不那么好,有一些差错的数据进行抽取。还可能进行一些格式变换处理,分类一些单元之后,还要进行会合,数据挖掘涉及到很多环节。

我们首先需要大数据的平台,这个平台在搜集存储的数据,对于大数据来讲他的特点是很难说什么时候起点,什么时候是终点。可能我们往往需要在数据分析的时候我们如果传统的数据分析,数据是静止,我们可以带数据进程序。

对大数据来讲数据是活,我们需要带程序进数据。大数据分析需要宽带网络,需要有云计算平台。宽带基础设施作为大数据产业最基础,我们的宽带光纤通信系统从FDM系统到TDM、WDM、OFDM、ASON,除了光纤通信我们无线通信宽带化也在进行,第一代的TDMA,到3G的CDMA,现在4G是OFDMA。

每一代通信峰值速率不断提高,2G可能是200K,3G可能2兆,4G可能有100兆。现在4G刚刚启动,国际联盟启动5G的标准研究。

除了宽带之外计算能力也是大数据需求,50年代大型计算机,60年代小型计算机,80年代个人计算机,90年代笔记本电脑,2010年智能终端。1946年第一台计算机,1975年美国航天中心买了一台计算机,能力相当于iPhone4。

后来更新了他的能力,相当于现在的iPad2。97年1G闪存需要价格7992,现在价格25美分。为我们大数据挖掘提供很多机会。80年代我们谈数据库,90年代谈IDC,00年代谈云计算,10年代云服务,20年代谈数据服务。

他提供第三方服务,帮助企业可以存放服务器、存储器,提供一些网络,这是存储数据用的。仅仅是提供存储空间,跟数字房地产差不多。这些做云计算服务供应商往往继续上面做平台即服务。

提供中间件、JAVA,中间件,使存储数据公司开发所需要的软件。对大多数中小企业而言,你提供他的工具,他也不会开发软件,云服务提供商直接提供一些软件,客户关系管理,不但存数据到云计算服务,可以利用它的软件为我们提供服务。

工具、软件是他租给你的,实际上不能完全说数据服务。更进一步理解云计算将来要提供数据服务。数据并不是我放进来,是你去搜集,你可以提供出来给第三方为他的企业服务。云计算也是大数据应用的基础。

大数据里头离不开软件,软件现在越来越复杂,可以看到早年的软件代码只有4000行,现在空客飞机软件有10亿行,日本高铁列控软件数百万行等等,软件规模越来越复杂。现在有一个群治软件,很多应用软件都是草根,未来大数据一些分析可能会这样,政府开放一些大数据,网民利用政府开放的数据,开放很多挖掘这些数据的工具软件,作为软件来讲越来越复杂。

面向模块、面向数据,面向事件,面向用户,面向对象设计,面向认证设计。构建化、语义化、职能化、服务化发展。

数据的处理与语义分析,一个小企业做不到一个员工一台计算机,一个员工岗位很重要,他给老板发个短信,我申请一台独立电脑,结果后台计算机一扫描,台独,实际上这是没有人的知识,他没有区别整个语义来。

对于文字来讲,语义理解也是有一定难度,难度更大是图片,照片这些理解就更难了。能不能我们后台一个具有人的感情,区别这些东西,图片区别挑战很大。谷歌公司跟斯坦福合作,让我们计算机来识别猫,实际上发现对猫的识别已经做的很不错。

大概看了十天,学习了十天,现在从2万张没有见过的照片里头,找到猫了,准确率达到15.8%。这是数据处理和语义分析,我们希望做到的一种。另外需要信息融合与信息抽取,左边图是罗马一些照片,一些遗址拍下来孤立,希望后台软件把它合成是完整的古罗马的景象,需要信息融合的技术。

这也是大数据里面需要使用的技术。除此之外我们还有一些信息抽取,这张图深有几个人在走,也许我关心是其中穿黑衣服的人,我们需要把其他的数据,其他人都屏蔽掉,突出我关注的人物,也是大数据挖掘里头用到的信息抽取的技术。

他用英文讲话,实时翻译成中文,他说我在用英文讲话,希望你们听到我讲的中文。这是用了我们很多积累上百万网页素材和大数据及深度神经网络技术。通过实时来转换,像互联网已经打破了人们时空障碍,把大数据技术在运用上去,消除人们之间语言障碍,各种文字语言,各种语言数据都可以有统一归纳。微软最近准备把这个技术用到他的手机上面,手机装26种语言的翻译,你按一个英文键,他讲英文,你听中文,26种语言,学外语没太多用了。

当然还有虚拟化,我们要把最后的结果,这里面是TelAviv的交通图,早上车多,中午车少,下午车又多了,不像北京能看到路上交通显示台,他这个是实时把所有的马路上所有摄象头拍下来,弄一个图上来。

这上面讲的涉及大数据处理所需要用到一些产品,大数据设施产品,Hadoop软硬件服务,NoSQL数据库软件和硬件及服务,下一代数据仓库、分析数据库软件与有关的硬件及服务。应用到大数据流处理的数据库的DRAM和Flash存储器。还有大数据应用开发平台工具,事务智能处理与可视化的平台工具,还有平台即服务,软件即服务以及大数据培训。大数据产业从设施来讲涉及这么多产品,目前列举提供这些硬件、软件、服务目前国际上一些供应商,这里没找到国产。也许国外公司没有把这个收集进去。

整个大数据设施产业链非常宽,传统通信产业链设施提供商、运营商、设备提供商、端用户。大数据介入很多,有ICP、数据提供方、数据分析方,应用平台与开发者、移动门户、支付提供商,产业链很长,往往会把管道运营商分流、旁路。整个全球移动产业收入里面可以看到,传统移动靠话音收入,现在话音收入未来2017年用的很少。增加的是移动数据收入,OTT收入,OTT里头很大部分是大数据挖掘一些收入。大数据市场,从大数据设施市场,分成三大部分,第一部分是硬件,计算、存储、网络,第二部分是软件,包括设施软件,我们的关系数据库软件,非关系数据库软件还有应用分析软件,后面是设施服务,有专业服务和云平台。你可以看到这里边差不多1/3左右,硬件占30%多,软件占22%,服务占40%。这是大数据设施产业全球的状况,大概到2017年会到500亿美元。

刚才说到是狭义大数据产业,下面说说广义大数据产业,狭义大数据产业刚才说的包括硬件、软件和大数据一些服务,广义大数据产业比他更宽,里面包括利用大数据分析服务和传统产业,利用大数据分析传统服务行业,使他们增值。广义大数据产业是百倍于大数据设施产业规模,大数据本身服务属性远远大于大数据软硬件的制造业,对其他产业影响也大于对新兴产业影响。社会效益是大于直接经济效益。大数据影响之大和受到广泛重视也正是因为他其溢出效应明显。

首先大数据在制造业应用,奉天公司利用大数据分析在样车之前避免80%缺陷。美国雷神公司做导弹,导弹制造里头必须做到准确,工厂保留每个导弹数据,配件操作以及温度、湿度,发生什么情况,他知道温度、湿度是什么,操作人是谁,找出出问题的规律是什么。

他认为导弹里面拧螺丝钉13次拧住,但是拧了12次,他要花很多钱才找出哪个少拧了一次,他把这些数据都记录起来。我们西安陕西鼓风机动力集团,原来卖给钢铁企业、化工企业,一旦鼓风机出问题,整个流程工业就要中断,损失很大。

过去很难保证,现在每个出厂产品都加了监测传感器,可以联网,可以知道大概什么时候出问题,提前实现检修。过去他是卖产品,现在额外增加了服务收入,服务收入占总体1/3。

这是飞机,马航370失联快一个月了,他的引擎不断收集数据,装了20个传感器在搜集,分析引擎问题,飞机落地的时候进行维修。GE公司说他这个可以预防维修,可以节省燃油效率。马航关了通信之后,发现它的引擎每隔一小时通过卫星传输数据回到发动机公司,发了7个小时,推动马航失联飞了7个小时。这次马航出事之后,发动机数据不要1小时送一次,一刻钟送一次,传输数据量以后还会更大。

另外基于大数据可以研发材料,我们国家要建立一个重大专项,研究发动机,这个蓝色是发动机叶片,转速很高,温度很高,一般传统的方法来选择叶片合金,配方,试一次可能不行,成功率不是很高。我们就用炒菜方式,美国人认为要改变思路,要用别的方式来实验。

他要通过大数据建立材料设计数据库,建立材料从成分、源自排列,相、显微组织、材料性能,环境参数,使用寿命等之间的关系,其目标是把发现、开发、生产和应用先进材料的速度提高一倍。

经过大数据分析,通过加工,使材料具有一些奇异性能。这个人身上穿的雨衣是特殊的材料。你可以看到这个人是透明的,这种材料可以用在通信、雷达等等。这是没有大数据分析之前过去很难做得到的,我们说风电,我们国家风电发展很快,全国40%多的风没有入网,相当两个三峡电量,IBM通过对历史数据分析帮助一个风场200米×200米的小尺度,现在做一个小尺度的,预测72小时的风力,明天后天的风怎么样,及时做到预均衡的准备。

风电引擎装了很多传感器,实时监控数据。可以延长风机寿命三年,风机成本下降17%。

大数据在电信服务业很有用处,中国移动要建立这个专线要花一个星期,不能很准确掌握每个散的网络资源,现在建立整个全国网络资源数据库,很快识别什么地方有电路可以调配。他管掉路由器上每一个端口。中国移动建立微营销大数据分析系统,可以做到个性营销,可信的流量查询,个性化业务推荐,创新的套餐余量置换等等。中国电信通过感知优化流量使得网络畅通,通过分析用户偏好进行精准营销,改善用户服务质量。借助大数据技术分析中小企业用户通讯行为,降低金融及机构融资过程中因征信不完善导致的风控成本过高的问题。现在中国移动可以给出详单,给用户消费透明度,能做到精细化的营销,同时能实时掌握每个基站的实时流量和忙闲。

在医疗卫生上面,美国提出来在医疗卫生上面通过大数据可以提高效率,提高质量,从而降低8%的支出,每年省出三千多亿美元,帮助临床诊断省出1650亿美元,医疗研发创造价值1080亿美元,其中250亿美元为节省开支。医疗定价防止医疗药品欺诈、垄断,基于疗效定价计划,能产生470亿美元的价值,其中一半是国家医疗保健开支的节省。医疗商业模式,分析患者临床记录和医疗保险数据集、通过社交网络获得临床效果统计,可节省50亿。公共健康会产生90亿美元的价值。

总之大数据在产业的效果是很好,麦肯锡公司估计利用大数据的公司其劳动生产率和利润将比其没有使用大数据的竞争者高出5%-6%。产业大数据用于设备的长期维护,可提升设备效率10-25%。根据微软委托IDC进行的一项最新研究,制造业在未来4年内从数据获得价值将达到3000多亿美元。大数据的产品2012年是230亿美元,2020年大数据产生的产值是5140亿美元,创造价值是12790亿美元,累计2020年大数据创造价值1.7万亿美元。

什么部门数据最高?一是制造业,二是政府,政府数据很多没有开放,实际上政府数据很多是可以开放。麦肯锡预测如果政府数据开放,每年能给全球带来32200-53900亿美元的经济增长。大数据现在还是很大的挑战,往往大数据首先我们需要三元空间的数据,物理空间、社会空间、信息空间。中国人口居世界首位,2010年中国新存的数据是日本60%和北美70%,我们并不太注重数据收集和存储。中国政府也掌握很多数据,美国政府已经开放8万多数据集,100多个移动应用,400多个API。美国政府开放数据不是全球最好,全后最好是英国,英国评分是90多分,中国是英国政府分数的一半。

我们国家一些部门机构拥有大数据,互相保密,导致不完整,重复投资。政府需要立法,建立数据所有权,我享有什么权利,我的挖掘什么样的权利。另外安全是一个大问题,现在安全不一定是网络设施的按照,我们利用大数据在产业上应用,被控制对象的安全。三个层次的安全都需要。大数据一直会用到云计算,云计算逻辑上的集中,云计算容易成为被攻击目标。云计算相当于把我的数据放到里面,管理权和所有权是分离,也会面临数据泄露和篡改风险。我们很多东西还依赖于整个进口的产品,我们很难说做到自主可控。

现在我们进入一个大数据是孤立,正好是我们云计算、移动互联网、下一代互联网、物联网等网络等等发展的一个过程,也是一个线上,他毕竟会引发产业变革。1985年我们以计算机为创新平台,05年是以互联网作为创新平台,2020年以前我们以大智云为信息平台。习主席在本科学的是化学,他对信息技术还是非常的看的很深刻。

最后信息技术和应用发展进入大智云时代,大数据是这个时代总特征,是创新平台和信息产业增长集。大数据形成两化融合的抓手,大数据会诞生大产业,大数据对中国是机遇也是挑战,需要创新驱动发展大数据产业。谢谢大家。