大家好,我是肖兆军。
2019年的第一篇文章是关于大数据的。
近年来,大数据作为热门概念频频出现,备受关注。
当大多数人第一次听到“大数据”这个词时,他们都会从字面上理解它。大数据技术是大量数据的存储技术。
但事实并非如此。
大数据比您想象的更复杂。它不仅仅是一种数据存储技术,而是一个庞大的框架体系,包括一系列与海量数据相关的提取、整合、管理、分析和解释技术。
此外,大数据是一种新的思维方式和商业模式。
图片来自网络
今天的文章,让我们花5分钟的时间来详细了解一下什么是大数据。
大数据的定义
首先,我们需要重新考虑大数据的定义。
业界对大数据有多种定义,有广义的,也有狭义的。
—— 大数据,在广义且略带哲学意义的意义上,是指将物理世界映射并改进为数字世界。通过发现数据的特征,您可以做出提高效率的决策。
狭义上是指技术工程师提供的——条大数据,是通过采集、存储、分析从大量数据中提取价值的新技术架构。
相比之下,我还是更喜欢技术上的定义(笑)。
请注意,我已将上面原句中的所有关键字加粗。
你会怎么做? —— 数据采集、数据存储和数据分析
给谁? ——大数据量
—— 价值发现的目的是什么?
捕获、存储和分析数据并不是一项新活动。我们每天都使用电脑,我们每天都这样做。
例如,考勤经理在月初获取每个员工的考勤信息,输入Excel表格,统计分析迟到和缺勤的数量,并从员工的工资中扣除。
然而,当应用于大数据时,同样的行为就不起作用了。换句话说,传统计算机或传统软件无法处理的数据被称为“大数据”。
大数据,到底有多大?
我们的传统个人计算机以GB/TB 级别处理数据。例如,目前我们的硬盘容量通常为1TB/2TB/4TB。
大家应该都熟悉TB、GB、MB、KB之间的关系。
1 KB=1024 B(KB – 千字节)
1 MB=1024 KB(MB – 兆字节)
1 GB=1024 MB(GB – 千兆字节)
1 TB=1024 GB(TB – 太字节)
大数据是什么级别?
大多数人可能从未听说过它。实际上,这意味着我们继续乘以1024。
1 PB=1024 TB(PB – 拍字节)
1 EB=1024 PB(EB – 艾字节)
光看这些人物,似乎不太直观。让我们举个例子。
1TB,仅需一个硬盘即可存储。容量约为20万张照片、20万个MP3音乐文件、671本小说和《红楼梦》本书。
普通硬盘
1PB大约需要2个机柜的存储设备。容量约为2亿张照片或2亿个MP3音乐文件。如果你不停地听这首音乐,你可以听1900年。
2 柜子
1EB大约需要2000个存储设备柜。当并排放置时,这些机柜的跨度可达1.2 公里。如果安装在机房内,机房的大小相当于21个标准篮球场。
21 篮球场
据称,阿里巴巴、百度、腾讯等互联网巨头的数据量已逼近EB级。
阿里巴巴数据中心内部图
EB 尚未达到最大值。目前全人类的数据量是ZB级别的。
1 ZB=1024 EB(ZB – 泽字节)
2011年,全球创建和复制的数据总量为1.8ZB。
到2020 年,预计全球电子设备上将存储35ZB 的数据。如果建造一个计算机实验室来存储这些数据,其面积将比42 个鸟巢体育场还要大。
不仅数据量大,而且——每年还在以50%的速度快速增长。这意味着它每两年就会翻一番。
目前大数据应用尚未达到ZB级别,主要集中在PB/EB级别。
大数据的层级定位
1 KB=1024 B(KB – 千字节)
1 MB=1024 KB(MB – 兆字节)
1 GB=1024 MB(GB – 千兆字节)
1 TB=1024 GB(TB – 太字节)
1 PB=1024 TB(PB – 拍字节)
1 EB=1024 PB(EB – 艾字节)
1 ZB=1024 EB(ZB – 泽字节)
数据的来源
为什么数据增长这么快?
也就是说,我们需要回顾人类社会数据生成的一些关键阶段。
概括地说,有三个重要阶段。
第一阶段是计算机发明之后。特别是数据库发明以来,数据管理的复杂度大大降低。每一层都开始生成数据,并将其记录在数据库中。此时的数据主要是结构化数据(稍后我们会解释什么是“结构化数据”)。数据的生成方式也是被动的。
世界上第一台通用计算机-ENIAC
第二阶段出现在互联网2.0时代。互联网2.0最重要的标志是用户生成内容。随着互联网和移动通信设备的普及,人们开始使用博客、Facebook、YouTube等社交网络,大量数据正在积极产生。
第三阶段是感知系统阶段。随着物联网的发展,世界各个角落的传感器、摄像头等各种感知层节点开始自动生成大量数据。
经过“被动、主动、自动”三个发展阶段,人类数据总量最终迅速膨胀。
大数据的4Vs
工业大数据的特点可以概括为四个V。我前面提到的海量数据就是体量。除了数量之外,还剩下三个:多样性、速度和价值。
我们来一一介绍一下。
种类
数据包括数字(价格、交易数据、重量、人数等)、文本(电子邮件、网页等)、图像、音频、视频和位置信息(纬度、经度、海拔等)。
数据分为结构化数据和非结构化数据。
顾名思义,结构化数据是指可以使用预定义的数据模型表示或存储在关系数据库中的数据。
结构化数据
比如班级每个人的年龄、超市所有商品的价格等都是结构化数据。
网络文章、电子邮件内容、图像、音频、视频等都是非结构化数据。
在互联网领域,非结构化数据占总数据量的80%以上。
大数据的特点是数据格式多样、非结构化数据比例高。
速度
大数据的另一个特点是时效性。数据生成和使用之间的时间非常短。数据正在以越来越快的速度变化和处理。例如,过去以天为单位的变化率现在以秒甚至毫秒为单位。
我们来谈谈数字:
此时此刻数据世界发生了什么?
电子邮件:已发送2.04 亿封电子邮件
谷歌:提交了200万个搜索请求
YouTube:已上传2880 分钟的视频
Facebook:695,000 条状态更新
Twitter:发送了98,000 条推文
12306:已售出1840张票
……
那个怎么样?变化很快吗?
价值(价值密度)
最后一个特征是价值密度。
大数据包含的数据量很大,但价值密度很低,只有一小部分数据真正有价值。
例如,如果您正在通过监控视频寻找犯罪分子,那么一个可能有几TB 长的视频文件是无价的,但它只有几秒钟长。
2014年美国波士顿爆炸案期间,现场收集了10TB的监控数据(包括手机信号塔的通信记录、附近商店、加油站和报摊的监控视频以及志愿者提供的图像)。嫌疑人终于找到了。
大数据的价值
当我们谈到价值密度时,我们也谈到了价值,即大数据的核心本质。
人类提出和研究大数据的主要目的是发现大数据的价值。
大数据的价值是什么?
早在1980年,著名未来学家阿尔文·托夫勒在其著作《第三次浪潮》中就宣称“数据就是财富”,并将大数据称为“第三次浪潮的华彩乐章”。
第一波:大约一万年前开始的农业阶段第二波:17 世纪末开始的工业阶段第三波:20 世纪50 年代末开始的信息化阶段。
进入21世纪以来,随着上述第二、第三阶段的发展,移动互联网的兴起、存储容量和云计算能力的大幅提升以及大数据的引入越来越受到人们的关注。
2012年,世界经济论坛表示,“数据已经成为一种新的经济资产类别,就像货币和黄金一样。”毫无疑问,这将把大数据的价值推向前所未有的水平。
大数据应用正在进入我们的生活,影响着我们的衣食住行。
滴滴对于大数据很熟悉,想必大家都听说过。
大数据之所以发展如此迅速,是因为越来越多的行业和企业开始意识到大数据的价值,并寻求参与挖掘大数据的价值。
概括起来,大数据的价值主要来自两个方面:
1 帮助企业了解用户
大数据通过关联分析将客户与产品和服务连接起来,定位用户偏好,提供更精准、更有针对性的产品和服务,提高销售业绩。
一个典型的例子是电子商务。
阿里巴巴淘宝等电商平台积累了大量的用户购买数据。在早期,这些数据既笨重又繁重,需要大量的硬件成本来存储。但这些数据现在是阿里巴巴最有价值的资产。
通过这些数据,可以分析用户行为,精准识别目标客群的消费特征、品牌偏好、地域分布等,让商家进行运营管理、品牌定位、促销营销等。
rc=\”https://p3-sign.toutiaoimg.com/pgc-image/24f2e8c2900648dbaf9eef4fde7a1fbc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718266730&x-signature=R1OM%2BAlUq3ZM3hSMSKH2Vbp0mWw%3D\” alt=\”24f2e8c2900648dbaf9eef4fde7a1fbc~noop.image?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1718266730&x-signature=R1OM%2BAlUq3ZM3hSMSKH2Vbp0mWw%3D\” />
大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。
除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
大数据甚至能够帮助竞选总统
2 帮助企业了解自己
除了帮助了解用户之外,大数据还能帮助了解自己。
企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。
总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。
大数据和云计算
说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?
可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。
从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。
云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。
相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。
也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。
套用一句老话——云计算和大数据,两者是相辅相成的。
大数据和物联网(5G)
第二个问题,大数据和物联网有什么关系?
这个问题我觉得大家应该能够很快想明白,前面其实也提到了。
物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。
同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。
其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。
即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。
另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。
5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。
大数据的产业链
接下来再说说大数据的产业链。
大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。
每个环节,都有相应的角色玩家。如下图:
从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。
大数据相关重点领域及企业(技术)
大数据的挑战
说了那么多大数据的好话,并不代表大数据是完美的。
大数据也面临着很多挑战。
除了数据管理技术难度之外,大数据的最大挑战,就是安全。
数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。
欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度
在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。
此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。
除了安全之外,大数据还要面临能耗等方面的问题。
换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。
未完待续
好了,洋洋洒洒写了这么多,今天就先介绍到这里吧。
这篇文章的主要目的,是帮助大家建立对大数据的基本认知,对大数据有一个初步的了解。
下期,小枣君将重点介绍大数据的关键框架和技术栈,包括大家非常关心的Hadoop、Spark、HDFS、MapReduce等概念,都将一一进行解读。
敬请期待!
版权声明:本文转载于网络,版权归作者所有,如果侵权,请联系本站编辑删除