标签:1024 结构化 数据库 特点 数据量 数据 数据模型
数据量大
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。
人类在最近两年产生的数据量相当于之前产生的全部数据量。
数据量的量级:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
除了1Byte=8bit以外,全是
2
10
=
1024
2^{10}=1024
210=1024进制。
数据类型繁多
大数据是由结构化数据、半结构化数据和非结构化数据组成的。
- 非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。[1]
- 和普通纯文本相比,半结构化数据具有一定的结构性,OEM(Object exchange Model)是一种典型的半结构化数据模型。[2]
- 结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。[3]
20%的结构化数据,存储在数据库中;剩余80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等又占据非结构化数据的90%。
处理速度快
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
1秒定律是互联网进入DT时代对数据处理速度的要求。当然并非严格的1秒,只是秒级的时间内给出结果,这也是大数据技术有别于传统数据技术的重要一点, 时间太长,就失去意义了。这一点也是和传统的数据挖掘技术有着本质的不同。[4]
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。
标签:1024,结构化,数据库,特点,数据量,数据,数据模型 来源: https://blog.csdn.net/weixin_43896318/article/details/113822427
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。