大数据描述了一个整体信息管理战略,其中包含并集成了众多新的数据、数据管理以及传统数据类型。
大数据还可以用四个V来定义:
Volume(大量)。数据量。当数据量指的是更多数据时,它指独特数据的粒度化性质。大数据需要处理大量低密度、非结构化的Hadoop数据 — 也就是说,值未知的数据,如Twitter数据馈送、网页和移动应用上的点击流、网络流量、启用了传感器的设备捕获的光速数据,等等。大数据的任务就是将此类Hadoop数据转变成有价值的信息。对于某些组织,数据量可达数十TB级,还有一些组织的数据量高达数百PB。
Velocity(高速)。数据接收和操作的速度快。速度较高的数据通常直接流进内存中而非写入磁盘。有些物联网 (IoT) 应用有健康运行和安全性要求,需要实时评估和操作。基于互联网的其他智能产品可实时或近似实时地运行。例如,消费类电子商务应用力求结合移动设备位置和个人偏好来开展有时效性的营销活动。在操作方面,移动应用体验的用户群体庞大、网络流量越来越高且希望立即获得响应。
Variety(多样)。新的非结构化数据类型。文本、音频和视频等非结构化和半结构化数据类型需要进行更多处理才能提取出意义和支持元数据。非结构化数据在得到理解后有着与结构化数据相同的许多要求,如汇总、来历追溯、可审核性和私密性。当已知来源的数据发生变化但没有通知时,复杂性将进一步提高。频繁或实时的模式变化对事务环境和分析环境而言都是巨大的负担。
Value(价值)。数据有内在价值,但需要被发现。可以通过各种量化技术和调查技巧发现数据的价值 — 从发现消费者偏好或舆情,到按位置开展相关营销,或者识别要发生故障的设备。技术突破已经使数据存储和计算的成本大幅降低,因此能够提供充足的数据来对整个数据集进行统计分析,而以前只是对样本进行统计分析。这种技术突破使得更精准的决策成为可能。不过,发现价值还需要新的发现过程,牵涉到机敏而有见地的分析人员、业务用户和高管。真正的大数据挑战来自人本身,包括学习如何提出正确的问题、认可合作伙伴、做有根据的假设以及对行为进行预测。