大数据印象
当别人谈论“大数据”时,你的感觉是?
状态1:不明觉厉
突如其来起来的一些名词可能把你搞蒙,如分布式、云存储、云计算、数据仓库、数据挖掘你能说清楚到底是什么吗?这时候的认知可能是高端、大气、上档次!
状态2:人艰不拆
通常出现这种状态是在接触“大数据”以后,一种可能是数据量太多太杂,不知道如何处理。另外一部分可能已经尝试了但是发现没什么价值。
大数据歧路
IBM提出的大数据“5V”特点:
- Volume(数量):数据量大,包括采集、存储和计算的量都非常大。
- Variety(多样):种类和来源多样化。
- Value(低密度价值):数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。
- Velocity(高速):数据增长速度快,处理速度也快,时效性要求高。
- Veracity(真实):数据的准确性和可信赖度,即数据的质量。
现实世界的问题:
导致大部分数据团队走上歧路的主要原因是团队将大部分时间花在了“速度”、“数量”和“种类”,而忽略了“真实性”与“价值”。究其原因,前者与业务相关性较弱,方便进行抽象,市面上也有非常多的开源项目,入门门槛较低,后者除了必须了解业务扩及外,“真实性”校验需要耗费大量时间,“价值”挖掘是否能产生价值可控率太低、失败率太高,导致对后者关注度较低。
致使数据走入歧路的另外一部分可能是的分离的组织架构,导致懂数据不懂业务、懂业务不懂数据。
除此之外日新月异的技术革新侵占了大量“注意力”。
数据越大越好?
很多人说到大数据是会跟你说“日处理数据量?TB”、“总存储?PB”、“Hadoop集群拥有?节点”诸如此类的,仿佛这些数值代表了数据的价值。实际情况是如果这些数据不被正确的使用,那么以上说的可能只是“资产负债”而非价值。
正确地应用大数据并不容易。很多公司没有意识到数据本身并不是答案,因此,他们认为收集越多的数据越好。收集数据是很容易的,但是能够切除噪声和把最无关紧要的事情处理掉却充满了挑战。这就是为什么,很多时候数据带来了更多的工作量确没有提高什么生产力。
从某种程度上说,掌握了数据就掌握了世界,或者世界的运作规律,但是这并不代表着,你拿着一个巨大的Excel文件,或者存有数百万条记录的数据库,手指轻轻一划,就能理解世界及其运行规律。你需要新的点子,将这些采集到的数据进行简化,使它们更易于理解,能够以一种更简明扼要的方式概述世界运行的规律,能够易于使用数学对其进行建模的数据,这称为统计估计量。这一套从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。
统计推断
在经典统计学理论中,有总体和样本之分。如果我们可以度量和提取这些对象的某些特征,就称为对总体的一组观察数据,习惯上,使用N表示对总体的观察次数。接下来就要采集样本。所谓样本,是指在总体中选取的一个子集,用n来表示。研究者记录下样本的观察数据,根据样本特征推断总体的情况。采样的方法多种多样,有些采样方法会存在偏差,使得样本失真,而不能被视为一个缩小版的总体,去推断总体的特征。当这种情况发生时,基于样本分析所推断出来的结论常常是失真甚或完全错误的。
在大数据时代,我们有能力记录用户的所有行为,我们难道不就可以观察一切?那么,此时做总体和样本的区分还有意义吗?
N = 全部
问题:如果让你去分析机票返程用户特征,你会使用哪些数据?
“N=全部”这个假设是大数据时代人们面临的最大问题。原因是我们并不能收到的所有的数据,当你分析网站流量时,你能分析到的是到达过你网站的用户的情况,而针对没有到达你网站的用户难道就没有分析的价值?
n = 1
“n = 1”意思是说样本的总数为1。说样本空间的大小为1是很荒谬的,没人会通过观察一个个体,就得出对总体的推断。
“大数据”概念的提出总让人感觉数据量太大我看不完的感觉,让越来越的人放弃了接触真实数据的念头 。
PC时代:我们从数据中洞悉用户需求
大数据时代:我们从报表中了解产品运营状态
报表危机:
- 报表需求铺天盖地
- 每次业务都很紧急
- 报表之间缺少逻辑
- 数据加工缺少设计
- 时间久了很少用起
- 重复开发成为垃圾
- 用和不用放在那里
- 增加成本没有意义
报表问题:
- 可展现的内容有限导致细节被掩藏
- 细分类别的波动被汇总数据给淹没
- 基于容易与否进行开发,而非价值
- 以为很有用让你误以为掌握了数据
取而代之的是查阅各式各样的报表。
多大的数据才算大数据?
大数据的大是相对的。人为的为大数据限定一个阈值,比如1PB,是没有意义的,这太绝对了。只有当数据的规模大到对现有技术(比如内存、外存、复杂程度、处理速度等)构成挑战时,才配称为“大”。因此,大数据的大是一个相对概念,大数据放在20世纪70年代和现在的意义是完全不同的。当用一台机器无法处理时,就可以称为“大数据”,因为她不得不学习使用一些全新的工具和方法去解决这一问题。
大数据是一种文化现象。它描述了数据在人类生活中所占的比重,随着科技的发展,数据所占的比重越来越大。
何为小数据?
Excel能处理的成为小数据!
100万以下的数据你都是可以进行直接分析的!
分析时使用多大的数据?
日常分析中遇到的最大的问题是我们需要分析多大量的数据。有人会说具体情况具体分析!这么模棱两可的回答等于没说!
这里要分享的是个人的一些经验(没有什么理论支撑):
- 大于 (数值型特征数量+每个类别型特征的类别数) * 10
- 小于 100万(数据量足够且能够使用单机进行分析)
具体如何抽取数据方法比较多,常用的包括:随机抽样、等距抽样、分层抽样:
让数据说话?
“让数据说话”常在在正常的工作中被提及。常被用在各种撕逼的沟通交流中。你需要认知到的是:忽视因果关系是大数据法则的一种缺陷,而不是特征。忽视因果关系的模型无助于解决现存问题,而只会增加更多问题。数据也不会自己说话,它只能够以一种量化的、无力的方式去描述、再现我们身边的事件。
- 数据不会说话,会说话的是人。
- 数据不会撒谎,会撒谎的是人。
- 真数据未必代表着真相,假数据一定意味着谎言。
- 数据可以生产结论,结论同样可以生产数据。
- 当一个数据无法验证的时候,它毫无用处。
幂律分布的数据在很多地方都会误导人。
大数据总结
不要被大数据忽悠瘸了。
网友评论已有0条评论, 我也要评论