数据的“有我之境”与“无我之境”
王国维的境界 王国维在《人间词话》中把艺术境界分为“有我之境”与“无我之境”两种: 有我之境: 泪眼问花花不语,乱红飞过千秋去。 可堪孤馆闭春寒,杜鹃声里斜阳暮。 无我之境: 采菊东篱下,悠然见南山。 寒波淡淡起,白鸟悠悠下。 有我之境,以我观物,故物皆著我之色彩。无我之境,以物观物,故不知何者为我,何者为物。 老王的 “境界”不能简单的理解为,人在其中,或者人不在其中。...
聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长
王国维的境界 王国维在《人间词话》中把艺术境界分为“有我之境”与“无我之境”两种: 有我之境: 泪眼问花花不语,乱红飞过千秋去。 可堪孤馆闭春寒,杜鹃声里斜阳暮。 无我之境: 采菊东篱下,悠然见南山。 寒波淡淡起,白鸟悠悠下。 有我之境,以我观物,故物皆著我之色彩。无我之境,以物观物,故不知何者为我,何者为物。 老王的 “境界”不能简单的理解为,人在其中,或者人不在其中。...
在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否缺失与它自身的值无关,也与其他任何变量的值无关。例如,由于测量设备出故障导致某些值缺失。 随机丢失(MAR,Missing at Random): 在控制了其他变量...
1. 云计算行业背景 云计算结构存在较大差异,美国云计算市场以SaaS为主,占比达到64%;而中国云计算市场SaaS占比仅为33%。 国内云计算渗透率偏低,未来公有云市场空间巨大。根据GGV报告显示,中国网民人数是美国的3.2倍,中国的线上零售规模是美国的1.3倍,公司数量是美国的5.8倍,但是IT领域的花费却是美国的18%左右,国内公有云的渗透率仅10%,美国公有云的渗透率22%。 2...
趋势一:内容审查监管力度逐步加强 从2018年大家就应该能感受到网络内容审查力度越来越大。感兴趣可以自行百度查询下最近2年的监管翻车触发的相关事件; 趋势二:内容态互联网公司审查人力成本逐步加大 需要大力投入内容审核的产品,大部分是:新闻资讯、视频直播、社区、IM聊天、低频法布类等; 尤其是直播最容易翻车!时效性越快,越容易翻车! 从网络公开资料看,字节跳动 2...
最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。 这些产品的目标应该都是self service的BI,利用可视化提供数据探索的功能,并且加入机器学习和预测的功能。它们对标的产品应该是Tableau或者SAP Lumira。因为笔者曾经为Lumira开发数据可视化的功能,对这一块很感兴趣,于是就试用了一下这些产品,感觉这些产品似乎还有很大的差距,于是就想自己用开源软件搭一个简单的...
任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 数据展现(可视化,报表和监控) 其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括: 数据源多种多样 数据量大,变化快 如何保证数据采集的可靠性的性能 如何避免重复数据 如何保证数据的质量 我们今天就来看看当前可用的一些数据采集的产品,重点关注一些它...
导读:Linux以其强大的命令行称霸江湖,Shell命令是数据极客的必修兵器。探索性数据分析,在需求和数据都不太明确的环境下,使用各种命令进行一次探索与挖掘。从基础的文件查看到简单的统计,再到一些常用的探索性分析命令,其目的都只是为了更好的做数据分析与挖掘而已。 01 Shell命令行 对于经常和数据打交道的人来说,数据工程师应该也是常常和Linux打交道。Linux以其强大的命令行称霸江...
“数据科学家” 术语总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。 在自动收集、清洗和分析数据的产品中,可以捕获数据价值链,为执行仪表盘或报告提供信息和预...
本文是著名学习网站Udacity的数据分析基础性文章。由于Udacity的就业导向,不同于单纯介绍学习路径,文章还从职业人士的角度讲述数据分析的方方面面。文章同时附有视频,不失为一篇好的介绍文。以下为小标题: - 数据分析师们做些什么? - 如何在没有相关正规教育经历的情况下成为数据分析师? - 一份能使你直通面试的简历 - 数据分析的概念 - 数据科学家是什么? - 机器学习和自动驾驶车...