产品&运营分析技能培训:Hive SQL
以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,不用害怕学不会) 高效便捷:免去数据需求的排期与沟通,可根据自己需要及时调整取数逻辑 思维拓展:了解业务存储逻辑,理解状态变更或数据流转,更好的理解业务 发现先知:深入细节,发现...
聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长
以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,不用害怕学不会) 高效便捷:免去数据需求的排期与沟通,可根据自己需要及时调整取数逻辑 思维拓展:了解业务存储逻辑,理解状态变更或数据流转,更好的理解业务 发现先知:深入细节,发现...
Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的...
When running a job in the cluster of Dataproc, it reported: java.util.concurrent.ExecutionException: java.lang.ClassNotFoundException: Failed to find data source: BIGQUERY. The reason is I h...
公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab 通过Hive查看数据文件位置 可以通过Hive的show create table(建表语句)查看数据库表的路径: show create table tmp_db.my_ta...
在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下数据库中常见的日期/时间存储格式: Unix时间戳(10位,单位为秒,1970年1月1日到现在的秒数):1605191559 Unix时间戳(13位,单位为微秒):1605191559123...
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有...
Shell里面的ip2long:ips[1]*256**3+ips[2]*256**2+ips[3]*256+ips[4] Hive里面的ip2long:select split(ips, ‘.’)[0]*pow(256, 3)+split(ips, ‘.’)[1]*pow(256, 2)+split(ips, ‘.’...