聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 3026114 views阅读

    产品&运营分析技能培训:Hive SQL

    以下内容是自己近期咋在公司内进行的培训PPT的内容,由于示例SQL脚本涉及到公司的一些库表,所以已经去除。 Hive SQL概述 为什么要学SQL? 性价比高:学习一周,受用终生。(有小学英语能力即可,相当简单,不用害怕学不会) 高效便捷:免去数据需求的排期与沟通,可根据自己需要及时调整取数逻辑 思维拓展:了解业务存储逻辑,理解状态变更或数据流转,更好的理解业务 发现先知:深入细节,发现...

    分类:技术文章 时间:2022-03-17 13:03 我要评论(0个)

  • 3869500 views阅读

    大数据基础:HIVE

    Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的...

    分类:技术文章 时间:2022-01-14 09:10 我要评论(0个)

  • 2177126 views阅读

    Some hints on Dataproc

    When running a job in the cluster of Dataproc, it reported: java.util.concurrent.ExecutionException: java.lang.ClassNotFoundException: Failed to find data source: BIGQUERY. The reason is I h...

    分类:技术文章 时间:2021-09-03 12:20 我要评论(0个)

  • 2985625 views阅读

    JupyterLab HIVE数据同步流程

    公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab 通过Hive查看数据文件位置 可以通过Hive的show create table(建表语句)查看数据库表的路径: show create table tmp_db.my_ta...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 4249016 views阅读

    SQL 日期/时间处理函数

    在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下数据库中常见的日期/时间存储格式: Unix时间戳(10位,单位为秒,1970年1月1日到现在的秒数):1605191559 Unix时间戳(13位,单位为微秒):1605191559123...

    分类:技术文章 时间:2020-11-23 21:05 我要评论(0个)

  • 1179675 views阅读

    Hive SQL的编译过程

    Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有...

    分类:技术文章 时间:2014-11-18 16:36 我要评论(0个)

  • 2297460 views阅读

    Shell和Hive里面的ip2long

    Shell里面的ip2long:ips[1]*256**3+ips[2]*256**2+ips[3]*256+ips[4] Hive里面的ip2long:select split(ips, ‘.’)[0]*pow(256, 3)+split(ips, ‘.’)[1]*pow(256, 2)+split(ips, ‘.’...

    分类:技术文章 时间:2013-10-23 23:00 我要评论(0个)