聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 60 views阅读

    特征工程数据预处理之抽样

    在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过抽样快速实现概念验证。 定性分析的工作需要。 无法实现全...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 51 views阅读

    JupyterLab HIVE数据同步流程

    公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab 通过Hive查看数据文件位置 可以通过H...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 72 views阅读

    Python对象持久化存储工具pickle

    Python 中有个序列化过程称为pickle,它能够实现任意对象与文本之间的相互转化,也可以实现任意对象与二进制之间的相互转化。也就是说,pickle 可以实现 Python 对象的存储及恢复。 序列化(picking): 把变量从内存中变成可存储或传...

    分类:技术文章 时间:2020-11-26 10:51 我要评论(0个)

  • 130 views阅读

    使用Scikit-Learn提取文本特征

    文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题Scikit-Learn提供了将文本转化为数值型特征的方法,今天就一起来学习下。 Scikit-Learn中的skl...

    分类:技术文章 时间:2020-11-24 16:23 我要评论(0个)

  • 152 views阅读

    SQL 日期/时间处理函数

    在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下数据库中常见的日期/时间存储格式: Unix时间戳(1...

    分类:技术文章 时间:2020-11-23 21:05 我要评论(0个)

  • 742 views阅读

    机器学习: 商业与数据科学之间的桥梁

    每次我们谈论自动驾驶汽车、聊天机器人、 AlphaGo 或者预测分析,都会涉及到一些机器学习技术的实现。在公众看来,应用于机器学习的算法类似于科幻小说,推出一个具体的机器学习应用计划仍然是一个很高的障碍。 易混淆的专业术语 机器学习的概念最早出现在20世纪...

    分类:技术文章 时间:2020-08-19 12:04 我要评论(0个)

  • 1458 views阅读

    相关性分析之Predictive Power Score(PPS)

    常用相关性分析方法 在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为:...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 1244 views阅读

    开源指标可视化工具Graphite

    Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实上,Graphite 指标协议(metrics protocol)是许多指标收集工具的事实标准格式。然而,Graphite 并不总是一个可以简单部...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 1720 views阅读

    数据探索Pandas-Profiling与Dataprep.eda

    在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profiling是个非常不错的工具,它可以帮你快速生成数据概览。 Pandas-Profiling Pandas-Profiling的安装与使用 Pand...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 1817 views阅读

    Python检验数据是否正态分布

    判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起梳理下检测正态分布的方法。 Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方法。该检验...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 1109 views阅读

    层次聚类改进算法之BIRCH

    BIRCH算法简介 BIRCH算法的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它使用聚类特征来表示一个簇,使用聚类特征树(CF-树)来表示聚类的层次结构,算法思路也是“自...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 1342 views阅读

    层次聚类改进算法之CURE

    CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于层次的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)