聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 243 views阅读

    机器学习: 商业与数据科学之间的桥梁

    每次我们谈论自动驾驶汽车、聊天机器人、 AlphaGo 或者预测分析,都会涉及到一些机器学习技术的实现。在公众看来,应用于机器学习的算法类似于科幻小说,推出一个具体的机器学习应用计划仍然是一个很高的障碍。 易混淆的专业术语 机器学习的概念最早出现在20世纪...

    分类:技术文章 时间:2020-08-19 12:04 我要评论(0个)

  • 750 views阅读

    相关性分析之Predictive Power Score(PPS)

    常用相关性分析方法 在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为:...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 510 views阅读

    开源指标可视化工具Graphite

    Graphite 是处理可视化和指标数据的优秀开源工具。它有强大的查询 API 和相当丰富的插件功能设置。事实上,Graphite 指标协议(metrics protocol)是许多指标收集工具的事实标准格式。然而,Graphite 并不总是一个可以简单部...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 1074 views阅读

    数据探索Pandas-Profiling与Dataprep.eda

    在使用数据前,我们首先要做的事观察数据,包括查看数据的类型、数据的范围、数据的分布等。Pandas-Profiling是个非常不错的工具,它可以帮你快速生成数据概览。 Pandas-Profiling Pandas-Profiling的安装与使用 Pand...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 980 views阅读

    Python检验数据是否正态分布

    判断数据是否符合正态分布,比如使用3-sigma判断数据异常前,首先需要确定的是数据是否符合正态分布。今天一起梳理下检测正态分布的方法。 Shapiro-Wilk test Shapiro-Wilk test是一种在频率上统计检验中检验正态性的方法。该检验...

    分类:技术文章 时间:2020-05-30 18:55 我要评论(0个)

  • 560 views阅读

    层次聚类改进算法之BIRCH

    BIRCH算法简介 BIRCH算法的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它使用聚类特征来表示一个簇,使用聚类特征树(CF-树)来表示聚类的层次结构,算法思路也是“自...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 700 views阅读

    层次聚类改进算法之CURE

    CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于层次的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 756 views阅读

    层次聚类改进算法之Chameleon

    Chameleon简介 Chameleon(变色龙)算法是一种两阶段层次聚类算法。在进行两个类簇合并时使用更高的标准,同时考虑了类簇之间的互连性(连接两个子簇的边的权重之和)和近似性(连接两个子簇的边的平均权重),具有发现任意形状和大小的簇的能力。算法的过...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 624 views阅读

    社区版Skyline CentOS 7部署记录

    异常监控系统Skyline的文章中,详细介绍了Skyline的架构,今天主要分享的是自己在部署Skyline中的一些记录。 项目地址:https://github.com/earthgecko/skyline 参考文档:https://earthgeck...

    分类:技术文章 时间:2020-05-24 21:20 我要评论(0个)

  • 793 views阅读

    如何正确设置直方图中的bins值

    不管使用matplotlib.pyplot.hist或是pandas.DataFrame.hist最终调用的是numpy.histogram。我们先来看下numpy.histogram方法:numpy.histogram(a, bins=10, range...

    分类:技术文章 时间:2020-05-18 23:49 我要评论(0个)

  • 811 views阅读

    Folium绘制Choropleth分级着色图

    在上一篇Folium的文章中,针对Choropleth的使用有过简单的介绍,但是对于如何调整分级样式图等,没有进一步的阐述。这篇文章结果自己的使用经验做些简单的总结。 生成Choropleth分级着色图的方法目前主要有两种,一种是使用folium.Chor...

    分类:技术文章 时间:2020-05-18 23:49 我要评论(0个)

  • 902 views阅读

    Python地图可视化之mapboxgl jupyter

    Mapbox简介 Mapbox由Eric Gunderson于2010年创立,其发展迅速,已经成为制图复兴浪潮的领导者。Mapbox专注于为地图和应用程序开发人员提供自定义底图图块,他们将自己定位为Web地图和移动应用程序的领先软件公司。除了已经广泛被程序...

    分类:技术文章 时间:2020-05-03 21:33 我要评论(0个)