聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 203 views阅读

    Optuna自动调参使用指南

    在日常工作中用到的比较多的还是树回归模型,由于LightGBM不需要的类别数据进行预处理所以用得特别多,中间涉及到超参数优化时通常使用随机参数优化方法。在算法模型自动超参数优化方法中有提到了Optuna,平时工作中也会使用到,今天主要对如何使用Optuna...

    分类:技术文章 时间:2021-02-22 22:33 我要评论(0个)

  • 434 views阅读

    机器学习之类别特征处理

    类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label enco...

    分类:技术文章 时间:2021-01-29 23:15 我要评论(0个)

  • 393 views阅读

    机器学习/数据分析之缺失值处理

    在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否缺失与它自身的值无关,也与其...

    分类:技术文章 时间:2021-01-29 23:15 我要评论(0个)

  • 532 views阅读

    风险控制:信用评分卡模型

    什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的...

    分类:技术文章 时间:2021-01-27 21:03 我要评论(0个)

  • 1127 views阅读

    Excel数据表格设计指南

    虽然没有哪一种单一的可视化方式在展现量化信息时最有效,但当你需要说明特定意义的数据时,“表格”无疑是你的理想选择。将数据信息放置在格子框架中,经过精心的易用性设计,将为用户提供一种高效查阅和比较的手段。尽管我们一般认为表格数据是数字型的,其实文字也可以是数...

    分类:技术文章 时间:2020-12-16 13:31 我要评论(0个)

  • 974 views阅读

    模型自动超参数优化方法

    什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter)。还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper parameter)。超参数是在开始学习过程之前设置值的...

    分类:技术文章 时间:2020-12-09 00:01 我要评论(0个)

  • 873 views阅读

    数据缩放:标准化和归一化

    数据缩放简介 使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大...

    分类:技术文章 时间:2020-12-04 15:46 我要评论(0个)

  • 1292 views阅读

    特征工程数据预处理之抽样

    在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过抽样快速实现概念验证。 定性分析的工作需要。 无法实现全...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 978 views阅读

    JupyterLab HIVE数据同步流程

    公司的数据存放在HDFS上,但是模型的训练时需要用到这部分数据,于是就有了数据同步的需求。以下是个人整理的数据同步流程,仅适用于公司内部,其他地方由于环境不同可能不可用。 数据从Hive同步到JupyterLab 通过Hive查看数据文件位置 可以通过H...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 933 views阅读

    Python对象持久化存储工具pickle

    Python 中有个序列化过程称为pickle,它能够实现任意对象与文本之间的相互转化,也可以实现任意对象与二进制之间的相互转化。也就是说,pickle 可以实现 Python 对象的存储及恢复。 序列化(picking): 把变量从内存中变成可存储或传...

    分类:技术文章 时间:2020-11-26 10:51 我要评论(0个)

  • 982 views阅读

    使用Scikit-Learn提取文本特征

    文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题Scikit-Learn提供了将文本转化为数值型特征的方法,今天就一起来学习下。 Scikit-Learn中的skl...

    分类:技术文章 时间:2020-11-24 16:23 我要评论(0个)

  • 1065 views阅读

    SQL 日期/时间处理函数

    在数据统计分析中,经常会遇到需要对时间进行格式转化或其他层面的内容。由于每种数据库自带的相关函数存在一定的差异,所以经常会记不得如何使用。今天做下简单的梳理。 在开始学习日期/时间函数先,先来了解下数据库中常见的日期/时间存储格式: Unix时间戳(1...

    分类:技术文章 时间:2020-11-23 21:05 我要评论(0个)