聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 3573 views阅读

    Learning to Rank算法学习之GBRank

    GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT(Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query,如何选择最相关的Document。GBRank核心为将排序问题转化为一组回归问题,对于回归问题可以用GBDT进行求解,...

    分类:技术文章 时间:2021-07-22 16:01 我要评论(0个)

  • 2749 views阅读

    推荐系统:从千人千面到千域千面

    谈到推荐系统,很多人的印象中是“个人性推荐”和“千人千面”。关于“千域千面”应该很少人提及,主要能用到的场景不多,先前有想过在酒店场景上应用,但是由于各种原因最终没有尝试。以下是高德地图在“千域千面”的一些经验,记录下来供后续学习。 Learning to Rank(LTR)在高德的尝试 应用场景 搜索建议(suggest服务),用户在输入框输入query的过程中,为用户自动补全query...

    分类:技术文章 时间:2021-07-21 09:01 我要评论(0个)

  • 3643 views阅读

    主题模型LDA(Latent Dirichlet Allocation)初探

    在潜在语义分析LSA的文章中对LDA有一些简单的介绍,今天的目标是对LDA进行相对深入的了解,大致搞明白其原理。 LDA简介 在机器学习领域中有2个 LDA: 线性判别分析 (Linear Discriminant Analysis),主要用于降维和分类。 隐含狄利克雷分布 (Latent Dirichlet Allocation),在主题模型中占有重要的地位,目前在文本挖掘领域包括文本...

    分类:技术文章 时间:2021-07-17 15:54 我要评论(0个)

  • 7462 views阅读

    排序优化算法Learning to Ranking

    Learning to Ranking简介 Learning to Rank (LTR)是指一系列基于机器学习的排序算法,最初主要应用于信息检索(Information Retrieval,IR)领域,最典型的是解决搜索引擎对搜索结果的排序问题。除了信息检索以外,Learning to Rank 也被应用到许多其他排序问题上,如商品推荐、计算广告、生物信息学等。 Facebook用它来优化...

    分类:技术文章 时间:2021-07-13 18:44 我要评论(0个)

  • 11209 views阅读

    信息的度量:信息熵的理解与应用

    什么是信息熵? 信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中...

    分类:技术文章 时间:2021-06-09 13:50 我要评论(0个)

  • 10569 views阅读

    机器学习/数据分析之缺失值处理

    在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否缺失与它自身的值无关,也与其他任何变量的值无关。例如,由于测量设备出故障导致某些值缺失。 随机丢失(MAR,Missing at Random): 在控制了其他变量...

    分类:技术文章 时间:2021-01-29 23:15 我要评论(0个)

  • 7489 views阅读

    风险控制:信用评分卡模型

    什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点: ...

    分类:技术文章 时间:2021-01-27 21:03 我要评论(0个)

  • 9299 views阅读

    特征工程数据预处理之抽样

    在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过抽样快速实现概念验证。 定性分析的工作需要。 无法实现全覆盖的场景,比如满意度调查等。 解决样本不均衡问题。 常用数据抽样的方法 随机抽样(用的最多) 该抽样方法是按等概率原则直接从总中抽取...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 7990 views阅读

    调戏了一番度娘"最先进"的PLATO-2预训练模型之后,我还是回到了和人类交谈...

    (莫慌,这图是拿出来撑场面的,我可能和你一样看不懂) 前言:这是一篇很不严肃的实验文章。每一个会修电脑的人,都可以很容易地照着本文的描述,自己去操作一遍。 大概一周前,百度不是发布了一个“取得重要进展”的对话生成网络 PLATO-2 吗?我当时一看到那消息,精神就来了,为什么?这得先从解释一下“这玩意是干什么用的”说起&mdash...

    分类:技术文章 时间:2020-07-14 02:25 我要评论(0个)

  • 12350 views阅读

    机器学习入门5:KNN近邻算法-图像检索-NN最近邻检索和ANN近似最近邻检索

    本文是机器学习入门的基础版,学习对象产品经理同学; 目前图像检索中最基础的检索能力: NN检索-最近邻检索(Nearest Neighbor Search) ANN检索-近似最近邻检索Approximate Nearest Neighbor。区别于ANN   1.概述 最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距...

    分类:技术文章 时间:2020-04-18 10:51 我要评论(0个)

  • 9722 views阅读

    机器学习入门1:算法概述

    本文是机器学习入门的基础版,学习对象产品经理同学; 机器学习,简言之:一堆数据,用算法模型进行训练,再用于使用。 似乎算法看上去是最重要的,但这里也需要强调下:数据来源,数据处理,特征选取,在特定场景下算法优劣的衡量和算法一样重要。  1.算法 算法满意度: 如何衡量一个算法的好坏,有两个指标:准确率、召回率(也叫查准率和查全率)。准确率和召回率都是越高越好,且是互斥关系,单独说准确率或召...

    分类:技术文章 时间:2020-03-25 04:03 我要评论(0个)

  • 6698 views阅读

    机器学习入门2:第一个算法-决策树DecisionTree

    本文是机器学习入门的基础版,学习对象产品经理同学; 决策树学习三个过程:1.特征选择。2.构建决策树。3.剪枝   1.决策树是什么? 决策树DecisionTree是机器学习中相当经典的一种算法,既可以用作分类,也可以用作回归,同时还适合做集成学习用于随机森林等等,今天就来好好介绍一下决策树算法。 首先,决策树的思想就是非常容易理解的。通俗地讲就是拿到一堆样本之后,我首先根据某...

    分类:技术文章 时间:2020-03-25 04:03 我要评论(0个)