聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 961357 views阅读

    模糊C聚类算法Fuzzy C-Means

    Fuzzy C-Means简介 模糊理论 模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 1”的局限性,用[0,1]之间的实数来描述中间状态。 很多经典的集合(即:论域U内的某个元素是否属于集合A,可以用一个数值来表示。在经典集合中,要么0,...

    分类:技术文章 时间:2022-09-10 18:15 我要评论(0个)

  • 1991721 views阅读

    监督学习与无监督学习

    在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域, 主要分为:监督学习,非监督学习,半监督学习和强化学习。监督学习主要用于回归和分类;半监督学习主要用于分类,回归,半监督聚类;无监督学习主要用于聚类。 监督学习(supervised learning) 概念理解 监督学习是机器学习的类型,其中机器使用“标记好”的训练数据进行训练,并基于该数据,机器预测输出。标记的...

    分类:技术文章 时间:2022-09-06 22:57 我要评论(0个)

  • 984548 views阅读

    机器学习中的欠拟合和过拟合

    对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(overfitting)和欠拟合(underfitting)。过拟合和欠拟合是用于描述模型在训练过程中的两种状态。一般来说,训练过程会是如下所示的一个曲线图。...

    分类:技术文章 时间:2022-07-29 15:43 我要评论(0个)

  • 446189 views阅读

    Learning to Rank算法学习之GBRank

    GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT(Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query,如何选择最相关的Document。GBRank核心为将排序问题转化为一组回归问题,对于回归问题可以用GBDT进行求解,...

    分类:技术文章 时间:2021-07-22 16:01 我要评论(0个)

  • 522268 views阅读

    推荐系统:从千人千面到千域千面

    谈到推荐系统,很多人的印象中是“个人性推荐”和“千人千面”。关于“千域千面”应该很少人提及,主要能用到的场景不多,先前有想过在酒店场景上应用,但是由于各种原因最终没有尝试。以下是高德地图在“千域千面”的一些经验,记录下来供后续学习。 Learning to Rank(LTR)在高德的尝试 应用场景 搜索建议(suggest服务),用户在输入框输入query的过程中,为用户自动补全query...

    分类:技术文章 时间:2021-07-21 09:01 我要评论(0个)

  • 356707 views阅读

    主题模型LDA(Latent Dirichlet Allocation)初探

    在潜在语义分析LSA的文章中对LDA有一些简单的介绍,今天的目标是对LDA进行相对深入的了解,大致搞明白其原理。 LDA简介 在机器学习领域中有2个 LDA: 线性判别分析 (Linear Discriminant Analysis),主要用于降维和分类。 隐含狄利克雷分布 (Latent Dirichlet Allocation),在主题模型中占有重要的地位,目前在文本挖掘领域包括文本...

    分类:技术文章 时间:2021-07-17 15:54 我要评论(0个)

  • 1747445 views阅读

    排序优化算法Learning to Ranking

    Learning to Ranking简介 Learning to Rank (LTR)是指一系列基于机器学习的排序算法,最初主要应用于信息检索(Information Retrieval,IR)领域,最典型的是解决搜索引擎对搜索结果的排序问题。除了信息检索以外,Learning to Rank 也被应用到许多其他排序问题上,如商品推荐、计算广告、生物信息学等。 Facebook用它来优化...

    分类:技术文章 时间:2021-07-13 18:44 我要评论(0个)

  • 933788 views阅读

    信息的度量:信息熵的理解与应用

    什么是信息熵? 信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中...

    分类:技术文章 时间:2021-06-09 13:50 我要评论(0个)

  • 625843 views阅读

    机器学习/数据分析之缺失值处理

    在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random):某个变量是否缺失与它自身的值无关,也与其他任何变量的值无关。例如,由于测量设备出故障导致某些值缺失。 随机丢失(MAR,Missing at Random): 在控制了其他变量...

    分类:技术文章 时间:2021-01-29 23:15 我要评论(0个)

  • 1179655 views阅读

    风险控制:信用评分卡模型

    什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点: ...

    分类:技术文章 时间:2021-01-27 21:03 我要评论(0个)

  • 571636 views阅读

    特征工程数据预处理之抽样

    在分析数据或进行算法模型训练前有时需要先对数据进行抽样,这里整理了抽样的一些知识点。 什么情况下需要会用到抽样? 数据量太大,计算能力不足。 抽样调查,小部分数据即可反应全局情况。 时效要求,通过抽样快速实现概念验证。 定性分析的工作需要。 无法实现全覆盖的场景,比如满意度调查等。 解决样本不均衡问题。 常用数据抽样的方法 随机抽样(用的最多) 该抽样方法是按等概率原则直接从总中抽取...

    分类:技术文章 时间:2020-12-01 22:08 我要评论(0个)

  • 728319 views阅读

    调戏了一番度娘"最先进"的PLATO-2预训练模型之后,我还是回到了和人类交谈...

    (莫慌,这图是拿出来撑场面的,我可能和你一样看不懂) 前言:这是一篇很不严肃的实验文章。每一个会修电脑的人,都可以很容易地照着本文的描述,自己去操作一遍。 大概一周前,百度不是发布了一个“取得重要进展”的对话生成网络 PLATO-2 吗?我当时一看到那消息,精神就来了,为什么?这得先从解释一下“这玩意是干什么用的”说起&mdash...

    分类:技术文章 时间:2020-07-14 02:25 我要评论(0个)