聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 1230360 views阅读

    模糊C聚类算法Fuzzy C-Means

    Fuzzy C-Means简介 模糊理论 模糊控制是自动化控制领域的一项经典方法。其原理则是模糊数学、模糊逻辑。1965,L. A. Zadeh发表模糊集合“Fuzzy Sets”的论文, 首次引入隶属度函数的概念,打破了经典数学“非0即 1”的局限性,用[0,1]之间的实数来描述中间状态。 很多经典的集合(即:论域U内的某个元素是否属于集合A,可以用一个数值来表示。在经典集合中,要么0,...

    分类:技术文章 时间:2022-09-10 18:15 我要评论(0个)

  • 1211649 views阅读

    机器学习中的欠拟合和过拟合

    对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(overfitting)和欠拟合(underfitting)。过拟合和欠拟合是用于描述模型在训练过程中的两种状态。一般来说,训练过程会是如下所示的一个曲线图。...

    分类:技术文章 时间:2022-07-29 15:43 我要评论(0个)

  • 963835 views阅读

    大数据基础:HIVE

    Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的...

    分类:技术文章 时间:2022-01-14 09:10 我要评论(0个)

  • 1037577 views阅读

    大数据基础:Google MapReduce

    Google,作为全球最大的搜索引擎公司,其伟大之处不仅在于建立了一个强大的搜索引擎,还在于它创造了3项革命性的技术,即:GFS、MapReduce 和 BigTable。作为 Google 早期三驾马车,这三项革命性的技术不仅在大数据领域广为人知,更直接或间接性的推动了大数据、云计算、乃至如今火爆的人工智能领域的发展。 2004年12月5日,Google 在美国旧金山召开的第6届操作系统...

    分类:技术文章 时间:2022-01-05 13:00 我要评论(0个)

  • 676208 views阅读

    大数据基础:Google GFS

    GFS系统简介 Google 文件系统(Google File System,缩写为 GFS 或 GoogleFS),一种由 Google 公司开发专有分布式文件系统。 它与传统文件系统的的区别在于: 分布式 – 提供很高的横向扩展性 使用大量廉价的普通机器组成网络 – 允许单机故障 不允许任意更改已有文件 (No Random Write) Google并没...

    分类:技术文章 时间:2022-01-01 16:52 我要评论(0个)

  • 861210 views阅读

    大数据基础:Google BigTable

    Bigtable是2005年谷歌的论文:《Bigtable: A Distributed Storage System for Structured Data》中介绍的一种分布式存储系统,后来被Hadoop社区实现为HBase。读懂这篇论文,那么理解HBase也就非常容易了。 摘要(Abstract) Bigtable是一个分布式存储系统,它被设计来为近万台商用服务器规模的、PB级别的数...

    分类:技术文章 时间:2022-01-01 16:52 我要评论(0个)

  • 776633 views阅读

    Learning to Rank算法学习之GBRank

    GBRank是一种pair-wise的学习排序算法,他是基于回归来解决pair对的先后排序问题。在GBRank中,使用的回归算法是梯度提升数GBT(Gradient Boosting Tree) 算法原理 Learning To Rank需要解决的问题是给定一个Query,如何选择最相关的Document。GBRank核心为将排序问题转化为一组回归问题,对于回归问题可以用GBDT进行求解,...

    分类:技术文章 时间:2021-07-22 16:01 我要评论(0个)

  • 632494 views阅读

    主题模型LDA(Latent Dirichlet Allocation)初探

    在潜在语义分析LSA的文章中对LDA有一些简单的介绍,今天的目标是对LDA进行相对深入的了解,大致搞明白其原理。 LDA简介 在机器学习领域中有2个 LDA: 线性判别分析 (Linear Discriminant Analysis),主要用于降维和分类。 隐含狄利克雷分布 (Latent Dirichlet Allocation),在主题模型中占有重要的地位,目前在文本挖掘领域包括文本...

    分类:技术文章 时间:2021-07-17 15:54 我要评论(0个)

  • 2692507 views阅读

    排序优化算法Learning to Ranking

    Learning to Ranking简介 Learning to Rank (LTR)是指一系列基于机器学习的排序算法,最初主要应用于信息检索(Information Retrieval,IR)领域,最典型的是解决搜索引擎对搜索结果的排序问题。除了信息检索以外,Learning to Rank 也被应用到许多其他排序问题上,如商品推荐、计算广告、生物信息学等。 Facebook用它来优化...

    分类:技术文章 时间:2021-07-13 18:44 我要评论(0个)

  • 846191 views阅读

    潜在语义分析LSA初探

    什么是潜在语义分析LSA? 潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简...

    分类:技术文章 时间:2021-07-08 00:13 我要评论(0个)

  • 1429166 views阅读

    信息的度量:信息熵的理解与应用

    什么是信息熵? 信息是我们一直在谈论的东西,但信息这个概念本身依然比较抽象。在百度百科中的定义:信息,泛指人类社会传播的一切内容,指音讯、消息、通信系统传输和处理的对象。但信息可不可以被量化,怎样量化?答案当然是有的,那就是“信息熵”。早在1948年,香农(Shannon)在他著名的《通信的数学原理》论文中指出:“信息是用来消除随机不确定性的东西”,并提出了“信息熵”的概念(借用了热力学中...

    分类:技术文章 时间:2021-06-09 13:50 我要评论(0个)

  • 1918647 views阅读

    风险控制:信用评分卡模型

    什么是信用评分卡模型? 评分卡模型又叫做信用评分卡模型,最早由美国信用评分巨头FICO公司于20世纪60年代推出,在信用风险评估以及金融风险控制领域中广泛使用。银行利用评分卡模型对客户的信用历史数据的多个特征进行打分,得到不同等级的信用评分,从而判断客户的优质程度,据此决定是否准予授信以及授信的额度和利率。相较资深从业人员依靠自身的经验设置的专家规则,评分卡模型的使用具有很明显的优点: ...

    分类:技术文章 时间:2021-01-27 21:03 我要评论(0个)