聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 2351315 views阅读

    scikit-learn中的文本特征提取

    文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题scikit-learn提供了将文本转化为数值型特征的方法,今天就一起来学习下。 scikit-learn中的sklearn.feature_extraction.text提供了将文本转化为特征向量的工具: text.CountVectorizer()...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 2950349 views阅读

    黑客马拉松 (Hackathon):POI去重记录

    10月24日参加了公司举办的黑客马拉松,我们选的题目是POI的去重。给到的数据格式如下: 目标是去重重复数据。组委会一开始给了训练集数据,对这部分数据进行了分析,发现给到的数据错漏百出: 从结果看,此部分所谓的训练数据并非人工整理,而是仅对POI名称按城市做了相似度的计算得出。基于此,只能朝着非监督学习的方向进行尝试。 思考逻辑 POI去重问题,并非简单的文本匹配,按照编辑距离去做,可...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 2707447 views阅读

    Google词向量该工具Word2Vec

    word2vec是Google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW), 以及两种高效训练的方法:负采样(negative sampling)和层序softm...

    分类:技术文章 时间:2019-11-18 11:30 我要评论(0个)

  • 1904305 views阅读

    Facebook词向量工具FastText

    FastText简介 fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟之内,能够分类有着30万多类别的50多万句子在1分钟之内。 FastText与Word2Vec fas...

    分类:技术文章 时间:2019-11-18 11:30 我要评论(0个)

  • 2126082 views阅读

    使用Word2Vec/Doc2Vec对IMDB情感分析

    情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的,但是情感量化分析已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息。 最简单的情感分析方法是利用词语的正负属性来判定。句子中的每个单词都有一个得分,乐...

    分类:技术文章 时间:2019-11-12 11:30 我要评论(0个)

  • 2323624 views阅读

    深入理解NLP中的文本情感分析(华为)

    基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价...

    分类:技术文章 时间:2019-11-12 11:30 我要评论(0个)

  • 1928542 views阅读

    情感分析的现代方法(修复代码问题)

    最近在研究情感分析的内容,翻到了《Modern Methods for Sentiment Analysis》这篇文章,这篇文章本身讲的方法并没有什么“现代”,采用的是一些传统的方法。这里摘录的部分内容,做一些学习。由于原文代码可能由于版本问题都无法运行,这里重新进行了整理。 Word2Vec的情感分析的作用 Word2Vec 可以识别单词之间重要的关系。这使得它在许多 NLP 项目和我们...

    分类:技术文章 时间:2019-11-12 11:30 我要评论(0个)

  • 3628348 views阅读

    Python字符串模糊匹配库FuzzyWuzzy

    在计算机科学中,字符串模糊匹配(fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使用户拼错单词或只输入部分单词进行搜索,也能够找到匹配项。因此,它也被称为字符串近似匹配。 字符串模糊搜索可用于各种应用程序,例如: 拼写检查和拼写错误纠正程序。例如,用户在Google中键入“Missisaga”,将...

    分类:技术文章 时间:2019-10-26 23:30 我要评论(0个)

  • 2599100 views阅读

    使用word2vec训练中文维基百科

    word2vec是Google于2013年开源推出的一个用于获取词向量的工具包,关于它的介绍,可以先看词向量工具word2vec的学习。 获取和处理中文语料 维基百科的中文语料库质量高、领域广泛而且开放,非常适合作为语料用来训练。相关链接: https://dumps.wikimedia.org/ https://dumps.wikimedia.org/zhwiki/ https://d...

    分类:技术文章 时间:2019-10-23 23:30 我要评论(0个)

  • 3586659 views阅读

    条件随机场(CRF)及CRF++安装使用

    CRF简介 CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y | X),而不是联合概率分布P(X, Y)来描述模型。 设G = (V, E)为一个无向图,V为结点集合,E为无向边的结合。Y = {Yv | v ∈ V},即V中的每个结点对应于一个随机变量Yv,其取值范围为可能的标记集合{y}。如果以观...

    分类:技术文章 时间:2019-10-23 23:30 我要评论(0个)

  • 1475153 views阅读

    Python短文本分类:LibShortText和TextGrocery

    LibShortText LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: 支持多分类 直接输入文本,无需做特征向量化的预处理 二元分词(Bigram),不去停顿词,不做词性过滤 基于线性核SVM分类器,训练和测试的效率极高 提供了完整的API,用于特征分析和Bad Case...

    分类:技术文章 时间:2019-10-23 23:30 我要评论(0个)

  • 1616497 views阅读

    浅谈中文分词

    NLP(Natural language processing)自然语言处理一直都是比较热门的领域,现在不管是搜索,推荐神马的基本都需要和nlp打交道,而中文的nlp处理的第一步就是分词了,所以中文分词一直扮演者举足轻重的角色。当然了,分词的算法也是层出不穷,从最初的字典匹配到后来的统计模型,从HMM到CRF,分词精度都在不断提高,下面我就简单介绍下基本的分词算法。 字典匹配 最简单的...

    分类:技术文章 时间:2014-04-19 16:25 我要评论(0个)