聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 1317 views阅读

    CRFPP在Windows环境下的安装

    在前面介绍CRF++的文章种,只介绍到了CRFPP在Linux环境下的安装。本周在测试DeepNLP这个工具的时候由于其依赖CRF++,需要安装CRF++,中间还是遇到蛮多问题的。记录下来供参考。 从网络上整理出来的安装流程: 下载Windows版CRF...

    分类:技术文章 时间:2019-12-07 11:30 我要评论(0个)

  • 1284 views阅读

    斯坦福大学的词向量工具:GloVe

    GloVe简介 GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征(word representati...

    分类:技术文章 时间:2019-12-07 11:30 我要评论(0个)

  • 1251 views阅读

    自然语言处理工具包之NLTK

    NLTK简介 NLTK(Natural Language Toolkit)是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包,其收集的大量公开数据集、模型上提供了全面、易用的接口,涵盖了分词、词性标注(Part-Of-Speec...

    分类:技术文章 时间:2019-11-30 23:30 我要评论(0个)

  • 1488 views阅读

    自然语言处理工具包之TextBlob

    TextBlob简介 TextBlob是一个用Python编写的开源的文本处理库。是自然语言工具包(NLTK)库的一个包装器,目的是抽象其复杂性。它可以用来执行很多自然语言处理的任务,比如,词性标注,名词性成分提取,情感分析,文本翻译,等等。 主要特性: ...

    分类:技术文章 时间:2019-11-30 23:30 我要评论(0个)

  • 1531 views阅读

    自然语言处理之spaCy

    spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大...

    分类:技术文章 时间:2019-11-30 23:30 我要评论(0个)

  • 1646 views阅读

    自然语言处理之小明NLP

    最近在盘点Python下的自然语言处理包,今天发现的这个小明NLP,本身这个工具算是一个比较普通的工具,但中间的一个小点吸引到了我,所以这里记录下。 小明NLP的主要功能: 中文分词 & 词性标注 支持繁體 支持自定义词典 中文拼写检查 文本摘要...

    分类:技术文章 时间:2019-11-30 23:30 我要评论(0个)

  • 1383 views阅读

    中文分词工具盘点之SnowNLP

    SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是...

    分类:技术文章 时间:2019-11-23 11:30 我要评论(0个)

  • 1687 views阅读

    中文分词工具之哈工大LTP

    LTP是哈工大出品的自然语言处理工具箱, LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。pyltp是python下对ltp(c++)的封装。 Pyltp在linux环境下安装非常的简单,仅需执...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 1942 views阅读

    中文分词工具盘点:FoolNLTK

    FoolNLTK简介 FoolNLTK是一个使用双向 LSTM (BiLSTM 模型)构建的便捷的中文处理工具包,该工具不仅可以实现分词、词性标注和命名实体识别,同时还能使用用户自定义字典加强分词的效果。根据该项目所述,这个中文工具包可能不是最快的开源中文...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 1410 views阅读

    斯坦福大学自然语言处理包StanfordNLP

    最近在推荐点评的影响抽取,中间涉及到分词后的词性识别,看了各种开源分词工具,主要是词性标注集存在差异,最终选定了斯坦福大学的NLP。 StanfordNLP的词性标记(中文) 动词,形容词(4种):VA,VC,VE,VV 谓词性形容词:VA 谓词性形容词大...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 1414 views阅读

    scikit-learn中的文本特征提取

    文本分析是机器学习算法的主要应用领域。由于大部分机器学习算法只能接收固定长度的数值型矩阵特征,导致文本字符串等并不能直接被使用,针对此问题scikit-learn提供了将文本转化为数值型特征的方法,今天就一起来学习下。 scikit-learn中的skle...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)

  • 1650 views阅读

    黑客马拉松 (Hackathon):POI去重记录

    10月24日参加了公司举办的黑客马拉松,我们选的题目是POI的去重。给到的数据格式如下: 目标是去重重复数据。组委会一开始给了训练集数据,对这部分数据进行了分析,发现给到的数据错漏百出: 从结果看,此部分所谓的训练数据并非人工整理,而是仅对POI名称按...

    分类:技术文章 时间:2019-11-21 23:30 我要评论(0个)