聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 2834326 views阅读

    使用余弦定理计算文本相似度

    什么是余弦定理 学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。 余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对...

    分类:技术文章 时间:2016-09-30 16:35 我要评论(0个)

  • 2053869 views阅读

    使用Python自动提取内容摘要

    利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。近年来,自动摘要、信息检索、信息过滤、机器识别、等研究已成为了人们关注的热点。 自动摘要(Automatic Summarization)的方法主要有...

    分类:技术文章 时间:2016-09-25 00:45 我要评论(0个)

  • 1824483 views阅读

    使用Python计算文本相似性之编辑距离

    在做爬虫的时候,很容易保持一些相似的数据,这些相似的数据由于不完全一致,如果要通过人工一一的审核,将耗费大量的时间,在上一遍介绍simhash的文章中,提到了编辑距离,我们先来了解下什么是编辑距离。 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删...

    分类:技术文章 时间:2016-09-24 02:05 我要评论(0个)