监督学习与无监督学习
在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域, 主要分为:监督学习,非监督学习,半监督学习和强化学习。监督学习主要用于回归和分类;半监督学习主要用于分类,回归,半监督聚类;无监督学习主要用于聚类。 监督学习(supervised learning) 概念理解 监督学习是机器学习的类型,其中机器使用“标记好”的训练数据进行训练,并基于该数据,机器预测输出。标记的...
聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长
在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域, 主要分为:监督学习,非监督学习,半监督学习和强化学习。监督学习主要用于回归和分类;半监督学习主要用于分类,回归,半监督聚类;无监督学习主要用于聚类。 监督学习(supervised learning) 概念理解 监督学习是机器学习的类型,其中机器使用“标记好”的训练数据进行训练,并基于该数据,机器预测输出。标记的...
日常生活中,生物识别技术已经是多数智能手机的标配,大多数手机具备人脸识别、指纹识别等功能,目前的指纹识别技术已经非常成熟。但我们今天要聊的并不是生物识别技术中的指纹识别,而是浏览器指纹。很多人对这项技术是又爱又恨,这究竟是为什么呢?那我们今天就来深入了解下浏览器指纹。 什么是浏览器指纹? 人的指纹千变万化,具有唯一性,可以作为人的身份标识。同时人的姓名、身份证号、相貌特征也可以作为唯一的身...
在听《字谈字畅》节目的时候了解到了一个新的概念:中文拼音正词法。 《中文拼音正词法基本规则》是中华人民共和国国家标准GB/T 16159—1996,1996-01-22国家技术监督局发布,1996-07-01实施。以下为摘录内容: 总原则 拼写普通话基本上以词为书写单位。 rén (人) pǎo (跑) hǎo (好) hé (和) hěn (很) fúróng (芙蓉)...
对于深度学习或机器学习模型而言,我们不仅要求它对训练数据集有很好的拟合(训练误差),同时也希望它可以对未知数据集(测试集)有很好的拟合结果(泛化能力),所产生的测试误差被称为泛化误差。度量泛化能力的好坏,最直观的表现就是模型的过拟合(overfitting)和欠拟合(underfitting)。过拟合和欠拟合是用于描述模型在训练过程中的两种状态。一般来说,训练过程会是如下所示的一个曲线图。...
监督机器学习的关键方面之一是模型评估和验证。当您评估模型的预测性能时,过程必须保持公正。为了制作训练数据(training samples)和测试数据(testing samples),常使用sklearn里面的sklearn.model_selection.train_test_split模块。 拆分数据集对于无偏见地评估预测性能至关重要。在大多数情况下,将数据集随机分成三个子集就足够了...
数据应用一般会有采集、加工、存储、计算及可视化这几个环节。其中采集作为源头,在确保全面、准确、及时的前提下,最终加工出来的指标结果才是有价值的。而埋点作为一种重要的采集手段,可以将用户行为信息转化为数据资产,为产品分析、业务决策、广告推荐等提供可靠的流量数据支持。 一份埋点规范文档既能规范工作流程提高效率,又能明确需求规范减少沟通成本避免理解出现偏差。但是如果一开始的埋点规范文档由经验不足...
APP唤醒与场景还原 在App投放推广中,唤醒用户是常见的运营策略。想要让用户重新活跃起来,转化用户的行为,必须从场景上还原用户的路径,从根本上找到用户增长的奥秘。 在这个广告漫天的时代,相信大多数用户在使用App的时候都遇到类似的场景:在使用某资讯类App的时候,浏览到了淘宝的商品广告,当你点击该广告内容时,自动打开了你手机上已经安装的淘宝App并且定位到了该商品的详情页。 作为用户,...
Hive简介 Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具。可以将结构化的数据映射为一张数据库表并提供 HQL(Hive SQL)查询功能。底层数据是存储在 HDFS 上,Hive的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的...
关于指标体系的搭建,网上可以找到很多方法论。方法论本身没有什么问题,但很多时候实践出来的结果并没有预想的那么好。主要障碍是当按照指标体系搭建完成报表后,你会发现这些报表实际对业务的帮助非常的小。这就引出了另外一个课题:如何使用指标体系。 什么是指标体系? 指标是一个可以量化目标事物多少的数值,有时候也称为度量,如:DAU、留存率等都是指标。一个指标通常需要从多维度来分析指标构成,这就要求指...
针对APP的黑产,我们提到部分用户会通过改变IP来绕过风控策略。更改IP比较方便的方法是使用代理IP或VPN。 在检测APP安全性是需要对是否使用代码和VPN做判断。以下为整理的一些代码供参考。 Android判断是否使用代理IP private boolean isWifiProxy(Context context) { final boolean IS_ICS_OR_LATER ...
这篇一开始文章整理于2014年,在此的7~8年时间里,Hadoop已经发生了很多变化,但最为核心的内容并没有变化那么多,当时的文章还是有一定的参考意义。再次重新做下整理。 Hadoop的概要介绍 Hadoop,是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易...
Google,作为全球最大的搜索引擎公司,其伟大之处不仅在于建立了一个强大的搜索引擎,还在于它创造了3项革命性的技术,即:GFS、MapReduce 和 BigTable。作为 Google 早期三驾马车,这三项革命性的技术不仅在大数据领域广为人知,更直接或间接性的推动了大数据、云计算、乃至如今火爆的人工智能领域的发展。 2004年12月5日,Google 在美国旧金山召开的第6届操作系统...