聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 6452 views阅读

    如何抓取汽车之家的车型库

    实际上,关于「如何抓取汽车之家的车型库」,我已经在「使用 Mitmproxy 分析接口」一文中给出了方法,不过那篇文章里讲的是利用 API 接口来抓取数据,一般来说,因为接口不会频繁改动,相对 WEB 页面而言更稳定,所以通常这是数据抓取的最佳选择,不过利...

    分类:技术文章 时间:2017-02-02 09:00 我要评论(0个)

  • 5511 views阅读

    使用Mitmproxy分析接口

    对于服务端开发者来说,通过抓包分析接口是必备技能之一,常见工具有 Charles 和 Fiddler 等等,不过 Charles 是收费的,Fiddler 虽然是免费的,但是其 Mac 版还不稳定,本文使用另一个工具:Mitmproxy。 Mitmpro...

    分类:技术文章 时间:2017-01-22 22:10 我要评论(0个)

  • 4445 views阅读

    真假百度蜘蛛的甄别

    虽然百度的口碑并不好,但是不可否认的是,它一直是中文搜索中的霸主,所以对大多数中小型商业公司而言,都对百度蜘蛛的抓取行为予以放行,不过还有很多非法的蜘蛛,它们会通过 User-Agent 把自己伪装成百度蜘蛛,此时如果单纯以 User-Agent 来判断是...

    分类:技术文章 时间:2017-01-20 01:55 我要评论(0个)

  • 5652 views阅读

    Laravel专供:实现Schemaless

    之所以要实现 Schemaless,主要是因为在线 DDL 有很多痛点,关于这一点,我在以前已经写过文章,没看过的不妨看看「史上最LOW的在线DDL解决方案」,不过那篇文章主要以介绍为主,并没有涉及具体的实现,所以我写了一个 Laravel 的例子。 首...

    分类:技术文章 时间:2017-01-15 08:10 我要评论(0个)

  • 6213 views阅读

    自动打Tag杂记

    给一段文字标记 Tag 是一个很常见的需求,比如我每篇博客下面都有对应的 Tag,不过一般说来,Tag 是数据录入者人为手动添加的,但是对大量用户产生的数据而言,我们不能指望他们能够主动添加合适的 Tag,于是乎就产生了这样的需求:自动打 Tag。 实际...

    分类:技术文章 时间:2017-01-08 11:00 我要评论(0个)

  • 6062 views阅读

    SQL里是否可以使用JOIN

    很多公司都禁止程序员在 SQL 中使用 JOIN,至于原因则出奇的一致:用 JOIN 慢。不过我从没见过谁来论证为什么用 JOIN 慢,结果这个人云亦云的结论越传越广,让我觉得是时候来讨论一下这个看似正确的结论了。 举个例子:查询最新的十篇帖子和对应的用...

    分类:技术文章 时间:2016-12-18 18:40 我要评论(0个)

  • 4801 views阅读

    手把手教你用Dropwatch诊断问题

    老实说,Dropwatch 并不是什么新鲜玩意,很多年前霸爷就专门撰文介绍过它,通过它可以大概找出系统为什么会丢包,其原理就是跟踪 kfree_skb 的调用行为。不过虽然很多人知道它的存在,但是却并不知道如何具体使用它,所以我写下了这篇文字。 以 Ce...

    分类:技术文章 时间:2016-12-15 21:25 我要评论(0个)

  • 4298 views阅读

    如何正确设置CRON定时任务

    相信很多人看了标题后都会纳闷:设置 CRON 定时任务有什么难的?不过请相信我,正确设置 CRON 真的不是一件简单的事情!各位看官不妨听我慢慢道来。 关于 CRON,出镜率最高的一个问题莫过于:为什么手动执行一切正常,放到 CRON 里就不执行呢?实际...

    分类:技术文章 时间:2016-12-13 01:05 我要评论(0个)

  • 5672 views阅读

    实战ElasticStack

    我对 ElasticStack 可以说是既熟悉又陌生,说熟悉是因为很久以前就已经开始使用 ELK 来分析日志了,说陌生是因为以前的 ELK 环境都是同事搭建的,我主要是看看 Kibana 面板而已。随着 V5 的发布,ELK 全面进化为 ElasticSt...

    分类:技术文章 时间:2016-12-12 02:20 我要评论(0个)

  • 4249 views阅读

    谈谈PHP的Reload操作

    通常修改了 PHP 的配置后,为了让修改生效会执行 reload,而不是 restart,因为有很多前辈告诫过我们,reload 能保证整个过程的平滑性,所谓平滑性指的是在 reload 的过程中,旧的进程在处理完当前请求前不会提前终止。很多年来,我从来没...

    分类:技术文章 时间:2016-12-12 02:20 我要评论(0个)

  • 5056 views阅读

    手把手教你用Sar诊断问题

    如今各种高大上的监控工具早已经让人目不暇接了,但是熟悉基础的 Linux 监控命令依然是必要的,就好比 IDE 再好用,我们也得学会 vi 或者 emacs 才行。如果让我选一个必须学会的 Linux 监控命令的话,那么我想我一定会选 sar,没有之一。 ...

    分类:技术文章 时间:2016-12-03 13:05 我要评论(0个)

  • 5469 views阅读

    史上最LOW的在线DDL解决方案

    说起在线 DDL,最常见的操作莫过于在线加一个字段或者索引,不过如果数据量比较大的话,伴随而来的往往是长时间的等待,更要命的是系统在操作期间很可能会出现不可用的情况,所以一般只能等到凌晨操作,简直就是梦魇一般的存在。 在 PostgreSQL 中,如果注...

    分类:技术文章 时间:2016-11-24 23:55 我要评论(0个)