Blog

Blog

PHODAL

从个人博客到公众号:与聚合网站抗争的无奈辛酸史

在微博上看到 @yanhaijing 的关于“收集转载文章不添加原文链接的网站”的一文,我不禁想忍着这该死的手部神经压迫来写一篇文章说说我的经历及感受。

本文主要分成四个部分来讲博客发展历程、聚合网站的危害、与聚合网站斗争、吐槽聚合网站。

博客的发展历程

从我开始写技术博客到现在,共计已经有639篇博客了,加上此文共计640篇。最开始写博客的时候是在CSDN上面写,一是CSDN是最大的中文社区网站,二是上面会有很多读者。

在写了几十篇后发现,文章开始被转载。这里说的转载是指“带有原文链接”的转载,同时这个链接也会被Google、百度、必应的爬虫抓取。然而,在第三方博客上写文章总会缺少很多关键性的数据,如流量来源、用户设备信息等等。同时在这些网站上也会有对应的推荐机制,而如果我们的文章很难被推荐的话,那么我们的读者就特别少。

接着,我就开始建立我自己的博客,详细可见:《听我说说我的博客》。后来,发现这是一个明智的决定。在使用和分析的过程中,我学到了很多的东西:

  • SEO优化
  • Google Analytics
  • 网站性能分析与优化
  • 等等

同时,也从扩展博客的功能上实践了一些不错的新技术,如Angluar、Ionic、HTTP 2.0、微信公众号集成等等。而随着流量的增大 ,便遇到越来越多的被“复制”问题。之所以说是复制是因为连转载都不配。

作为一个创作者,我不希望自己的作品出现在不喜欢的地方。

聚合网站的危害

当我开始意识到我需要与聚合网站作战的起因是,我的博客在Google中的索引在不断地下降。如我在《博客反爬虫 策略一——根据User Agent》 所看到的索引值一样在下降。

Anti Bad Bots

索引值下降通常不外乎几个简单的原因:

  1. Google修改爬虫算法
  2. Google认为你作弊了(一些不合法的SEO规则)
  3. Google认为你的内容对用户无用 (如重复,太短)
  4. 等等

而我们面对的降合网站应该属于第三种结果,他们复制我们的文章,然后Google认为我们作弊了!!!这是什么概念?

别人抄了你的作业,然后老师说你抄袭! 别人抄了你的作业,然后老师说你抄袭! 别人抄了你的作业,然后老师说你抄袭!

长此以远,你在Google中就看不到你的文章了。当时我也遇到了类似的情形,于是我开始反击。从禁止特爬虫到限制RSS的长度,也才有了下面的结果:

Google index Results

但是第二个网站仍然是聚合网站,What's the fuck。对于我来说,这已经是很好的结局,在Google中的第一个结果是自己的文章。对于必应来说也是一个不错是的结果,然而下面仍然是一堆的聚合网站:

Bing Index Results

而这是聚合网站的索引,在百度、360搜索、搜狗等等的搜索引擎就没有那么好运。

与聚合网站斗争

你辛辛苦苦写地东西就这样无情地被盗取了,想想便觉得还是GitHub好,至少可以看到有多少人Fork你的代码。虽然是不同类似的网站,但是作为一个技术人员我们总是应该做出点什么。

首先,我们要理解为什么他们的排名会比我们高——主要是因为他们的Rank高,即他们的网站排名比我们高。毕竟,他们抄袭了那么多的网站,很容易就排到我们前面去了。

他们主要有下面两种行为:

  • 转载不添加链接
  • 原文链接包含rel=nofollow标签 (告诉Google不要前往此链接)

而他们转载文章的基本手法也就是:

  • RSS转载
  • 爬虫

而对于RSS转载来说,一种很有效的策略就是限定字符的全文输出,并且在RSS的最后加一个原文链接。如下图所示:

With Origin Links

尽管原文链接会被加上rel=nofollow,但是有趣的一点出现了。我们的文章是全文输出,而聚合网站的文章则会变成摘要~~,你懂的。搜索引擎就会知道哪里会有问题。与此同时一种有效的策略就是使用图片——放在自己网站上的图片,而这个图片多数时候也会被复制过去。那么胜利的天平将会向你倾斜。

与此同时,还可以在一些Rank更高的网站上粘贴自己的文章,这是我最近在尝试的。但是这招只对于Google、Bing来说是有效的,对于百度来说,你懂的钱多就行了——从不指望百度可以从SEO中获取一些好处。并且在这些网站上粘贴上原文链接,那么依据Page Rank就会有下面的结果:

Page Rank for Copy Website

除此还有防不胜防的爬虫,不断地修改自己的Rule?这就会变成一场无止尽的斗争。

而且我已经累了,我想要有更多写作时间,而不是娱乐时间。

公众号与吐槽聚合网站

接着,我便开始转身微信公众号的使用——因为有原创的功能。尽管这是一条很漫长的路,但是不变则死——虽然变则半死不活。

在过去的半年里,我开始使用微信公众号(搜索Phodal即可)。也在不同的地方放置了我的公众号二维号:

Phodal QRCode

而这是一条很漫长的路,但是事物总应该要去改变。事情总算是有了一点生机,尽管每篇文章的阅读量只有几百,但是足够了。

wechat-people.jpg

见证了过去几年博客的流量增长,我觉得比以前好多了:

blog-history.jpg

而可以在微信公众号上使用原创便意味着很多事。过去在国内我们用不了Google,多数人就无力对抗聚合网站。现在我们又有了一些新的生机,原创就意味着在转载的时候,会导流量。

微信公众号是一个闭合的原创空间,这意味着我推广的成本特别大。我也开始尝试使用今日头条的公众号,总的来说最近两篇文章阅读量还不错:

toutiao-read.jpg

一个可以聚合更多的粉丝,一个可以让更多的人阅读。作为一个创作者,何乐而不为呢?

那么,越来越多的人将往这方面发展,这也意味着Copy的成本在不断地加大。

你再也不能再随意Copy了!

我们可以再次自由地创作——作为一个创作者,我不希望自己的作品出现在不喜欢的地方。

尽管对于代码来说,这并不是一件好事,在上面阅读代码不是一件容易的事。而我也开始集中型的在GitHub上写作,虽然有GitBook这样的工作,但是GitHub可以演示代码。

关于我

Github: @phodal     微博:@phodal     知乎:@phodal    

微信公众号(Phodal)

围观我的Github Idea墙, 也许,你会遇到心仪的项目

QQ技术交流群: 321689806
comment

Feeds

RSS / Atom

最近文章

关于作者

Phodal Huang

Developer, Consultant, Writer, Designer

InfoQ社区编辑,CSDN前端博客专家

毕业于西安文理学院电子信息工程专业,现就职于 ThoughtWorks。

长期活跃于开源软件社区 GitHub,专注于物联网和前端领域。

著有《自己动手设计物联网》(电子工业出版社)、曾作为技术专家审阅英国 Packt 出版社的物联网书籍《Learning IoT》、《Smart IoT》等书。

在 GitHub 开源有《Growth:全栈增长工程师指南》等六本电子书,并译有《物联网实战指南》。

联系我: h@phodal.com

标签

最近的一些事