河源信息港

当前位置: 首页 >旅游

抓虾更新FeedBurner缓慢的原因

来源: 作者: 2019-04-11 04:41:48

我在使用抓虾的时候,发现一个很奇怪的现象,就是有时候抓虾更新FeedBurner的内容会非常慢。

因为我自己的Feed是使用FeedBurner的服务,因此我对阅读器的更新时间还是比较注意的,通常情况下,FeedBurner的Feed更新了之后,Bloglines对其抓取是很快的,基本上是在一个小时以内,而抓虾有时候也会在一个小时内抓取,但是有时候却要花半天的时间才能抓取到新的Feed。

其实这个现象我在其他国内阅读器上也见过,比如以前用过的gougou,有一段时间我发现gougou对于FeedBurner的Feed内容竟然长达半个月都不更新,看来这可能是一个普遍现象。

原因是什么呢?

根据我的分析,抓虾和gougou都是在国内,而Bloglines在国外,他们一起抓FeedBurner的内容,在络正常的情况下,应该都是没有问题的,问题是Bloglines和FeedBurner之间的连接是始终通顺的,而抓虾和gougou与FeedBurner之间还隔着一道防火长城。

因此我推测可能的原因是,当某个抓虾的爬虫去抓一个含有敏感关键字的FeedBurner的链接的时候,将会导致 连接被重置 ,并且之后的几十分钟,从抓虾爬虫的IP到FeedBurner之间会一直不通二手空调回收
,当下一次爬虫再去抓取的时候,又会 连接被重置 ,于是这样反反复复,导致了抓虾始终难以继续更新FeedBurner,而Bloglines则不会出现这样的问题。

如果验证的确是这个问题的话,那么抓虾可以使用以下方法来解决这个问题。

方法一:抓虾爬虫使用国外的https代理服务器来抓取FeedBurner的内容,这样抓取的内容将经过加密,连接就不会再被重置了。

方法二:将抓虾爬虫放在国外的服务器上去抓取FeedBurner的内容,然后定时和国内进行同步更新。同步的时候不要使用常用的http协议,而使用其他协议,如果要使用http协议,则同步的内容需要进行编码(比如用ZIP压缩或者使用XOR加密),这样也可以解决问题。

为什么抓FeedBurner会有问题呢,比如就是一个敏感关键字,为了访问technorati,可能有人会使用FeedBurner来烧录Technorati的Feed以访问Technorati(我就是这么做的),那么会不会产生Technorati这样的 非法关键字 导致 连接被重置 呢?当然所谓的非法关键字实在太多,也实在防不胜防。

,我呼吁中国电信能将从非法关键字的清单中清除,虽然我知道这样的呼吁通常是毫无结果的。

我即便近没有过滤词

google还是时常上不去

gmail也老掉线

安全的地方其实是危险的地方

大公报虽然是亲北京的,大陆办的

但我在他站上发现站把近百年的报道全搞上了

造成的结果是80年代的历史很详细

而且当时主编被免职后大公报的语气108度大变化

很好的了解当代史的一本教科书

其实在路上看电视也是突破封锁的一种方式

封锁只针对文字和图片,对视频可能效果小一些

ZF并没有把外国电视台站全封掉

TVB ATV CNN NBC还有很多提供的电视台都可以看,而且很流畅

台湾的电视台我只有中天能够成功登陆,不过节目还算流畅

不知道ZF今后会不会也把那些站也作为过滤词

2006/7/21 8:24:59 支持(17)反对(8) 回复

我是秀楠爸爸。

dreamhost支持java啊,只是不支持jsp和servlet洛阳装岩机报价
。只要编写console下的java程序读取rss feed,然后加上cron就可以。

它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

运行效果可以看我这里,“都是有趣的blog 。

还有左边栏的友情链接更新也是用的这个“blog手拉手”程序。效果感觉相当满意哦,嘿嘿。

希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。

通过添加一个javascripts就可以了。

2006/7/22 16:25:56 支持(8)反对(8) 回复

我是秀楠爸爸。

dreamhost支持java啊,只是不支持jsp和servlet。只要编写console下的java程序读取rss feed,然后加上cron就可以。

它还支持ruby,python,wget几乎都有了,所以有些小缺陷,我觉得还不错。

运行效果可以看我这里,“都是有趣的blog 。

还有左边栏的友情链接更新也是用的这个“blog手拉手”程序捕鱼手游
。效果感觉相当满意哦,嘿嘿。

希望williamlong有机会也帮忙试用测试一下。能帮忙宣传就更好了。

通过添加一个javascripts就可以了。

2006/7/22 10:15:46 支持(7)反对(11) 回复

(*)

验证(*)

相关推荐