当前标签: 首页 >> 爬虫
«   2020年3月   »
1
2345678
9101112131415
16171819202122
23242526272829
3031
文章归档
网站分类
控制面板
您好,欢迎到访网站!
  查看权限
标签列表
最新留言

360自动收录js脚本严重拖慢网站加载

最近发现网站第一次访问特别慢,由于使用了Microsoft Edge,没有注意到什么原因,一直还以为是自己家里网速不稳定;今天在别的浏览上打开,发现加载js.passport.qihucdn.com时用的时间很久,看了下码源,发现是360自动收录的脚本,直接关闭算了,反正360收录对我影响不大,然后速度果然上来了;

来访蜘蛛统计20181026

一个早上不到来访蜘蛛统计上看到各种蜘蛛来的频率倒是很频繁,流量却没有几个,。ID蜘蛛名称蜘蛛IP抓取时间抓取地址抓取状态11584Google203.208.60.1002018-10-26 11:16:59http://blog.jues.org.cn/post/mtk-gong-neng-ji-jing-que-ding-shi-qi-kalsettimer-shi-yong.html20011583Google203.208.60.392018-10-26 11:15:55http://b

Java使用PhantomJS替代HtmlCleaner来获取由JS生成的动态内容

用Java做爬虫一般用HtmlCleaner就已经足够了,HtmlCleaner使用请参考: HtmlCleaner的简单示例;但由于一些网站为了防止别人恶意采集,使用JS脚本动态生成页面内容,有效防止大部门爬虫软件;还好PhantomJS能够模拟浏览器(本来就是一个无界面的浏览器)来获取页面的最终内容,安装请参考:CentOS7安装和使用PhantomJs例子: 文件:demo001.javaimport pers.jues.network.http.PhantomJS; pu

HtmlCleaner的简单示例(适合入门者参考)

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。官方下载地址: http://htmlcleaner.sourceforge.net/download.php例:import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.TagNode; import org.htmlc

Powered By Z-BlogPHP 1.5.2 Zero Powered By Z-BlogPHP © 2018 jues博客 Copyright Your WebSite.Some Rights Reserved.联系站长 Themes by jues