新年10个Flag实现中~
访问量
2.9M
文章数
156
运行天
1567
前言在之前《用Python爬取双色球开奖信息(升级版)》中已经介绍了简单的urllib+re正则的方式来提取每天的双色球数据,当然这是有用的,虽然数据量少,但是可以用来做一些比如“买了股票自动比对中奖情况然后推送”这一类程序或网页。但这种爬取方式仍然存在问题:容易被网站的反爬虫或者反作弊发现。也就是说,你爬取这些接口,那边的服务器系统会有日志的,并且有自动处理程序,甚至会有机器学习的程序。尽管这种数据没有什么敏感性,根本不会来封你的IP,不过也要养成良好的爬虫习惯,至少——在爬取的时候加个header,不要被一句简单的awk命令就给筛选出来安排得明明白白了(我在实习的时候经常一句awk就筛出那些刷金币刷花接口的小同学,尽管大佬们提供了svm机器学习模型来自动处理)。注意到有的网站提供了大量的
1