现在的互联网来说,包含着各种海量的信息,无孔不入,包罗万象。出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。让我们说的稍微好听一点,网络爬虫就是按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
最近Python的风刮的很大,才知道爬虫技术在我们生活中已经被应用的这么广泛,从出行抢票、社交评论点赞、不同电商平台的产品价格比较、搜索引擎网页排名,到个人信用信息获取灯,爬虫就像是我们的分身,可以帮助我们去做原本要做成千上万次的工作;但是爬虫作为技术本来就是双刃剑,所以也会有反爬虫技术,关键在于如何去正确地规范地使用这项技术。