unsplash是个高清摄影图片的网站,里面的照片非常精美,分辨率也很高。最重要的是,所有的照片都没有版权,无须向原作者申请授权,即可任意使用。
最近闲暇的时候写了个爬虫爬了下unsplash上的那些高赞的壁纸,爬虫原理非常简单,就是爬取所有的壁纸,然后筛选那些赞数高的图片。
第一步我们爬取unsplash所有的壁纸图片信息,并存入mongodb。
代码如下:
爬下来的数据里面包含了几个重要的字段。
我们最关心的就是likes这个字段,这个里面存了图片的赞数,后续我们筛选高赞图片的时候会用到。
还有两个字段分别是width和height,这是图片的宽度和高度,因为我们这里关注的是桌面壁纸,所以只关心宽度大于高度的那些壁纸。
爬完图片信息后,接下来我们从数据库筛选高赞图片。
代码如下:
这里我们会根据图片信息里的url去下载图片。需要注意的是,如果过于频繁地爬取unsplash,会导致爬虫被封,所以这里每次下载完都会睡个10秒钟。
以上,就可以爬取出精美的高清壁纸啦。
作者沈仲强,资深python程序员,先后供职于morgan stanley和ebay,擅长爬虫、web开发、数据分析。
(郑重声明:本文版权归原作者沈仲强所有,转载文章仅为传播更多信息之目的,如有侵权,请联系我们删除;如作者信息标记有误,请联系我们修改。)
浅析网站建设公司的现状网站上线后,网站维护的重要性如何在网站SEO优化中优化和调整图片怎么建立网站词库每周更新一个叙词表系列之二:1.的系统操作方法这是一家济宁非常优秀的网站制作公司网站导航结构优化的方法怎样制作一个让客户信任的专业企业网站网站优化应该从哪些方面开始做起