数据爬取:
数据爬取工具或框架:
使用Wget下载整个网站
you-get(Releases · soimort/you-get · GitHub,这里面有各种发布版本)。
刚开始写爬虫用的是urllib2,后来知道了requests,惊为天人。
刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。
再后来看别人的爬虫,知道了scrapy,被这个框架惊艳到了。
之后遇到了一些有验证码的网站,于是知道了PIL。但后来知道了opencv,pybrain。当在爬虫中用上人工神经网络识别出验证码,兴奋得守在爬虫旁边看他爬完全站。
再后来知道了threading,知道了celery。(知乎)
数据分析案例:
京东百万记录分析中国人罩杯分布 | 上( 150万数据 密码:guvy)
如何通过房屋租售比来判断房产的价值或泡沫?
你用 Python 做过什么有趣的数据挖掘/分析项目
个人博客: