数据爬取和数据分析案例

数据爬取:

*如何入门 Python 爬虫?

专栏:Python爬虫入门教程

Python爬虫学习系列教程

模拟登录一些知名的网站,为了方便爬取需要登录的网站

Python 爬虫-模拟登录知乎-爬取拉勾网职位信息

Python写的链家爬虫 代码+数据

数据爬取工具或框架:

scrapy

Hawk 【重磅开源】Hawk-数据抓取工具:简明教程

pyspider

使用Wget下载整个网站
you-get(Releases · soimort/you-get · GitHub这里面有各种发布版本)。

刚开始写爬虫用的是urllib2,后来知道了requests,惊为天人。
刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。
再后来看别人的爬虫,知道了scrapy,被这个框架惊艳到了。
之后遇到了一些有验证码的网站,于是知道了PIL。但后来知道了opencv,pybrain。当在爬虫中用上人工神经网络识别出验证码,兴奋得守在爬虫旁边看他爬完全站。
再后来知道了threading,知道了celery。(知乎)

使用Python进行验证码识别

数据分析案例:

有哪些网站用爬虫爬取能得到很有价值的数据?

2016豆瓣电影可视化分析报告

京东百万记录分析中国人罩杯分布 | 上150万数据 密码:guvy)

用Python侦测比特币交易的网络可视化分析

如何通过房屋租售比来判断房产的价值或泡沫?
你用 Python 做过什么有趣的数据挖掘/分析项目

知乎问题爬虫

知乎数据 API 接口 (node.js)

拉勾职位信息爬取

赶集租房信息

链家爬虫 (数据:链家数据

使用Python进行验证码识别

个人博客:

沙漠之鹰

发表评论

电子邮件地址不会被公开。 必填项已用*标注