Python能做很多事,而爬虫则是获取信息的快速方法。
很多时候我们只是针对一个特定的网站去爬,而不去考虑程序的通用性。
下面给出爬取网页文章的pythonGUI程序,是用wxpython写的。可以抓取CSDN、简书、基于wordpress的博客、各大国内外新闻网站等文章。
虽然能爬取大多数网站的文章,但是对于代码丰富的文章,暂时还不能爬取,因此代码正在完善中。
部分代码:
源码下载地址:https://download.csdn.net/download/xyisv/10425192
测试:
①抓取简书文章:
自动保存到当前目录下的txt文件中来:
②抓取网易新闻:
源码下载地址:https://download.csdn.net/download/xyisv/10425192
网站所有原创代码采用Apache 2.0授权
网站文章采用知识共享许可协议BY-NC-SA4.0授权