Python爬取豆瓣电影

Python爬取豆瓣电影

需要导入的模块:

from urllib import request

import urllib

from html.parser import HTMLParser

关于

HtmlParser,顾名思义,是解析Html的一个工具。python自带的。

一、常用属性和方法介绍

HtmlParser是一个类,在使用时一般继承它然后重载它的方法,来达到解析出需要的数据的目的。

1.常用属性:

lasttag,保存上一个解析的标签名,是字符串。

2.常用方法:

handle_starttag(tag, attrs) ,处理开始标签,比如<div>;这里的attrs获取到的是属性列表,属性以元组的方式展示
handle_endtag(tag) ,处理结束标签,比如</div>
handle_startendtag(tag, attrs) ,处理自己结束的标签,如<img />
handle_data(data) ,处理数据,标签之间的文本
handle_comment(data) ,处理注释,<!-- -->之间的文本

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注