问题:使用python的requests模块抓取页面时出现乱码
解决:获取页面的content,使用str(r.content, 'utf-8')就可以解决了
方法:
方法一:
r = requests.get(url)
html = str(r.content, 'utf-8')
方法二:
可能是python版本或什么原因,方法一报错:TypeError: str() takes at most 1 argument (2 given)
r = requests.get(url)
r.encoding = 'gb2312' # 设置获取的内容编码为gb2312,注:和页面上编码一致
html = r.text
注:r.text返回unicode型数据,r.content返回bytes型数据
参考:
http://blog.csdn.net/xie_0723/article/details/51361006