爬虫的数据爬取量非常大,显然不可能对每个页面都手动复制源代码,因此就有必要使用自动化的方式来获取网页源代码requests是Python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库,它比Python自带的网络库urllib更加简单、方便和人性化。
使用requests可以让Python实现访问网页并获取源代码的功能使用requests获取网页的源代码,最简单的情况下只需要两行代码:#使用requests获取源代码import requestssource = requests.
get(https://www.baidu.com).content.deocde()一、Python的第三方库 在Python开发的过程中,常常需要将一些功能比较通用的代码抽离出来作为一个单独的模块,从而被多个工程调用。
这种公共的模块称为Python的库(Library,Lib)Python在发布时会自带一些由官方开发的常用的库,例如正则表达式“re”、时间“time”等这些库称为“官方库”而由非官方发布的库,则称为“第三方库”。
Python之所以如此强大,正是由于它拥有非常多的第三方库使用第三方库,可以轻易实现各种各样的功能以获取网页内容为例,Python其实自带了两个模块,分别是urllib和urllib2使用这两个模块也可以获取网页内容。
但是这两个模块使用起来非常麻烦而requests这个第三方库,让获取网页内容变得极其简单requests这个库的作者给这个库取了一个副标题“HTTP for humans”,直接翻译过来就是“这才是给人用的HTTP库”。
Python的第三方库需要手动安装如果系统只有一个Python版本,那么手动安装第三方库时需要在Mac OS/Linux的终端或者Windows的CMD中执行以下命令:pip install第三方库的名字。
需要注意的是,如果系统同时有Python 2和Python 3,并且Python 3是后安装的,那么要为Python 3安装第三方库,就需要使用如下命令:pip3 install第三方库的名字
安装完第三方库以后,就可以在Python中使用了使用第三方库,就像使用Python自带的库一样,首先需要使用“import”关键字将它导入,然后才能使用还有一点需要特别强调,开发者自己写的.py文件的名字绝对不能和Python自带的模块或者已经安装的第三方库的名字相同,否则会产生问题。
例如,内容涉及requests和正则表达式,那么开发在测试代码的时候绝对不能自行创建名为“requests.py”或者“re.py”的文件官方的或第三方库名字一样一旦创建,代码必定报错二、requests介绍与安装
使用pip安装requests,代码如下:pip install requests pip在线安装时可能会受到防火墙的干扰,因此也可以使用源代码安装打开网页https://github.com/kennethreitz/requests,单击“Clone or download”按钮,再单击“Download ZIP”按钮下载源代码,如图所示。
解压源代码,找到setup.py,并打开CMD窗口或者终端,在放置这个setup.py文件的文件夹中执行以下代码:python3setup.pyinstall
安装完成以后打开CMD或者终端,进入Python交互环境,输入以下代码>>>import requests 如果不报错,则表示requests已经成功安装,如图所示:
三、使用requests获取网页源代码 使用浏览器来访问网页,看起来只需要输入网址就可以但其实网页有很多种打开方式,最常见的是GET方式和POST方式在浏览器里面可以直接通过输入网址访问的页面,就是使用了GET方式。
还有一些页面,只能通过从另一个页面单击某个链接或者某个按钮以后跳过来,不能直接通过在浏览器输入网址访问,这种网页就是使用了POST方式1.GET方式 对于使用GET方式的网页,在Python里面可以使用requests的get()方法获取网页的源代码:
import requestshtml = requests.get(’网址’)html_bytes = html.contenthtml_str = html_bytes.decode() 在这4行代码中,第1行导入了requests库,这样代码里面才能使用。
第2行使用GET方法获取了网页,得到一个Response对象此时如果直接打印HTML变量,得到的是: 第3行使用.content这个属性来显示bytes型网页的源代码。
第4行代码将bytes型的网页源代码解码为字符串型的源代码对于上面的4行代码,可以将后3行合并,缩减为两行代码:import requestshtml_str = requests.get(’网址’).content.decode()
之所以需要把bytes型的数据解码为字符串型的数据,是因为在bytes型的数据类型下,中文是无法正常显示的这个“解码”对应的英文为“decode”,因而我们需要使用.decode()这个方法。
html = requests.get(’网址’).content.decode(GBK)html = requests.get(’网址’).content.decode(GB2312)html = requests.get(’网址’).content.decode(
GB18030) 编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”具体使用哪一种编码格式,需要根据实际情况来选择大多数情况下使用“UTF-8”,但也有一些网站会使用“GBK”或者“GB2312”。
可以每一种编码格式都测试一下,通过打印出网页的源代码,查看里面的中文是否显示正常,以中文可以正常显示为准2.POST方式网页的访问方式 除了GET方式以外,还有POST方式有一些网页,使用GET和POST方式访问同样的网址,得到的结果是不一样的。
还有另外一些网页,只能使用POST方式访问,如果使用GET方式访问,网站会直接返回错误信息 此时就需要使用requests的post()方法来获取源代码post()方法的格式如下:import requests。
data = {key1: value1,key2: value2}html_formdata = requests.post(’网址’, data=data).content.decode()#用formdata提交数据
其中,data这个字典的内容和项数需要根据实际情况修改,Key和Value在不同的网站是不一样的而做爬虫,构造这个字典是任务之一还有一些网址,提交的内容需要是JSON格式的,因此post()方法的参数需要进行一些修改:。
html_json = requests.post(’网址’, json=data).content.decode() #使用JSON提交数据 这样写代码,requests可以自动将字典转换为JSON字符串。
--------------------------------------版权声明:本文为CSDN【PythonJsGo】博主的文章,同步在【猿小猴子】公众号平台,转载请附上原文出处链接及本声明--------------------------------------。
亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。