网站的源码一般在哪里(Python用request库读取网页源码(含py文件内容))

wufei123 发布于 2024-02-02 阅读(116)

本代码操作前提安装了Python38版本以及request库,并且将下面的代码复制保存为网页测试.py运行即可(为保证代码编写规范,建议用sublime text 3进行操作)。操作及运行如图:

打开python shell

导入网页测试.py

输入想访问的页面url

输入项访问的页面url后 回车

运行效果,双击黄色文字即可查看源码内容

网页源码内容代码部分:import requests #导入request库import re #导入re库#下面三行是编码转换的功能import sys #导入sys库#reload(sys)#sys.setdefaultencoding("utf-8")

import importlib #导入importlib库importlib.reload(sys)#Python解决NameError: name reload is not defined的问题#遇到这个问题,对于 Python 2.X:

#1 import sys#2 reload(sys)#3 sys.setdefaultencoding("utf-8")#对于 Python 3.3及其以下版本:#1 import imp#2 imp.reload(sys)

#需要注意:#1. Python 3 与 Python 2 有很大的区别,其中Python 3 系统默认使用的就是utf-8编码#2. 所以,对于使用的是Python 3 的情况,就不需要sys.setdefaultencoding("utf-8")这段代码。

#3. 最重要的是,Python 3 的 sys 库里面已经没有 setdefaultencoding() 函数了#对于 Python 3.4及其以上版本:#1 import importlib#2 importlib.reload(sys)。

url= str(input("请输入:")) #提示用户输入信息,并强制类型转换为字符串型#hea是我们自己构造的一个字典,里面保存了user-agent#让目标网站误以为本程序是浏览器,并非爬虫#从网站的Requests Header中获取。

【审查元素】hea = {User-Agent:Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36}

html = requests.get(url,headers = hea)html.encoding = utf-8 #这一行是将编码转为utf-8否则中文会显示乱码print(html) #如果返回是HTTP状态码,表示网络请求成功的意思,返回这个状态表示已经获取到数据了。

【200】请求成功【303】重定向【400】请求错误【401】未授权【403】禁止访问【404】文件未找到【500】服务器错误print(html.text) #显示已经获取到的网页源码

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

河南中青旅行社综合资讯 奇遇综合资讯 盛世蓟州综合资讯 综合资讯 游戏百科综合资讯 新闻12994