常用的python标准库(python常用库的使用和详解)python教程 / python常用标准库使用教程...

wufei123 发布于 2024-06-20 阅读(6)

1:PYTHON本人常用的库import urllib.request, time, os, requests, re, json, jsonpath, pyquery, lxml, pymysql ,multiprocessing, aiohttp, asyncio

from urllib.parse import urlencodefrom bs4 import BeautifulSoup(1)Import requests 是http库常用的方式(get post)俩种请求方式,都会有携带

(2)Import time 是时间库 写的方式是 time.sleep(3)表示每3s执行一次代码 a = time.time() qjg()这是运行时的函数 print(‘[info]耗时:%s’ %(time.time()-a))去判断运行这段代码花了多少时间

(3)Import re是正则库 常用的是a = re.findall("title":"(.*?)", b)html_res = re.sub(, , a) 这是去除re匹配回来的数据里面还有标签比如简书的数据格式

(3)import json html.json() json.dump json.dumps json.loads json.load type(html.json())可以知道返回来的数据类型 是str字符串 dict列表 json数据格式

(4)Import jsonpath 这是专门提取json数据内容 写法是a = jsonpath.jsonpath(b, ‘$..title’)这是去提取title里面的数据(5)Import pyquery 是类似jquery的一个库去解析html的

(6)From bs4 import BeautifulSoup 是解析html里面的文字数据 解析器有 html.parser lxml 后者会快一些(7)From ullib.parse import urlencode 是用于拼接给url地址来爬取分页数据需要在这个外面加for x in range(1,3):

Data = {“Page”: x}url = ‘www.baidu.com?’urlencode + (data)2:绕过https的限制verify=False3:html = requests.post(url, headers=headers,timeout=30) timeout

表示请求如果超过30s没有响应就会断开连接4:replace 这是把去掉http://\www.baidu.com去掉\这样的符号的自带函数5:op = open(rE:\python\爬完数据存放地址/简书输入关键词爬标题与内容.txt, a, encoding=utf-8) 把爬下来的数据存在本地如果有特殊字符保存不进去就在后面加encoding=utf-8

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

河南中青旅行社综合资讯 奇遇综合资讯 盛世蓟州综合资讯 综合资讯 游戏百科综合资讯 新闻80972