php做后端还会有前景吗(纯干货!PHP专题之开发爬虫(含源代码))

wufei123 发布于 2024-01-31 阅读(148)

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本我们平常使用搜索引擎浏览网页,有很多和预期的信息不匹配的结果;并且信息量巨大,有了结果以后还需要花费很大的精力进行筛选信息爬虫应运诞生,我们可以写一段脚本或程序,让他根据我们的需求按照设定的规则进行抓取网页信息,并筛选出我们需要的结果。

首先,在PHP中可以获取万维网页面的函数有很多,例如:file_get_contents()或者curl扩展,再或者还有获取缓冲的ob_get_contents()等,最实用也是最常用的就是file_get_contents()了。

例:目标页面

代码及效果

打开文件后的对比

所以,我们可以利用file_get_contents()来进行爬虫的开发步骤:1. 分析url规则第一页:http://tieba.baidu.com/f?ie=utf-8&kw=php第二页:http://。

tieba.baidu.com/f?kw=php&ie=utf-8&pn=50第三页:http://tieba.baidu.com/f?kw=php&ie=utf-8&pn=100在第一页后面加上&pn=0也是同样的第一页的内容,所以,每一页的pn参数都会递增50

可以总结为:&pn=(当前页码-1)*502. 根据规则进行循环爬取内容3. 根据需求进行正则匹配需要的内容(可以根据实际要求进行)4. 整合结果(写入文件)//爬取前3页 for($i=1;$i<3;$i++){ $str = file_get_contents("http://tieba.baidu.com/f?kw=php&ie=utf-8&pn= ".($i-1)*50); $err = file_put_contents("./page".$i.".html",$str); if(!$err){ die("写入失败"); } } echo "写入成功";

结果:

打开其中前两页的效果

原作者:黑马程序员原出处:黑马程序员技术交流社区原链接:【上海校区】PHP开发爬虫-黑马程序员技术交流社区

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

河南中青旅行社综合资讯 奇遇综合资讯 盛世蓟州综合资讯 综合资讯 游戏百科综合资讯 新闻30946