原版新闻资讯(数据报告 | 中国公益网资讯数据分析报告(附数据爬取过程与源代码下载方式))

feifei123 发布于 2025-02-25 阅读(4)

关注后定期向您推送更多科研资源↑↑↑见数训练营致力于打造科研信息的共享平台,定期分享学术讲座、论文报告、科研数据等学术资源,助力广大研究者的科研之路。

1背景介绍本课题利用R语言分析方法,通过对2020年1月1日至2020年6月2日中国公益网政府板块公益公开数据的爬取分析,探寻我国2020年最贴近百姓民生的热点话题以及政府公共事业建设工作的侧重点以此帮助我们更好的理解政府机关在我国公益事业发展中起到的突出作用,让宏观政策与民生方针共同指导我们的社会生活。

2爬取过程介绍

编写爬取函数利用getURL函数抓取网页数据  函数htmlparse,能够将文件解析为XML或者HTML树,便于进一步数据的提取或者编辑  获得某个元素的内容用到XML包中的getNodeSet函数。

  通过网页内右键查看网页源代码可以确认想要爬取的页面数据的path  XML包的getHTMLLinks函数可以帮助我们提取每个网页上的子链接设置页面范围在设置好页面爬取函数之后,我们利用for循环,通过寻找需要提取数据的页面的网址特征编写循环语句,以期利用爬取函数提取目标页面范围内的全部所需数据。

  目标提取页面范围:1-10页  网页网址书写特征:"http://www.zggyw.org/zhengfu/index_",i,".html"(i为1-10)  用paste/paste0 函数连接字符。

最后,将通过循环从每页提取的有效信息汇总到data1中,避免数据覆盖。循环结束后,我们可以在data1中观察到已提取数据如下:

子页面数据调用在进行政府资讯板块主页面信息爬取后,我们还需要设计一个调用函数提取并每个子页面上发布媒体、文章摘要、文章标签等重要数据,这个时候data1中已经被提取完毕的子链接信息就可以派上用场了但是在实际操作过程中我们发现,data1中提取的子链接存在反爬书写(第58行之后的链接书写省略)的情况。

这也为我们子页面中重要数据的调用和提取造成了不小的压力

通过观察产生问题的子链接可以发现,58行以后的所有网址都是缺少了前半部分的“http://www.zggyw.org”,因此只要在每一个缺失网址链接前端统一加上这段字符串,该网址就可以变为可以调用的网址。

明确这一思路之后,我们基于for循环,利用paste0函数来对59行以后的子链接字符串进行拼接处理等到处理完毕后,我们再将处理完成的59行以后的新网址和原本data1中的有效数据进行合并,最终整理得到了全部网址链接有效的data1数据。

调用函数getDatafromOnePage2的设计思路与前面的getDatafromOnePage1相似,都是利用getURL函数对网页数据进行抓取,函数htmlparse将文件解析,获得某个元素的内容用到的则是XML包中的getNodeSet函数。

而后,我们利用了经过处理的data1中的URL信息进行了网页爬取,成功调取出了子页面中的所需信息并汇总至data2中最后将data1与data2合并到alldatas,最终储存成csv文件 数据整合及处理。

为了解决原始函数爬取出来的数据存在的格式问题,我们在爬取函数改进时加入了一些数据处理函数,来帮助我们及时的完成格式混乱数据的处理和筛选,尽可能避免数据质量对于后续使用分析的负面影响数据处理主要用到的函数有:。

str_sub: 提取指定位置的字符str_trim: 去掉字符串的空格和TAB(\t)substr:能够提取或替换一个字符向量中的子串或替换子字符串,其参数是子集所处的起始和终止位置str_replace:str_replace(string, pattern, replacement)。

其中,string是字符串向量pattern是被替换的子字符串,replacement则是用来替换的字符串通过字符串的截取、替换,以及空格的删减整理,我们解决了数据冗杂、格式混乱、提取无效信息较多等数据问题,最终得到了格式统一,类别鲜明的最终数据。

3变量描述

4数据分析呈现此次数据分析主要围绕以下热门话题、政策方向、时间特征、机构参与四个方面展开。具体结构如下图:

热门话题相关性矩阵分析我组采用的jibar分词对标题进行拆分,并将单字(例如“的”,“了”)删去,以免影响精确度,再通过TF-IDF算法算出2020年上半年各新闻标题之间的相关性根据运算结果,234个样本数据,共有27261(C 2 234)对组合,其中相互有关联的有4034对,所以共有14.80%标题有相关性。

为了进一步分析,将相关性大于0.5的数据提取出来,共有22组,并绘制成如下所示的条形图

结果显示,相关度高的文章可以分为两个部分:第一部分为日常、定期类的报道,即对国家政治事件定期进行的报道分析,例如对我国中共中央政治局召开的常务会议定期做出的报道,频率大概为10天/篇第二部分为社会热点事件的报道,即对新冠肺炎疫情的报道。

从1月20日开始,新冠病毒开始流行,对于新冠病毒的有定期的报道,一直持续到2月底,3月以及4月有关新冠肺炎的报道开始减少从中也可以推测出我国新冠肺炎的大致走向,1月疫情开始爆发,2月疫情形势严峻、感染人数持续走高,3月4月疫情呈下降趋势。

从实证分析层面,我组的分析结果也与疫情实况一致,国内疫情趋势图如下:

根据我组对网站新闻标题的相关性分析,对于此次突如其来的新冠肺炎疫情,我国各地政府严格遵守相关规定,公开、透明、真实地将新冠肺炎疫情的数据反馈给大众这样的举措既保护了民众合法的知情权,也能够督促相关责任部门的疫情防控工作,更好地控制疫情。

美国等国家指责中国封锁政策方向标题分词词云由于每个月份的分词词频存在一定的差异,因此我们对1-6月总体的标题分词和每个月的标题分词分别制作了词云。在这里选取了比较有代表性的几个月进行说明。

总体标题分词词云从总体来看,上半年中国公益网关注的热点主要是疫情,其活动围绕疫情的防控工作展开。国家领导人习近平的名字出现频率也较高,这表明国家领导人对于政策制定和公益事业建设的领导作用。

一月标题分词词云一月份作为疫情萌芽阶段,其词云具有一定的代表性,可以看出与疫情相关的分词有“疫情”、“防控”等,且相对其他分词出现的频率较高。在一月份,我国的工作中心是在疫情上的。

三月标题分词词云三月份作为上半年中间的一个月份,其词云也比较具有代表性,习近平总书记的名字出现频率较高,与疫情相关的防控出现频率也较高,说明国家对疫情防控的积极响应同时也表现了习近平总书记在疫情防控中的重要领导作用。

五月标题分词词云五月份,习近平总书记的名字出现频率最高,这更加突出了习近平总书记的核心地位,也表明了要向习近平总书记看齐,向党中央决策部署看齐的思想同时扶贫、脱贫、防控、教育部等分词也能看出,我国政府今年上半年的工作涉及较多的领域。

标签分类词云接下来是对标签分类制作词云,根据标签分类词云可以大致看出今年上半年,中国公益网的关注重点以及我国的一些政策方向。

从总的来看,中国公益网的方案制定涉及多个方面,较为全面,政治、扶贫、教育、环保、文化等多个方面均有涉及其中,可以看出词频最高的分类为医疗卫生和民生,这与今年上半年的新冠疫情有很大关联,由于突如其来的疫情带来的种种影响,我国政府及民众对疫情高度关注,也使医疗卫生设施建设成为了中国社会发展进程中的又一重要课题,而疫情带来的民生问题也引起了大众的广泛讨论。

由此可见,中国公益网的方案制定是紧跟时事的标题分词条形图为了更加直观地表现出标题分词与标签分类的词频,我们制作了词频条形图,这里只选取了频数大于10的词汇,并由高到低进行排序。

从图中可以看出词频第一的分词为疫情,该分词出现的频率高达51次表明了疫情是上半年工作的重点根据词频排在前5的分词可以看出中国公益网的工作重点主要是根据国家领导人习近平的讲话以及疫情方面展开的从图中可以看出,频数大于10的分词有18个,其中具有具体意义的有14个,说明中国公益网上半年的工作重点总体来说是相对集中的。

标签分类条形图

从图中可以看到中国公益网涉及到的领域多样,涵盖了人民生活的方方面面同时也可以看出中国公益网工作重心的大致分布数据显示,民生和医疗卫生出现的频数较高,皆出现了43次,因此我们可以看出上半年中国公益网的工作重点主要是在与疫情相关的医疗卫生领域,以及减小因疫情对民生的影响。

频数排在第三位的是政治,频数为31,这表明疫情之外,中国公益网的政府公益资讯是与政府宏观政策紧密联系的时间特征时间--标签分类交叉表分析此次研究中针对时间--标签分类交叉表分析分为两个步骤:第一步,运用R语言对原始数据进行导入,并使用“Xtab”函数对数据的时间和标签分类进行交叉表分析。

第二步,使用“Function”函数将结果保存为csv形式,并将文件在excel中打开后进行进一步总结。最后处理结果按公开资讯数据数量进行了升序排列,其图示如下:

在时间特征上, 2020年1月的政府公益政策发布最多,为123条其中医疗卫生占比最大,占据23条,这与1月新冠病毒开始流行有着较大的关系由于疫情的蔓延和传播,中国政府针对疫情开展了一系列相关公益活动和公益政策,来服务遭受疫情的广大民众,并积极对抗疫情。

同时,民生、政治、经济分别占比第二、三、四名这与新冠病毒疫情下经济发展后退、国际政局动荡、民生问题凸显,以及2020年全面建设小康社会的伟大目标有着密切关系2020年2月的政策发布为54条,排名第二,但有关公共卫生问题的报道仍然位居高位,与疫情相关的公共卫生紧急状态并未得到明显缓解,这也与2月份严峻的新冠防疫情况相吻合。

3月至6月的政府公益政策发布在20条左右,恢复到了往常情况,表明中国政局、疫情、经济等都慢慢安稳,国内民生、政治、经济情况逐渐好转,中国政府公益事业发展状态良好机构参与发布机构--标签分类交叉分析由于每个月份的分词词频存在一定的差异,因此我们对1-6月总体的标题分词和每个月的标题分词分别制作了词云。

在这里选取了比较有代表性的几个月进行说明

根据交叉分析结果,我们得出以下结论:公益项目类别与其责任机关的日常工作内容关联性较高中共中央总书记、中共中央政治局、人社部、国务院、财政部、中共应对疫情工作小组这六个部门或个人是2020年1月到6月中国政府公益事业的主要负责部门,是政府公益信息的权威发布机构。

为了方便浏览,我们整理了发布资讯数量排名前六名的发布机构或个人,排名表格如下:

我们可以发现,公益项目类别与其责任机关的日常工作内容相关性较高,且不同责任机关对政府公益资讯的发布有其选择性通过对参与机构和公益事业领域的交叉研究,我们能够更加直观的了解中央政府以及各级地方单位在公共事业管理当中担当的具体职能和显著的贡献作用,也为百姓参与社会工作,更好的行使监督权、建议权奠定了基础。

突如其来的新冠肺炎疫情是检验我国当前治理体系和治理能力的一次大考,也是推进国家治理体系现代化的一堂大课我们开始清楚的意识到,完善国家治理体系、提高治理能力关系到党和国家及人民的命运也是当前和今后需要长期加强的紧迫任务。

5总结2020年 1月1日 - 6月2日,中国公益网政府栏目发布的公开资讯在时间、标签分类、职能部门三个方面之间具有高度相关性,同时有关标题间相关性的分析也展现出今年上半年政府公益资讯较高的话题集中度热门话题

请输入在热门话题方面,关于社会热点事件、国家重大决策的相关报道之间相关性很高,说明短时间内政府公益的热点和大事件会具有持续性,需要较多的相关公开资讯来强调其重要性、维持其关注度和热度,从而引导民众对国家公益政策方向的深入了解。

政策方向请输入2020年上半年中国公益网政府栏目发布的公开资讯主要围绕疫情和民生,折射出政府工作重点主要在与疫情相关的医疗卫生领域以及与全面建成小康社会息息相关的扶贫、社会保障等领域,展现出了现阶段我国社会发展的整体需求和政策导向。

时间特征请输入在时间特征方面,政府公益资讯的发布情况与时间的相关性很强,医疗卫生、民生、政治、经济为2020年1月1日 - 6月2日中国政府公益的主要侧重点,这与不同时期发生的国内外大事件——新冠疫情、2020年全面建成小康社会的伟大目标等有着很大的相关性。

机构参与请输入公益项目类别与其责任机关的日常工作内容相关性较高,且不同责任机关对政府公益资讯的发布有其选择性如人社部公益资讯主要涉及民生领域,财政部主要涉及财政、民生、经济相关领域,中共中央政治局发布公益资讯较多且主要涉及政治和文化部分。

对职能机构的研究可以帮助民众了解不同政府机关在公益事业发展过程中的责任角色和调控视野

▼获取源代码与数据方法▼第一步:分享文章转发本文章至微信朋友圈

(设置全员可见)只需集齐22个赞;第二步:发送截图关注“见数训练营”公众号后台发送朋友圈截图,并回复“公益报告“

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

标签:  疫情 分词 公益 数据 函数 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。