新闻资讯app下载安装([内附完整源码和文档] 基于python的新闻检索系统)

wufei123 发布于 2023-12-25 阅读(268)

1 系统介绍1.1 系统需求新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索本项目未使用 lucene,Goose 等成熟开源框架1.2 系统思路与框架

本系统总体的实现思路如图 1 所示:

一个完整的搜索系统主要的步骤是:对新闻网页进行爬虫得到语料库抽取新闻的主体内容,得到结构化的 xml 数据内存式单遍扫描索引构建方法构建倒排索引,供检索模块使用用户输入查询,得到相关文档返回给用户2 设计方案

2.1 新闻爬取2.1.1 算法简述该模块针对搜狐,网易,腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取并基于其网站结构,设计了不同的爬取模式由于网站架构两两相似,以下选取两种类型的典型代表进行介绍:。

(1)搜狐新闻搜狐新闻除正常主页外,存在隐藏的列表式新闻页 , 如 http://news.sohu.com/1/0903/62/subject212846206.shtml (2)网易新闻可以将网易新闻及腾讯新闻归结为一般类型的新闻主页,我们采用了自新闻主页开始的广度优先的递归爬取策略。

注意到新闻的正文页往往是静态网页.html,因此,我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来,在爬取到一定量时,进行一次去重对于一些不是新闻的错分网页,容错处理即通过检查新闻正文标签

时会被剔除新闻正文页中我们重点关注内容,时间,评论获取2.1.2 创新点实现了对新闻网页动态加载的评论进行爬取,如搜狐新闻评论爬取未借助开源新闻爬取工具,自己实现了对新闻标题,正文,时间,评论内容,评论数目的高效爬取。

2.2 索引构建分词,我们借助开源的 jieba 中文分词组件来完成,jieba 分词能够将一个中文句子切成一个个词项,这样就可以统计 tf, df 了去停用词,去停词的步骤在 jieba 分词之后完成

倒排记录表存储,词典用 B-树或 hash 存储,倒排记录表用邻接链表存储方式,这样能大大减少存储空间倒排索引构建算法使用内存式单遍扫描索引构建方法(SPIMI),就是依次对每篇新闻进行分词,如果出现新的词项则插入到词典中,否则将该文档的信息追加到词项对应的倒排记录表中。

2.3 检索模块2.3.1 检索模式(1)关键词检索查询即根据用户输入的关键字,返回其相应的新闻。首先根据用户的查询进行 jieba 分词,记录分词后词项的数量以字典形式进行存储。

完整的源码和详细的文档,上传到了 WRITE-BUG技术共享平台 上,需要的请自取:https://www.write-bug.com/article/3122.html

亲爱的读者们,感谢您花时间阅读本文。如果您对本文有任何疑问或建议,请随时联系我。我非常乐意与您交流。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

河南中青旅行社综合资讯 奇遇综合资讯 盛世蓟州综合资讯 综合资讯 游戏百科综合资讯 新闻39007