教育新闻爬取及展示系统文献综述

 2022-03-14 20:09:39

课题研究背景

近年来,随着科技水平的逐渐提高,互联网已经走进每个家庭,融入社会的方方面面。网络的快速发展使网民能够足不出户获取最新的新闻动态。中国互联网络信息中心(CNNIC)发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,中国网民规模已达9.89亿。与此同时,中国互联网普及率已达70.4%,这说明有越来越多的人接触到互联网,对于互联网的需求以及要求也越来越高,网络也随之成为大众了解新闻的一种重要信息渠道。

当前,互联网为满足大部分人的需求,保存并显示海量的数据。但当面对这些成指数型增长的数据,也让找到真正想要的新闻变得困难起来。如何从越来越多的信息中快速获取想要的新闻成了现在要面临的一个重要问题。而且当前的搜索引擎种类繁多,面对大量、重复的信息,用户的时间和精力不足以让他们有耐心浏览如此数量的新闻。因此,正是因为网络新闻的来源渠道多样,新闻类别也不同,数据量也很大,所以很有必要将网络新闻分门别类,提供一个专业的新闻阅读系统。

教育新闻展示系统具有很大的建设意义,首先,系统收集相关网站上的热点教育新闻,提供大量的素材给予分析,能够让用户清晰且快速地了解到当前热门的教育话题,免去之前在大量新闻里靠关键字检索的搜索方式。原来的搜索方式让用户只能依据关键字来获取新闻相关的话题,得到的结果与输入的关键词关系密切,这样的方式虽然可以有效避免数据的冗余和信息的过载,但很多时候用户对于想要的新闻并不能用关键词涵盖,可能是某一种种类(例如:娱乐、教育、体育等)。比起自发地去搜索新闻,现在的网民更想以一种浏览的方式来获取新鲜资讯。党的十八大以来,党中央高度重视教育工作,把教育摆在优先发展的战略地位,立德树人,培养专业人才。因此设计一种专门的教育新闻展示系统显得尤为必要。

本课题就针对新闻中的教育类别,利用网络爬虫爬取用户感兴趣的教育新闻,并且提供推荐和展示功能。与此同时,也能利用工具将抓取到的数据进行分析,将新闻热点进一步呈现给用户。这样既满足了社会的教育新闻展示系统的优化与进步,让网络用户能够更轻松地浏览教育新闻信息,也解决了教育数据重复和无关数据太多的问题,让有需求的人能够真正受益。

  1. 国内外研究现状

2.1 国内爬取展示系统现状

刘灿、任剑宇等人提出一种面向个性化推荐的新闻爬取系统,他们在利用主题爬虫,对页面进行文本解析的基础上,利用协同过滤的推荐策略,生成满足用户不同需求的页面,展示方式为词云和列表。

祁忠琪和吕晓聪在对于搜狐网新闻搜索引擎系统的实现时,通过MVC思想实现了模型层、控制层和展示层。模型层存放这从搜狐网爬取的全部信息和实例索引。控制层主要实现跳转功能,能够进行信息的分页展示。最后,展示层主要功能为接受用户输入的关键字和后台传来集合对象,最终实现能够全文搜索引擎的方式搜索感兴趣的信息。

2.2 国内外新闻搜索引擎

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。