1 引言
纵观全球,数据驱动发展正演变为一种全球趋势,成为一种新的全球化形态。大数据时代的到来,为原本就以数据和信息为研究对象、与大数据有着天然联系的情报事业带来了新的发展机遇。传统的情报分析工作已经转变为基于海量数据的知识发现和知识分析过程。科学知识图谱和知识可视化已经成为科学计量学、情报计量学的主流,并不断应用到决策支持服务领域;利用数据挖掘技术,充分实现对网络复杂数据的分析成为科技情报界的研究热点;知识组织和知识关联、深层次语义处理技术逐渐成熟。但是在军事情报分析领域,由于数据敏感性,现有的公开来源情报技术系统缺少可以突破数据隐藏保护措施的针对军事情报信息领域的数据自动采集方法,需要研究聚焦爬取及深度搜索等专门的军事情报数据多媒体采集算法。针对爬虫获得的大量的数据,如何高效的存储分析也是工作的重点。通过研究语义理解,文本摘要以及文本聚类等技术,实现对文本中关键信息实体以及它们之间关系的抽取,为后续构建知识图谱提供有力帮助。再然后针对多源知识融合对齐技术,解决知识的复用问题和知识的共享问题。研究如何合适地利用多源知识融合对齐技术解决知识的复用问题、重复冗余的问题、知识表达意思不一致的问题;研究使用知识融合对齐技术解决实体之间的相互关系以及实体分类问题。通过对目标时空数据预处理方法、重要目标共性模式挖掘方法、多数据源时空数据挖掘方法等研究,实现目标情报提前预测。本篇综述通过总结现有的研究和技术,并提出自己的见解,从而对当今这个领域的研究有了更加透彻的认识。
2 知识自动采集技术
2.1 基于Carrot2聚类的垂直搜索引擎的研究与实现
这是一种基于Nutch的垂直搜索引擎,主要探讨了基于Lucene和Carrot2的信息检索与聚类的实现。随着网络上的信息越发繁杂,普通的搜索引擎已经无法满足一些特定用户的检索需求。垂直搜索引擎主要通过主题爬虫来抓取网页,再通过全文检索索引和提供给用户检索界面来实现,可以用有限的网络带宽和存储资源,在较短的时间内获得更多、更相关的关于某一主题的信息资源。
2.1.1 Lucene Carrot2 Nutch介绍
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。
Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎 (YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch内部使用了Lucene的索引和检索技术并有自己的网络蜘蛛。Nutch为人们提供了运行自己的搜索引擎所需要的全部资源。Nutch遍历网站的资源,抓取每一个有效的资源到本地,生成本地文件和日志文件。
2.1.2 系统实现
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。