基于Python的Office文档的自动识别文献综述

 2022-08-12 10:54:55

一、文献综述

  1. 国内外研究现状

Office文档的自动识别技术实现办公自动化,利用先进的计算机及网络技术实现文档自动化识别,使人们可以借助各种设备处理一部分办公任务,提高办公业务的处理效率和办公质量,提高工作效率,方便文档管理。

目前,大部分研究的方向是使用VBA开发对Word文档进行读写,对文档进行格式化的调整和变化,利用VBA来分析Office文档的内容,同时对Office进行二次开发提供了可能,但是当前很多人对Office的研究只是在使用和操作层面,还没有形成大规模的应用,对底层的算法研究还没有进行深层次的挖掘。目前,对于Office自动化的研究还停留在简单的文件操作生成层面,还没有形成大规模、规范化的研究和使用方法论。

Office文档的自动识别技术也是属于自然语言生成系统中的一个技术。自然语言生成是自然语言处理技术的一个方向,其侧重于从结构化表示或结构化数据生成自然语言。自然语言生成系统可看作一个将数据转换成自然语言的转换器。在自然语言理解系统中,要消除句子产生的歧义从而产生机器表达语言,而在自然语言生成系统中,是直接将机器语言提炼为概念表达出来[5]。

目前,在自然语言生成的商业应用中,最成功的应用案例是数据到文本生成系统。系统通过数据分析与文本生成能够快速生成数据库与数据集的文本摘要。第一个商业化数据到文本生成系统是根据天气数据生成天气预报。目前,在汇总财务与业务数据方面,现在自然语言生成技术有很大的优势,自然语言生成系统可以帮助编辑者更为高效与有效的写作。当前许多行业已经构建了基于使用搜索引擎API的Web挖掘的内容生成工具,该工具能够模仿包括剪切和粘贴功能的写作场景,其中编写者从各种搜索结果中生成文本内容[5]。

在Office文档的自动识别功能发展中,Office文档对象分析与自动阅卷系统也是一个研究热点。随着信息技术和教育信息化的不断发展,将信息技术运用于教育评价和教育测试已经成为一种趋势,对Office文档自动识别进行阅卷,能够减轻教师负担,提高工作效率。如何运用高新技术,并客观、准确地评估人的知识和能力水平,已成为研究的热点问题[10]。

现在计算机辅助测试在国外也得到了广泛的应用,国外有许多专门考试机构采用计算机辅助测试,对参加考核的对象进行评价,如美国思而文学习系统有限公司,VUE公司等。美国教育考试服务中心(ETS)从1993年GRE(研究生入学考试)采用自适应考试模式,同时逐步减少纸卷——笔试为基础的考试方法,TOEFL考试也将在中国采用自适应考试模式[4]。

(二)研究主要成果

目前在Office文档自动识别阅卷评分系统方面,实现了有计算机辅助测试CAT。CAT开始的优势在于测试效率高而且可比性强。北京师范大学的许骏、柳泉波博士近年来在技能测评自动化方面做了一些研究,ITAS是技能测评自动化研究项目系统成果之一。浙江师范大学团队在计算机辅助测评方面有着多年的设计、开发和使用经验。能够实现多种学科的自动化阅卷,主要是对客观题进行评价,一般采用即时阅卷,考生提交考试即可查看考试结果。在中小学信息技术等级考试中就采用有单机版阅卷系统,即将考生提交的考生数据包提交至服务器端,然后由单机版考试系统对收集上来的考生数据包进行阅卷,该阅卷系统能对office等操作试题进行比较好的自动评卷[3]。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。