智能药盒电子识别说明书APP设计文献综述

 2022-03-15 20:28:10

智能药盒电子识别说明书的研究

摘要:现实生活中,人们购买药品后却往往忽略看说明书,这在一定程度上带来了非常大的安全隐患。现如今通过手机摄像头就可以得到清晰的文本图像,结合OCR与TTS还有一定的数据传输技术,就可以通过拍照得到对应药物的语音版说明书。本文介绍了近些年来在图像处理上较为先进和独特的处理方法,为实践提供了多种选择的可能性,比较了不同的OCR应用软件的特点,在TTS语音识别上介绍了语音库的形成以及相应接口的调用,总结了各自的优缺点及应用场景。

关键词:文字识别;TTS;OCR;药品识别

  1. 前言

文字是人类记录思想和文化的载体,它不同于普通的视觉元素,它所包含的语义使得场景信息被高效的利用,这对于理解图像来说有很大的学术意义。当前,由于互联网的飞速发展和人们生活需求的增多,越来越多的领域需要用到图像中的文字信息。药品说明书是指导医师合理安全使用药品的重要文件,并在各国都有详细规定修订于法律中。然而,随着电子商务的发展,人们购买药品时常常没有医师进行合理指导非处方药的使用方法。而药品包装说明书普遍存在的不够明确的问题,在不同程度上给人民群众的用药安全带来隐患。

在近代科学研究中,人们利用图像信息来识别和判断事物,解决实际问题。智能药盒电子说明书可以帮助视力不好的老人们解决因看错说明而导致服用量错误的问题,也可以避免因为广告效应买来的药却因忽略看说明书而导致的药物过敏问题。智能药盒电子说明书存在的意义即是通过识别图像功能以及语音识别功能帮助人们快速简单的了解药物信息,寻取适合自己的药物以及合理用药,去帮助人们解决健康问题而不是衍生更多健康问题。

二、国内外相关研究

(一)国内外关于文字图像识别的研究和实践概况

光学字符识别(optical character recognition,OCR)[1],是一种用通过电子设备利用字符识别方法将形状翻译为计算机文字的过程,对于OCR研究来说,最重要的是如何排错或者利用辅助信息来提高识别准确率。而在OCR处理之前需要进行一系列灰度化、二值化、去噪、膨胀以及倾斜校正优化处理。

Ray Smith在《An Overview of the Tesseract OCR Engine》[2]一文中重点分析OCR引擎中文本行的查找,特征以及自适应分类器。首先介绍了page layout analysis 技术。假设其数据源是以定义的可选多边形文本域的二进制图的前提下,首先连接组件分析后存储组件的大纲。 将被聚集在一起的轮廓通过嵌套得到blobs。从blobs中组织文本行并分析文本行区域的固定间距或比例,得到固定比例文本。识别过程首先是识别单词,将其识别的单词训练数据传递给自适应分类器,自适应分类器将可以更准确的识别文本。其次,未识别出的文字将在解决整个模块页面时重新识别未识别出的文字。寻找文本的方法共分为三点,首先是寻找文本行,通过x坐标对blob进行排序处理去过滤线条构造,将blob分配给唯一的文本行同时跟踪整个页面坡度,一旦过滤后的blob被分配到直线上,使用最小平方拟合中值来估计基线,并且过滤出的blob被拟合回适当的直线中。其次是找准基线,找到文本行后,用通过最小二乘法拟合到人口最多的分区(假设为基线)的quadratic spline找到拟合基线。使Tesseract处理具有弯曲基线的页面,通过将blob划分多个组来拟合基线,其优点是计算不易出错,但缺点是需要多个样条线段时会出现不连续性。最后是切割成字符,通过固定间距检测(fixed pitch detection),从字符分类器中切掉可信度最差的blob,把单词切成字符,候选切点可以是条线段也可能是另一个相反的顶点,需要从ASCII 集合中进行分离。对于没有固定间隔的文本,即成比例单词(proportional word), Tesseract通过测量基线和平均线之间有限垂直范围内的间隙来解决其问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。