随着计算机网络,数据库的飞速发展技术和物联网、医疗帐户、银行帐户、电子邮件等系统广泛应用于人们的生活,越来越多的数据被人们收集、使用和发布,这些数据中可能包含了个体的隐私信息,因此,如何在数据的发布和使用中保护个体隐私成为学术界和工业界研究的热点问题。
匿名化是解决数据发布中隐私泄露问题的主要技术之一,其基本思想是通过对准标识符属性执行泛化/隐匿操作发布精度较低但语义一致的数据,以实现隐私保护。
自卡梅隆大学的Samarati博士和Sweeney博士提出k匿名模型以来,越来越多的匿名技术被研究实现,例如l-多样性,t-紧密度和(p,k)-匿名等。匿名化技术能够简单有效地对发布的数据实现隐私保护,近年来得到研究者的广泛关注。
k-匿名隐私保护模型,用于保护数据发布过程中的个体隐私,它将一组特殊的属性定义为准标识符(quasi-identifier,简称 QI),并确保准标识符上取值相同的每组元组(QI-组)规模至少为 k(kge;2),从而使连接攻击时得到的个体和敏感信息之间的关系变得模糊。
k-匿名隐私保护模型虽然能保证隐私信息的相对安全,但是 k-匿名化过程中的泛化操作会导致数据表的数据质量下降,也就是说,隐私保护是以牺牲数据质量为代价的,因此,为了保证 k-匿名隐私保护模型的实用性,平衡隐私保护和数据质量之间的矛盾是关键所在。 k 的取值同时影响着 k-匿名表的隐私保护程度和数据质量: k 取值越大,k-匿名表中 QI-组规模越大,为了满足 k-匿名约束需要泛化的属性值越多,泛化范围越大,数据质量越差;同时,连接攻击时映射到每个 QI-组的实体增多,猜测每个实体敏感信息的概率变小,隐私保护程度越好。 k 取值越小,k-匿名表中 QI-组规模较小,为了满足k-匿名约束需要泛化的属性值较少,数据质量越好;但是,连接攻击时映射到该 QI-组的实体较少,猜测每个实体敏感信息的概率变大,隐私保护程度较差。 因此,如何对 k 的取值进行优化选择,使匿名表达到数据质量和隐私保护的共赢,对 k-匿名隐私保护模型的有效性和实用性具有重要意义。
此外,由于最优数据匿名化问题是NP难题,围绕如何提高发布数据的隐私保护程度、降低匿名化隐私保护的信息损失,已有多种启发式的k-匿名方法被提出来,然而,这些匿名化方法主要是对准标识符执行泛化/隐匿操作,并未对敏感属性做出任何约束,容易受到同质性攻击和背景知识攻击。为此,Machanavajjhala等在k-匿名的基础上,提出了l-多样性匿名模型,考虑了等价类中敏感属性值的多样性问题,要求同一个等价类中至少有l个“表现较好”的敏感属性值,进一步提高了匿名数据的隐私保护程度。
研究表明:目前多数匿名化方法是基于泛化/隐匿技术的,由于其严重依赖于预先定义的泛化层或属性域上的序关系,使得匿名结果产生很高的信息损失,从而降低了发布数据的可用性;而且,现有匿名化技术重在对隐私信息的保护,却忽视了匿名数据的实际效用,导致匿名数据的可用性不高。因此,本次课题设计的进一步研究方向是基于聚类的匿名化隐私保护算法,主要涉及匿名数据的隐私性、信息损失和可用性等方面,希望在保护个体隐私的同时,最大限度地减少信息损失,提高匿名数据的实际效用,达到个体隐私保护与数据效用之间的合理平衡。
聚类技术类似于泛化的基本概念,但是通过泛化实现数据匿名性的方法是更新数据,将细粒度数据转换为粗粒度数据,存在高计算复杂度、无法确定属性值归纳的合理性、处理连续数据总是会导致数字语义的损失更大等问题,因此,聚类分析逐渐用于隐私保护中。聚类的目的是将相同属性的数据分为几组。 此外,如果在使用泛化技术进行泛化之前对数据进行预处理,则可以提高匿名化的效率和数据查询的准确性。
Aggarwal等提出了一种基于扰动的聚类方法,称为r-Gather聚类。 此方法发布群集中心,群集中的记录数,半径和相关的敏感属性值,但不会概括每个群集。 Lin等人建议使用微聚合。 但是,这些方法主要用于数值数据,并且不考虑离散数据的处理。 Kabir等提出系统聚类以实现k-匿名性。 Jiang等提出了一种贪婪聚类匿名方法。 另外,还有基于网格和树的聚类方法,例如QPAGC 和MST 。 所有这些方法都合理地对记录进行分类,以最大程度地减少信息丢失并优化时间效率。但是,这些算法都有不足之处,主要体现在以下几个方面:
(1)适当的聚类基础。 记录之间的相似性度量是聚类算法的核心。 不同的相似性度量可能导致不同的聚类结果。因此,主要推力是双重的:对于混合数据处理,没有标准和充分的考虑;在多个属性的情况下,仅考虑处理不同的属性是不够的。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。