利用数据库知识发现(KDD)技术构建新型质谱解析专家系统

作者:杨家红;甘峰;李仲阳;俞汝勤 刊名:计算机工程与应用 上传者:陈江夏

【摘要】通过在数据预处理,知识获取,知识库管理等模块中利用中断控制器和启发控制器把KDD有机集成起来,融合成一种新的专家系统结构,从而使系统能从海量数据库信息中提取蕴涵的知识来对知识库进行补充和核对。利用系统提供的KDD算法对NIST62质谱库进行分析,结果表明该系统具有较普通专家系统更强的解决实际问题的能力。

全文阅读

由于计算机技术的进步,使得生成和收集数据的能力大为提高,数据量与日俱增,同时也使数据的杂乱性,冗余性和不完整性变得越来越突出,导致数据处理困难,人工抽取的知识已不能描述大型数据库所涵盖的知识总体。数据库中知识发现KDD(KnowledgeDiscoveryinDatabase,KDD)是一个将数据库和人工智能技术理论和方法相结合的新兴研究领域,旨在强调知识是人们在数据中探索的最终目标。因而,基于大型数据库的KDD技术就显得尤其重要。1KDD和专家系统的集成在研制一个专家系统过程中,知识工程师首先要从领域专家那里获取知识[1],这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。并且随着信息量的增长,要从海量数据库中归纳出数据的整体特征,获得一些与数据吻合的蕴涵的、预先未知和潜在的知识,靠专家是很难办到的,因此,知识获取成为专家系统研究中公认的瓶颈问题[1,2]。针对传统专家系统的不足,KDD能从数据库中发现知识,使得数据库不仅能存放和任意检索库中的信息,而且可以得到对数据库中数据的整体特征的认识,获得一些与数据吻合的蕴涵的、预先未知和潜在的有用信息,这不仅有利于数据库自身的增长和管理,且大大提高了数据库的利用率,被应用到越来越多的领域,取得了很好的效果。KDD通过数据开采所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。KDD从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。现代分析仪器的快速分析能力,使得实验数据的累积达到了一个空前丰富的程度,许多大型的数据库已经建立起来,如NIST62质谱库所包含的质谱已达12万之多。基于大型数据库的专家系统也已相继出现[4],为分析结果的解析和解释提供了有力的手段。然而,对于现有的质谱专家系统而言,它所基于的结构解析理论往往是通过经验或对小规模数据进行演绎而得到的,具有一定的局限性。要想达到自动结构解析,进行质谱数据库中知识规律发现的研究是十分必要的,即,利用现代高速发展的计算机技术和强有力的数学与人工智能的方法(包括数值的与逻辑的),对所得的大型数据库,如质谱库、红外谱库等再一次进行系统的综合分析,将对完善知识体系以及找到有效的自动结构解析方法具有十分重要的作用。因此,把KDD和专家系统中的知识获取过程有机结合起来,利用KDD从海量谱图数据库中挖掘(开采)出蕴涵的、预先未知和潜在的知识作为专家知识的补充,KDD提取的广义型知识、特征型知识和关联型知识不仅能帮助专家提炼和归纳出更准确更丰富的知识,而且能对现有知识库中的知识进行必要的改进,从而扩大系统处理问题的范围和解决实际问题的能力。2KDD处理流程从大量数据中发现隐含的规律,并以人可以理解的形式(如数学公式、自然语言、图表等)表述出来。这一类任务常被称为“人的数据库理解(DatabaseUnderstandingbyHumanBeing)”。主要方法包括遗传算法,统计,人工神经网络(ANN),规格化,过滤,聚类分析

参考文献

引证文献

问答

我要提问