一种有效的高维数据分类算法

作者:陶汉;李星; 刊名:电脑知识与技术 上传者:焦一富蓝

【摘要】在这个大数据时代,我们时常与数据打着交道.通常我们可以用一个向量来表示一个数据样本,数据的维度就是向量的维度.比如我们常见的二维数据、三维数据可以直观地可视化.有的数据维度非常高,比如描述人脸、声音等的数据样本它们的维度就通常高达上百.通过简单的欧式聚类来进行数据样本的分类,在低纬度数据样本中大多有良好的分类结果.但是在高维数据的分类问题中,基于欧式距离的分类方法通常都会失效.所以针对高纬度数据的分类提出一种简单有效的方法是具有一定意义的.该文的创新点在于:针对不同维度数据的子空间分类以及多流形分类问题,该文提出了"种子生长模型"较好地解决了该问题.该模型在通过模拟种子的非线性传播与生长的同时,加以生长规则的限制,使得与种子具有较高相似性的样本被不断地归类,其他的样本点逐渐成为新的种子,种子再不断更新与生长,最终完成分类.该模型具有较强的一般性与适应性,能够较好地解决不同维度样本的子空间分类与多流形分类问题.

全文阅读

数据库与信息管理 ComputerKnowledgeand Technology 电脑知识第13卷第5期 (2017年2月) 一种有效的高维数据分类算法 陶汉,李星 (同济大学,上海201800) 摘要:在这个大数据时代,我们时常与数据打着交道。通常我们可以用一个向量来表示一个数据样本,数据的维度就是向量的维度。比如我们常见的二维数据、三维数据可以直观地可视化。有的数据维度非常高,比如描述人脸、声音等的数据样本它们的维度就通常高达上百。通过简单的欧式聚类来进行数据样本的分类,在低纬度数据样本中大多有良好的分类结果。但是在高维数据的分类问题中,基于欧式距离的分类方法通常都会失效。所以针对高纬度数据的分类提出一种简单有效的方法是具有一定意义的。该文的创新点在于:针对不同维度数据的子空间分类以及多流形分类问题,该文提出了“种子生长模型”较好地解决了该问题。 该模型在通过模拟种子的非线性传播与生长的同时,加以生长规则的限制,使得与种子具有较高相似性的样本被不断地归类,其他的样本点逐渐成为新的 种子,种子再不断更新与生长,最终完成分类。该模型具有较强的一般性与适 应性,能够较好地解决不同维度样本的子空间分类与多流形分类问题。 关键词:数据分类;高维数据;生长算法 中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)05-0005-02 1 研究背景 数据的分析和处理方法成为了诸多问题成功解决的关键。高纬度的数据分类不能简单地用基于欧式距离分类。常见的方法已经有的是谱聚类方法、各种基于流型学习的方法,它们大多对于高纬度的数据分类有着较好的结果。本文从数据样本中数据本身的相似性出发,从“区域生长算法”中得到启发,提出一种“种子生长算法”来实现高纬度数据样本的分类。传统的生长算法的思路大致是以下几步: 1)初始化开始,找到第1个还没有归属的像素, 并且设该像素为(x0,y0); 2)迭代开始,以(x0,y0)为中心, 考虑(x0,y0)的8邻域像素(x,y)如果(x0,y0)满足生长准则,将(x,y)与(x0,y0)合并(在同一区域内),同时将(x,y)压入堆栈; 3)从堆栈中取出一个像素,把它当做(x0,y0)返回到步骤2; 4)当堆栈为空时!返回到步骤1; 5)重复步骤1-4直到图像中的每个点都有归属时。生长 结束。 传统生长算法的规则主要关键是种子的选取和相似度判定准则的设计,其中种子可以人工随机选取也可以通过一些具体问题具体分析的方法来选取,相似度主要是灰度值或者其他打分函数,同时阈值的选取也会影响最终分类的结果,所以说最后还有一个调参的过程。 数据与方法: 本算法的基本思路是在数据集中,选出起始点,从该点开始模拟种子生长过程。算法不断地将相似点归为一类,最终完成所有的数据点分类。下图是算法概要: 图1 算法迭代过程 在初始化阶段,本算法第一步是选取一个边缘点作为初始点(称为种子点S0),其余的点是未分类点集合。在未分类点中,选出一个最近的点作为初始的下一个种子候选点Sc。S0与Sc构成的向量称为中心向量。这是初始步骤。最为关键的是 迭代步骤,对于当前的种子点来说,点分为已分类、未分类、已淘汰。只要一个新的未分类点纳入已分类中,当前就会形成一个种子向量,即由新分类点与新的种子点形成的向量。该算法的核心内容就是比较种子向量与中心向量的相似度来判定候选点是否应该分类。根据具体问题具体分析,本文的相似度评价指标采取了向量夹角、向量距离或者法向量,如图所示。等到迭代结束之后,所有点的状态分为已分类、已淘汰时,迭代结束。意味着所有已分类

参考文献

引证文献

问答

我要提问