机器学习及其相关算法综述

作者:陈凯;朱钰 刊名:统计与信息论坛 上传者:胡洁

【摘要】自从计算机被发明以来,人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。文章主要从统计学习基础的角度对机器学习的发展历程以及一些相关的常用算法进行了简要的回顾和介绍。

全文阅读

第 22 卷第 5 期 Vol. 22  No. 5 统 计 与 信 息 论 坛 Statistics & Information Forum 2007 年 9 月 Sept. ,2007 收稿日期 :2007 - 07 - 03 基金项目 :国家自然科学基金重点项目(10431010) ;教育部重点基地重大项目(05JJD910001) ;中国人民大学应用统计中心项目作者简介 :陈  凯(1978 - ) ,男 ,安徽巢湖人 ,博士生 ,研究方向 :统计模型 ; 朱  钰(1964 - ) ,男 ,山西运城人 ,副教授 ,博士生 ,研究方向 :应用数理统计学。 【国际统计动态】 机器学习及其相关算法综述 陈  凯1 ,朱  钰1 ,2 (1. 中国人民大学 统计学院 ,北京  100872 ; 2. 西安财经学院 统计学院 ,陕西 西安  710061) 摘要 :自从计算机被发明以来 ,人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。 它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。文章主要从统计学习基础的角度对机器学习的发展历程以及一些相关的常用算法进行了简要的回顾和介绍。 关键词 :机器学习 ;有指导学习 ;无指导学习 ;半指导学习 中图分类号 :TP181   文献标识码 :A   文章编号 :1007 - 3116(2007) 05 - 0105 - 08 一、引  言 机器学习的研究主旨是使用计算机模拟人类的学习活动 ,它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。这里的学习意味着从数据中学习 ,它包括有指导学习(Supervised Learning ) 、无 指 导 学 习 ( Unsupervised Learning) 和半指导学习 (Semi - Supervised Learn2ing)三种类别。 有指导学习 ,之所以称它为“有指导的” ,是指有结果度量(Outcome Measurement)的指导学习过程。我们希望根据一组特征(Features) 对结果度量进行预测 ,例如根据某病人的饮食习惯和血糖、血脂值来预测糖尿病是否会发作。我们通过学习已知数据集的特征和结果度量建立起预测模型来预测并度量未知数据的特征和结果。这里的结果度量一般有定量的(Quantitative) (例如身高、体重) 和定性的(Quali2tative) (例如性别) 两种 ,分别对应于统计学中的回归(Regression)和分类(Classification) 问题。常见的有指导学习包括 :决策树、Boosting 与 Bagging 算法、人工神经网络和支持向量机等。 在无指导学习中 ,只能观察特征 ,没有结果度量。此时只能利用从总体中给出的样本信息对总体 作出某些推断以及描述数据是如何组织或聚类的。它并不需要某个目标变量和训练数据集 ,例如 ,聚类分析或关联规则分析等。 半指导学习是近年来机器学习中一个备受瞩目的内容 :已得的观察量中一部分是经由指导者鉴认并加上了标识的数据 ,称之为已标识数据 ;另一部分观察量由于种种原因未能标识 ,被称为未标识数据。需要解决的是如何利用这些观察量(包括已标识数据和未标识数据) 及相关的知识对未标识的观察量的标识做出适当合理的推断。解决这类问题常用方法是采用归纳 - 演绎式的两步骤路径 ,即先利用已标识数据去分析并指出适当的一般性的规律 ,再利用此规律去推断得出有关未标识数据的标识。这里 ,前一步是从特殊得到一般结论的

参考文献

引证文献

问答

我要提问