在实际生活中把相同的事物归类是我们大脑固定的一种思维模式,比如人在性别上可以分为男女两类。但是我们遇到的分类问题常常没有这么简单和直观。越抽象的事,我们要把它分类就越困难。分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,即预测分类的(离散的、无序的)类标号。分类任务就是确定对象属于哪个预定义的目标类。例如,可以建立一个分类模型,把银行贷款申请划分成安全或危险。这种分析可以帮助我们更好的全面理解数据。
许多分类和预测方法已经被机器学习、模式识别和统计学方面的研究人员提出。大部分算法是内存驻留的算法,通常假定数据量很小。最近的数据挖掘研究建立在这些工作基础上,开发了可伸缩的分类和预测技术,能够处理大的、驻留磁盘的数据。分类有大量应用,包括欺诈检测、目标营销、性能检测、制造和医疗诊断。
分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。
分类任务的输入数据是记录的集合。每条记录也称实例或样例,用元组表示,其中是属性的集合,而是一个特殊的属性,指出样例的类标号(也称为分类属性或目标属性)。尽管属性主要是离散的,但是属性集也可以包含连续特征。另一方面,类标号必须是高散属性,这正是区别分类与回归(regression)的关键特征。回归是一种预测建模任务,其中目标属性y是连续的。以下给出分类的定义:
分类(classification)分类任务就是通过学习得到一个目标函数(target function)把每个属性集映射到一个预先定义的类标号。其中,目标函数也称分类模型(classification model)。
分类模型可以用于描述性建模与预测性建模,描述性建模即分类模型可以作为解释性的工具,用于区分不同类中的对象;预测性建模描述为分类模型可以用于预测未知记录的类标号。
分类技术(或分类法)是一种根据输入数据集建立分类模型的系统方法,非常适合预测或描述二元或标称类型的数据集。分类法的例子包括决策树分类法、贝叶斯分类法和支持向量机等。这些技术都使用一种学习算法(learning algorithm)确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。
如图1展示了解决分类问题的一般方法。首先,需要一个训练集(training set),由类标号已知的记录组成。使用训练集建立分类模型,该模型将随后应用于检验集(test set),检验集由类标号未知的记录组成。
图1 建立分类模型的一般方法
分类模型的性能根据模型正确和错误预测的检验记录计数进行评估,这些计数存放在称作混淆矩阵(confusion matrix)的表格中。如表1描述二元分类问题的混淆矩阵。表中每个表项表示实际类标号为但被预测为类j的记录数,例如代表原本属于类0但被误分为类1的记录数。按照混淆矩阵中的表项,被分类模型正确预测的样本总数为(),而被错误预测的样本总数为()。
表1 二类问题的混淆矩阵
|
预测的类 |
||
类=1 |
类=0 |
||
实际的类 |
类=1 |
||
类=0 |
虽然混淆矩阵提供衡量分类模型性能的信息,但是用一个数汇总这些信息更便于比较不同模型的性能。为实现这一目的,可以使用性能度量(performance metric),如准确率(accuracy),其定义如下:
同样,分类模型的性能可以用错误率(error rate)来表示,其定义如下:
基于分类算法的应用介绍两个案例,一个是垃圾邮件的分类和判断,另外一个是在生物医药领域的应用,即肿瘤细胞的判断和分辨。
邮箱系统分辨一封Email是否属于垃圾邮件属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理是,根据邮件正文中的单词,是否经常出现在垃圾邮件中,进行判断。例如,如果一份邮件的正文中包含“报销”、“发票”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。一般来说,判断邮件是否属于垃圾邮件,应该包含以下几个步骤:
第一,把邮件正文拆解成单词组合,假设某篇邮件包含100个单词。
第二,根据贝叶斯条件概率,计算一封已经出现了这100个单词的邮件,属于垃圾邮件的概率和正常邮件的概率。如果结果表明,属于垃圾邮件的概率大于正常邮件的概率。那么该邮件就会被划为垃圾邮件。
肿瘤细胞和普通细胞的差别需要有经验的医生通过病理切片判断。如果通过机器学习的方式使得系统自动识别出肿瘤细胞,此时的效率,将会得到飞速的提升。并且,通过主观(医生)+客观(模型)的方式识别肿瘤细胞,结果交叉验证,结论可能更加靠谱。
那么,通过分类模型识别来进行肿瘤判断包含两个步骤。首先,通过一系列指标刻画细胞特征,例如细胞的半径、质地、周长、面积、光滑度、对称性、凹凸性等等,构成细胞特征的数据。其次,在细胞特征宽表的基础上,通过搭建分类模型进行肿瘤细胞的判断,最终生成分类模型。
服务2200万用户,覆盖1000+服务
支持企业对公账户打款
采购交易三流(合同、发票、资金)合一
付款后资金将全程处于锁定
验收通过后服务商才可提现
企业服务交易全流程线上保障
交易过程中产生纠纷官方100%介入