所谓的势,就是电势的意思;在模式x1处其电势最高,一般为1.0,而离其越远则一般电势越小,刻画电势分布情况的函数就叫势函数,而所有模式的势函数结合起来就是积累位势函数K(x)。K(x)一般可作为判别函数。
贝叶斯分类器
理解它,至少要了解条件概率、全概率公式、贝叶斯公式等。
由贝叶斯定理,后验概率P(ωi | x)可由类别ωi的先验概率P(ωi)和x的条件概率密度p(x | ωi)来计算
【例子】
对一大批人进行癌症普查,患癌者以ω1类代表,正常人以ω2类代表。
设被试验的人中患有癌症的概率为0.005,即P(ω1)=0.005,当然P(ω2)=1-0.005=0.995现任意抽取一人,要判断他是否患有癌症。显然,因为P(ω2)> P(ω1),只能说是正常的可能性大。如要进行判断,只能通过化验来实现。提供的化验结果以模式x代表,这里x为一维特征,且只有x=“阳”和x=“阴”两种结果。假设根据临床记录,发现这种方法有以下统计结果
患有癌症的人试验反应为阳性的概率=0.95,即p(x=阳| ω1)=0.95患有癌症的人试验反应为阴性的概率=0.05,即p(x=阴| ω1)=0.05正常人试验反应为阳性的概率=0.01,即p(x=阳| ω2)=0.01正常人试验反应为阴性的概率=0.99,即p(x=阴| ω2)=0.99【那么问题来了】
若被化验的人具有阳性反应,他患癌症的概率为多少,即求P(ω1 | x=阳)=?
这里P(ω1) 是根据以往的统计资料得到的,为患癌症的先验概率。现在经过化验,要求出P(ω1 | x=阳),即经过化验后为阳性反应的人中患癌症的概率,称为后验概率。计算得到结果:Value=(0.95*0.005) / (0.95*0.005+0.01*0.995);
最小风险判别
为什么要引入这个呢,当时以为是一种新的判别函数形式,其实不然,这也是贝叶斯判别的关键之处。我们都知道,贝叶斯函数计算得到的是一个概率值,那么概率值就有大小,同一个样本对应于M个类别就能计算出M个概率值,那么哪一个概率值才是我们要的分类结果呢。换句话说,对于自然属性是属于ωi类的模式x来说,它来自ωi类的概率应为P(ωi |x),那么剩下的概率就有可能使得分类器将其判别错误。于是引入了最小风险判别,这应该类似于一些准则函数,也是为了减少误分类。下式即为最小平均条件风险:
其含义为分类器将模式x判别为j类时,出现判断出错的风险有多大,当然Ljj=0,i!=j时Lij=1(所谓平均)。
那么对于两类情况,r1(x)<r2(x)时,x应被判定为ω1类,应为这样风险小一点。
两类正态分布模式的贝叶斯分类器问题
这里就要用上前面聚类分析Fisher准则用到的数据例子了。
均值向量和协方差矩阵的参数估计