朴素贝叶斯(Naive Bayes)是一种基于贝叶斯定理的简单概率分类器,广泛用于机器学习和统计分类任务。
这种方法的“朴素”之处在于它假设所有特征之间是相互独立的,即每个特征独立地对分类结果产生影响,这一假设简化了计算过程,虽然现实中往往不是完全成立的。
贝叶斯定理提供了一种计算条件概率的方法,即在已知某些信息的情况下,事件发生的概率:
P(A∣B)=P(B)P(B∣A)×P(A)其中:
- P(A∣B) 是在事件 B 发生的条件下事件 A 发生的概率
- P(B∣A) 是在事件 A 发生的条件下事件 B 发生的概率
- P(A) 和 P(B) 分别是事件 A 和事件 B 发生的边缘概率
算法推导
在分类任务中,朴素贝叶斯分类器利用贝叶斯定理来估计一个样本属于某个类的概率。
具体来说,对于一个给定的样本,计算样本属于每个类的概率,并将样本分类到概率最高的类。
在实践中,经常是若干事件同时发生条件下,某个事件发生的概率,即 P(y∣x1,x2,...xm),在”朴素“条件下,可以得到:
P(y∣x1,x2,...xm)=P(x1,x2,...xm)P(y)P(x1,x2,...xm∣y)=P(x1,x2,...xm)P(y)∏i=1mP(xi∣y)
在给定样本的条件下,P(x1,x2,...xm) 是常数,因此可以忽略,只需要关注分子的部分:
P(y∣x1,x2,...xm)∝P(y)i=1∏mP(xi∣y)
因此只要得到最大的概率,就可以预测数据的分类:
y^=yargmax