
无需加好友免费技术支持
贝叶斯分类算法是一种统计学 分类方法 ,它是一种利用 概率统计 知识分类算法。在许多情况下, 朴素贝叶斯 (Na?ve Bayes,NB)可以与分类算法结合 决策树 与神经网络分类算法相比,该算法可以应用于大型算法 数据库 中,而且方法简单、分类准确率高、速度快。
由于 贝叶斯定理 假设一个 属性值 对给定类的影响是独立于其他属性的值,在实际情况下往往是无效的,因此其分类精度可能会下降。因此,有许多贝叶斯分类算法可以降低独立性假设,例如TAN(tree augmented Bayes network)算法。
所以既然是简单的贝叶斯 分类算法 ,它的核心算法是什么?
以女生找对象为例,提取除了女生找对象的几个关键特征,比如颜值、性格、身高、上进心、资产等。,并通过事先调查获得一些数据样本,即各种特征和择偶结果(分类)数据集。根据数据集中使用简单的贝叶斯函数计算每个特征集中在该分类下的值,最大的结果值分类认为该数据属于该分类。因为这是通过概率学计算出来的,所以不一定很准确。数据集样本数据越大,准确率越高。
以下数据集每行代码一个样本数据,每个数据的具体特征用逗号, 分割,特征顺寻依次为
女表水平、性格、身高、上进心、资产状况,女孩喜欢结果
注意:样本数据要足够多,至少每个类别下的特征组合都要有,不然就会出现未知的情况。
如网站垃圾信息分类、文章自动分类、网站垃圾邮件分类、文件分类等。
以反垃圾邮件为例,说明分类算法的使用。首先,输入分类算法进行培训,获得分类算法的垃圾邮件分类模型,然后结合分类算法对处理邮件进行分类识别。
根据分类样本信息提取一组特征信息的概率,如邮件中信用卡一词出现在垃圾邮件中的概率为20%,非垃圾邮件的概率为1%,得到分类模型。然后从待识别的邮件中提取特征值,结合分类模型判断其分类是否为垃圾邮件。由于贝叶斯算法得到的分类判断是概率值,可能会出现误判。