文本分类传统机器学习方法

朴素贝叶斯模型与中文文本分类

\[ P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} \]

\[ P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y) \]

条件独立假设的一个缺陷是，失去了词语之间的顺序信息。这就相当于把所有的词汇扔进到一个袋子里随便搅和，贝叶斯都认为它们一样。因此这种情况也称作词袋模型(bag of words)。

取对数

转换为权重，每个词一个重要度，而不是计数

选取top k关键词

分割样本，根据文本长度选择不同数量的关键词数量，文本长时选取多一些

位置权重：比如在标题中的关键词，权重大一些

Logistic 回归并非最强大的分类算法，它可以很容易地被更为复杂的算法所超越，另一个缺点是它高度依赖正确的数据表示。但是其计算效率是相对较高的。不能用 logistic 回归来解决非线性分类问题，因为它的决策边界是线性的。

找到具有最小间隔的样本点，然后拟合出一个到这些样本点距离和最大的线段/平面。

目标函数：

优化问题可推导出：【过程见机器学习笔记】

得到回归系数：

Notes NLP

classification machine learning

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！