文本分类传统机器学习方法

朴素贝叶斯模型与中文文本分类

\[ P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)} \]

\[ P(Y,X) = P(Y|X)P(X)=P(X|Y)P(Y) \]

​ 条件独立假设的一个缺陷是,失去了词语之间的顺序信息。这就相当于把所有的词汇扔进到一个袋子里随便搅和,贝叶斯都认为它们一样。因此这种情况也称作词袋模型(bag of words)

优化

  1. 取对数
  2. 转换为权重,每个词一个重要度,而不是计数
  3. 选取top k关键词
  4. 分割样本,根据文本长度选择不同数量的关键词数量,文本长时选取多一些
  5. 位置权重:比如在标题中的关键词,权重大一些

Logistic Regression

​ Logistic 回归并非最强大的分类算法,它可以很容易地被更为复杂的算法所超越,另一个缺点是它高度依赖正确的数据表示。但是其计算效率是相对较高的。不能用 logistic 回归来解决非线性分类问题,因为它的决策边界是线性的。

SVM

​ 找到具有最小间隔的样本点,然后拟合出一个到这些样本点距离和最大的线段/平面。

​ 目标函数:

image

​ 优化问题可推导出:【过程见机器学习笔记】

image

​ 得到回归系数:

image

实验

notebook