给定样本充足情况下,进行模型选择的简单方法是随机将数据分为三部分:训练集、验证集、测试集,训练集用来训练模型,验证集用于模型的选择,测试集用于最终对学习方法的评估。

当数据不充足的情况下, 模型选择的另一种方法是交叉验证。基本思想是重复使用数据。常见的有简单交叉验证、S折交叉验证和留一交叉验证。

这一章讲狄利克雷分布,这个分布看起来洋气,其实也不难,只是密度函数看起来太丑了。 389页有个图讲各种分布的关系,很好理解。所谓狄利克雷分布就是贝塔分布的推广,多项式分布是二项分布的推广,二项分布是伯努利实验的描述,贝塔分布是连续伯努利实验的描述,所以狄利克雷分布和多项式分布是描述同一类实验,不过一个是连续的,一个是离散的。

输入变量和输出变量均为连续变量的预测问题称为回归问题,如函数拟合;输出变量为有限个离散变量的预测问题称为分类问题,学习出的分类模型或分类决策函数称为分类器(classifier);输入变量与输出变量均为变量序列的预测问题称为标注问题,如词性标注,输入词序列,输出是(词,词性)的标记序列。

对于二分类问题,常用的评价指标是精确率和召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4中情况出现的总数分别记为:

  • TP——将正类预测为正类数;
  • FN——将正类预测为负类数;
  • FP——将负类预测为正类数;
  • TN——将负类预测为负类数

亲亲想要更多的辅导吗?需要专业老师的帮助吗?可以联系客服找Jessica哦,带给你不一样的服务

【Jessica说】