本文共 1119 字,大约阅读时间需要 3 分钟。
监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
通俗的讲,就是人来训练机器,教会机器如何做事情。
例如,对于一个地区的房价的数据,如图所示,横轴表示房子的面积,纵轴表示房价。回归算法的目的就是根据这组数据,计算一套房子能卖出多少钱。
我们应用学习算法,拟合一条直线或是二次函数曲线,根据这条线可以推测出,这套房子可能卖出的金额。
回归是针对于连续性变量的
例如,通过查看病例来推测肿瘤的良性与否,在如图的数据集中,横轴表示肿瘤的大小,纵轴上,用1和 0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性 则记为 1,不是恶性,或者说良性记为 0。
这里分类就派上了用场,分类和回归的区别,在于分类是针对离散型的,输出的结果是有限的。
在本例中,输入一个数据,产生的结果毕竟是离散的,即只有“是”和“否”两种结果。
假设你经营着一家公司,你想开发学习算法来处理这两个问题:
问题一是一个回归问题,因为数千件货物是一个连续的值。因此卖出的物品数,也是一个连续的值。
问题二是一个分类问题,因为用 0 来表示账户未被盗,用 1 表示账表示账户曾经被盗过。所以我们根据账号是否被盗过,把它们定为0 或或 1,然后用算法推测一个,然后用算法推测一个账号是账号是 0 还是还是 1,因为只有少数的离散值,所以他是一个分类问题。无监督学习:不知道数据集中的关系,而是需要根据聚类或是一定的模型的得到数据的关系。
通俗的讲,就是,需要机器自己学习如何做事
判断下列哪些选项是无监督学习
A. 给定标记为垃圾邮件/非垃圾邮件的电子邮件,学习垃圾邮件过滤器。
B. 给定一组在网络上找到的新闻文章,将它们分组为一组关于同一故事的文章。 C. 给定一个客户数据数据库,自动发现细分市场并将客户分组到不同的细分市场 D. 给定一组被诊断为是否患有糖尿病的患者,学习将新患者分类为是否患有糖尿病。BC是无监督学习,而AD是监督学习。
转载地址:http://nmlvb.baihongyu.com/