你们说的都太复杂了,希望我的描述能让外行们看懂。
当前运用的的算法,在本质上就是输入x得到反馈y。
至于怎么从x得到的y,我们可以列一个线性方程y = mx + b。
它表示是x和y的关系。只不过是从前我们学的是根据x求y,在领域是,知道输入x和输出y,要求出的是系数m和常数b。
线性回归
有监督学习就是持续输入大量的配对的x和y,调整系数m和常数b,让线性方程更好的匹配数据。这个方程永远不能以百分之百的准确率匹配x和y,但是它能被用来做预测。一旦你确定了一个可靠的函数,你输入x的值,变成得到一个正确率很高的y值。
即使复杂如阿尔法狗,它不过是得到了一个无比复杂的系数m,万变不离其宗,它的算法仍然能被表达为y = mx + b。
聚类分析
有监督学习还可以被用来做分类,类似于把水从池子里分到桶里。例如,如果数据带有特点x,它进入一号桶;如果没有,它进入二号桶。在你仍然可能认为这是在用x预测y,只是在这里y不是数值而是类别。分水的桶可以准备很多。
分类算法可以来过滤垃圾邮件,分析x光片的异常,确认案件的相关资料,为一个岗位选择合适的简历,甚至做market segmentation。