预约成功
说到底机器学习还是需要一定的专业知识,这可以通过学校学习或者自学完成。但有没有必要通晓数学,擅长优化呢?我的看法是不需要的,大前提是需要了解基本的数学统计知识即可,更多的讨论可以看我这个答案「阿萨姆:如何看待「机器学习不需要数学,很多算法封装好了,调个包就行」这种说法?」。最低程度下我建议掌握五个小方向,对于现在和未来几年内的工业界够用了。再一次重申,我对于算法的看法是大部分人不要造轮子,不要造轮子,不要造轮子!只要理解自己在做什么,知道选择什么模型,直接调用 API 和现成的工具包就好了。
1、机器学习课程的基础是什么——回归模型
学校的课程中其实讲得更多的都是分类,但事实上回归才是工业届最常见的模型。比如产品定价或者预测产品的销量都需要回归模型。现阶段比较流行的回归方法是以数为模型的 xgboost,预测效果很好还可以对变量重要性进行自动排序。而传统的线性回归(一元和多元)也还会继续流行下去,因为其良好的可解释性和低运算成本。如何掌握回归模型?建议阅读 Introduction to Statistical Learning 的 2-7 章,并看一下 R 里面的 xgboost 的 package 介绍。
2、机器学习课程的基础是什么——分类模型
这个属于老生常谈了,但应该对现在流行并将继续流行下去的模型有深刻的了解。举例,随机森林(Random Forests)和支持向量机(SVM)都还属于现在常用于工业界的算法。可能很多人想不到的是,逻辑回归(Logistic Regression)这个常见于大街小巷每一本教科书的经典老算法依然占据了工业界大半壁江山。这个部分推荐看李航《统计学习算法》,挑着看相对应的那几章即可。
3、机器学习课程的基础是什么——神经网络
我没有把神经网络归结到分类算法还是因为现在太火了,有必要学习了解一下。随着硬件能力的持续增长和数据集愈发丰富,神经网络的在中小企业的发挥之处肯定会有。三五年内,这个可能会发生。但有人会问了,神经网络包含内容那么丰富,比如结构,比如正则化,比如权重初始化技巧和激活函数选择,我们该学到什么程度呢?我的建议还是抓住经典,掌握基本的三套网络: a. 普通的 ANN b. 处理图像的 CNN c. 处理文字和语音的 RNN(LSTM)。对于每个基本的网络只要了解经典的处理方式即可,具体可以参考《深度学习》的 6-10 章和吴恩达的 Deep Learning 网课(已经在网易云课堂上线)。
4、机器学习课程的基础是什么——数据压缩 / 可视化
在工业界常见的就是先对数据进行可视化,比如这两年很火的流形学习(manifold learning)就和可视化有很大的关系。工业界认为做可视化是磨刀不误砍柴工,把高维数据压缩到 2 维或者 3 维可以很快看到一些有意思的事情,可能能节省大量的时间。学习可视化可以使用现成的工具,如 Qlik Sense 和 Tableau,也可以使用 Python 的 Sklearn 和 Matplotlib。
5、机器学习课程的基础是什么——无监督学习和半监督学习
工业界的另一个特点就是大量的数据缺失,大部分情况都没有标签。以最常见的反诈骗为例,有标签的数据非常少。所以我们一般都需要使用大量的无监督,或者半监督学习来利用有限的标签进行学习。多说一句,强化学习在大部分企业的使用基本等于 0,估计在未来的很长一阵子可能都不会有特别广泛的应用。
基本功的意义是当你面对具体问题的时候,你很清楚可以用什么武器来处理。而且上面介绍的很多工具都有几十年的历史,依然历久弥新。所以以 3-5 年的跨度来看,这些工具依然会非常有用,甚至像 CNN 和 LSTM 之类的深度学习算法还在继续发展迭代当中。无论你现在还在学校还是已经开始工作,掌握这些基本的技术都可以通过自学在几个月到一两年内完成。
以上就是《机器学习课程的基础是什么?这些基础才是掌握人工智能的关键》的全部内容,从这些内容里,我们发现了如果你想真的学好人工智能的知识,那么掌握人工智能中机器学习的基础才是重要的,如果你想知道更多人工智能知识,可以点击下方资料下载链接。