人工智能干货|新发布的4个机器学习数据集，这些内容必须注意

环球网校·2020-03-12 16:06:17浏览收藏

地区
选择考试省份
获取验证码

订阅报考资讯

请输入下面的图形验证码

提交验证

预约成功

我知道了

摘要随着当今社会科学技术的持续发展，和人们对编程技术的发展，近年来AI产业正在飞速发展，并且当今社会也有越来越多的人工智能产业实践，所以越来越多的人都开始关注人工智能方面，由此可见人工智能在当今社会中的热度，今天就来讲讲机器学习数据集。

机器学习算法需要作用于数据，而数据的本质则决定了应用的机器学习算法是否合适，而数据的质量也会决定算法表现的好坏程度。所以会研究数据，会分析数据很重要。本文作为学习研究数据系列博文的开篇，列举了4个最流行的机器学习数据集。

1、机器学习数据集——Iris

Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于(Setosa，Versicolour，Virginica)三个种类中的哪一类。

2、机器学习数据集——Adult

该数据从美国1994年人口普查数据库抽取而来，可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$，属性变量包含年龄，工种，学历，职业，人种等重要信息，值得一提的是，14个属性变量中有7个类别型变量。

3、机器学习数据集——Wine

这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。

4、机器学习数据集——Car Evaluation

这是一个关于汽车测评的数据集，类别变量为汽车的测评，(unacc，ACC，good，vgood)分别代表(不可接受，可接受，好，非常好)，而6个属性变量分别为「买入价」，「维护费」，「车门数」，「可容纳人数」，「后备箱大小」，「安全性」。值得一提的是6个属性变量全部是有序类别变量，比如「可容纳人数」值可为「2，4，more」，「安全性」值可为「low, med, high」。

小结

通过比较以上4个数据集的差异，简单地总结：当需要试验较大量的数据时，我们可以想到「Adult」;当想研究变量之间的相关性时，我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时，我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时，我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。

以上就是有关于机器学习数据集的内容了，即使当前时代人工智能的发展依然有限，但是依然不影响大家对于人工智能这一行业的热情，小编相信在不久的未来，人工智能一定能为我们的社会带来更多便利，环球网校小编在此祝大家人工智能行业的学习之路顺利。

展开剩余

资料下载

历年真题

精选课程

老师直播

更多资料 >

更多试题 >

报考

备考

政策

人工智能干货|新发布的4个机器学习数据集，这些内容必须注意

最新推荐