机器学习常用数据集列表

大数据练习数据接口
为了大家能更好的了解并实践我们课堂中实现的算法,小象学院特意为大家搜寻了一些大数据的数据源连接。
由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按各网站的数据使用声明使用数据。
数据源友情链接:​
 
  • 政府&机构数据

  1. 美国政府开源数据库:http://www.data.gov/
  2. 英国政府开源数据库:http://data.gov.uk/
  3. 世界银行数据库:http://www.worldbank.org/
  4. 美国气候数据库:http://www.ncdc.noaa.gov/
  5. 美国交通部数据库:http://www.rita.dot.gov/bts/data_and_statistics/index.html

  • 开源社区数据集

  1. Machine Learning Data: http://mldata.org/repository/data/
  2. UCI: http://archive.ics.uci.edu/ml/
  3. Co-Clustering: https://coclustering.hds.utc.fr/doku.phpid=en:start
  4. R Dataset:http://www.stats4stem.org/data-sets.html
  5. Google开源数据平台:http://www.reddit.com/r/bigquery/wiki/datasets

  • 商业数据平台

  1. 数据堂:http://datatang.com/
  2. Wind: http://114.80.154.45/University/ElitePlan.html

  • 竞赛&会议数据

  1. Kaggle:https://www.kaggle.com/
  2. DataCastle: http://www.pkbigdata.com/
  3. KDD: http://www.kdd.org/
  4. Statistical computing&Statistical Graphics: http://stat-computing.org/dataexpo/

  • 其他

  1. 基因数据:http://aws.amazon.com/cn/1000genomes/
  2. Cancer Program Dataset: http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi
  3. 电影评分数据集:http://grouplens.org/datasets/movielens/
  4. NCBI :http://www.ncbi.nlm.nih.gov/
  5. Data Source on Web:    http://mran.revolutionanalytics.com/documents/data/#machinelearning
  6. Mahout数据集:https://mahout.apache.org/users/basics/collections.html

HWDD

赞同来自:

多谢分享

小平同志 - 90后 研究生

赞同来自:

多谢分享

omgpop

赞同来自:

感谢分享

群马藤原

赞同来自:

6666  

要回复问题请先登录注册