数据集
数据集
常用实验数据集资源,按用途分类整理,持续更新中。
通用机器学习基准数据集
| 数据集 | 规模 | 类型 | 来源 | 说明 |
|---|---|---|---|---|
| UCI Machine Learning Repository | 多种 | 分类 / 回归 / 聚类 | archive.ics.uci.edu | 最经典的 ML 基准数据集合,含 Iris、Wine、Heart Disease 等 |
| KEEL Dataset Repository | 多种 | 分类 / 回归 | sci2s.ugr.es/keel | 含不平衡学习、模糊学习等专题数据集 |
| OpenML | 多种 | 通用 ML | openml.org | 可编程访问的 ML 数据集与实验平台 |
| Kaggle Datasets | 多种 | 通用 | kaggle.com/datasets | 社区贡献数据集,覆盖面广 |
常用 UCI 子集
| 数据集 | 样本数 | 特征数 | 类别数 | 典型用途 |
|---|---|---|---|---|
| Iris | 150 | 4 | 3 | 分类入门基准 |
| Wine | 178 | 13 | 3 | 多属性分类 |
| Glass | 214 | 9 | 6 | 多类分类 |
| Heart Disease (Cleveland) | 303 | 13 | 2 | 医学诊断 |
| Breast Cancer Wisconsin | 699 | 9 | 2 | 二分类基准 |
| Ionosphere | 351 | 34 | 2 | 高维二分类 |
| Sonar | 208 | 60 | 2 | 高维小样本 |
| Vehicle | 846 | 18 | 4 | 中规模分类 |
| Segment | 2,310 | 19 | 7 | 图像分割特征 |
| Pendigits | 10,992 | 16 | 10 | 手写数字 |
决策问题数据集
| 数据集 / 来源 | 说明 | 适用方法 |
|---|---|---|
| 决策矩阵(论文自带) | 多数 MADM 论文均附有决策矩阵数据 | TOPSIS / VIKOR / AHP 等 |
| EPI (Environmental Performance Index) | 环境绩效排名数据 | 国家排序、多准则评价 |
| QS World University Rankings | 大学排名指标数据 | 多属性综合评价 |
| Global Innovation Index | 国家创新力指标 | 多属性排名 |
模糊与不确定性数据
| 数据集 | 来源 | 说明 |
|---|---|---|
| Fuzzy datasets in KEEL | KEEL | 包含模糊规则学习专用数据 |
| Interval-valued data (INTDAT) | 文献收集 | 区间值数据,用于区间模糊集方法检验 |
| Linguistic decision matrices | 论文附录 | 语言评价数据,用于语言决策方法 |
聚类分析数据集
| 数据集 | 样本数 | 特征数 | 簇数 | 说明 |
|---|---|---|---|---|
| S-sets (S1–S4) | 5,000 | 2 | 15 | 不同重叠度的合成数据 |
| A-sets (A1–A3) | 3,000–7,500 | 2 | 20–50 | 大簇数合成数据 |
| Aggregation | 788 | 2 | 7 | 不规则形状簇 |
| Compound | 399 | 2 | 6 | 复合形状 |
| Pathbased | 300 | 2 | 3 | 路径型簇 |
| MNIST | 70,000 | 784 | 10 | 手写数字图像 |
| Fashion-MNIST | 70,000 | 784 | 10 | 服装图像(MNIST 替代) |
大规模数据集(粒球计算等)
| 数据集 | 样本数 | 特征数 | 来源 | 说明 |
|---|---|---|---|---|
| SUSY | 5,000,000 | 18 | UCI | 粒子物理大规模分类 |
| HIGGS | 11,000,000 | 28 | UCI | 希格斯玻色子大规模分类 |
| Covertype | 581,012 | 54 | UCI | 森林覆盖类型 |
| KDD Cup 99 | 4,898,431 | 41 | UCI | 网络入侵检测 |
| Skin Segmentation | 245,057 | 3 | UCI | 皮肤分割 |
数据获取工具
# Python 快速加载 UCI 数据集
from sklearn.datasets import load_iris, load_wine, load_breast_cancer
from ucimlrepo import fetch_ucirepo # pip install ucimlrepo
# scikit-learn 内置
iris = load_iris()
# UCI ML Repository API
dataset = fetch_ucirepo(id=53) # Iris
X, y = dataset.data.features, dataset.data.targets# 从 OpenML 加载
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1)