跳至内容
数据集

数据集

常用实验数据集资源,按用途分类整理,持续更新中。

通用机器学习基准数据集

数据集规模类型来源说明
UCI Machine Learning Repository多种分类 / 回归 / 聚类archive.ics.uci.edu最经典的 ML 基准数据集合,含 Iris、Wine、Heart Disease 等
KEEL Dataset Repository多种分类 / 回归sci2s.ugr.es/keel含不平衡学习、模糊学习等专题数据集
OpenML多种通用 MLopenml.org可编程访问的 ML 数据集与实验平台
Kaggle Datasets多种通用kaggle.com/datasets社区贡献数据集,覆盖面广

常用 UCI 子集

数据集样本数特征数类别数典型用途
Iris15043分类入门基准
Wine178133多属性分类
Glass21496多类分类
Heart Disease (Cleveland)303132医学诊断
Breast Cancer Wisconsin69992二分类基准
Ionosphere351342高维二分类
Sonar208602高维小样本
Vehicle846184中规模分类
Segment2,310197图像分割特征
Pendigits10,9921610手写数字

决策问题数据集

数据集 / 来源说明适用方法
决策矩阵(论文自带)多数 MADM 论文均附有决策矩阵数据TOPSIS / VIKOR / AHP 等
EPI (Environmental Performance Index)环境绩效排名数据国家排序、多准则评价
QS World University Rankings大学排名指标数据多属性综合评价
Global Innovation Index国家创新力指标多属性排名

模糊与不确定性数据

数据集来源说明
Fuzzy datasets in KEELKEEL包含模糊规则学习专用数据
Interval-valued data (INTDAT)文献收集区间值数据,用于区间模糊集方法检验
Linguistic decision matrices论文附录语言评价数据,用于语言决策方法

聚类分析数据集

数据集样本数特征数簇数说明
S-sets (S1–S4)5,000215不同重叠度的合成数据
A-sets (A1–A3)3,000–7,500220–50大簇数合成数据
Aggregation78827不规则形状簇
Compound39926复合形状
Pathbased30023路径型簇
MNIST70,00078410手写数字图像
Fashion-MNIST70,00078410服装图像(MNIST 替代)

大规模数据集(粒球计算等)

数据集样本数特征数来源说明
SUSY5,000,00018UCI粒子物理大规模分类
HIGGS11,000,00028UCI希格斯玻色子大规模分类
Covertype581,01254UCI森林覆盖类型
KDD Cup 994,898,43141UCI网络入侵检测
Skin Segmentation245,0573UCI皮肤分割

数据获取工具

# Python 快速加载 UCI 数据集
from sklearn.datasets import load_iris, load_wine, load_breast_cancer
from ucimlrepo import fetch_ucirepo  # pip install ucimlrepo

# scikit-learn 内置
iris = load_iris()

# UCI ML Repository API
dataset = fetch_ucirepo(id=53)  # Iris
X, y = dataset.data.features, dataset.data.targets
# 从 OpenML 加载
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1)