Novel Data Imputation Techniques Under Incomplete Interval-Valued Q-Rung Orthopair Fuzzy Sets

期刊 Expert Systems With Applications

发表 2025 年 09 月

作者 Xiuqin Ma · Hongwu Qin

Q1 CCF-C IF 7.5 模糊决策数据填补不完整信息区间值 q-阶正交模糊集KNN不确定数据分析

这篇文章研究的不是传统意义上的排序算子，而是不完整 interval-valued q-rung orthopair fuzzy sets（IVq-ROFSs）中的缺失数据填补问题。作者指出，很多 q-rung orthopair fuzzy 决策方法默认输入数据完整，但真实场景里专家评价、问卷调查和多源信息常常存在缺失值。如果补值方法设计不当，后续所有排序、聚合与决策结果都会被系统性扭曲。为此，文章围绕 IVq-ROFSs 提出三类数据填补算法：基于均值的 MVDFA、基于参数化最小距离的 PLDDFA、以及基于参数化 KNN 的 PKNNDFA，并通过随机数据集和两个真实应用场景验证方法有效性。

研究背景

在模糊决策研究中，很多工作默认决策矩阵是完整的，但现实中的不确定信息往往并非如此。无论是专家打分、群体问卷，还是多阶段评价数据，都可能因为认知不足、信息不对称或采集过程不完整而出现缺失值。

如果直接忽略这些缺失值，会导致两个问题：

决策矩阵信息被破坏，后续排序或聚合结果失真；
原本适用于完整信息的模糊决策方法无法直接使用。

对于 IVq-ROFSs 这类表达能力更强的模糊结构，缺失数据问题会更棘手，因为每个评价不仅包含区间信息，还包含 q-rung orthopair 约束。文章因此把“补值”视为模糊决策流程前端必须解决的基础问题，而不是附带的数据清洗步骤。

主要贡献

系统分析现有数据填补方法在 IVq-ROFSs 下的不足
文章首先回顾并分析了三类已有方法：Ma et al. (2023)、Qi et al. (2021) 以及 Qin et al. (2020) 的数据填补思路。这一部分的意义在于明确指出：现有方法在不完整 IVq-ROFSs 环境下，要么对局部结构利用不足，要么对参数敏感，要么难以兼顾精度与计算复杂度。
提出基于均值的填补算法 MVDFA
MVDFA（Mean Values based Data Filling Algorithm）是三种方法里最基础的一种。它的思想是利用已有观测值的均值信息来补全缺失项。优点是实现简单、计算代价低，适合作为基线方法或在数据结构较平稳时使用。
提出基于参数化最小距离的填补算法 PLDDFA
PLDDFA（Parameter-oriented Least Distance based Data Filling Algorithm）进一步引入距离思想，根据不完整对象与已有对象之间的相近程度来完成填补。相比单纯均值法，这种方法更能利用样本之间的局部结构信息，适合异质性更强的数据环境。
提出基于参数化 KNN 的填补算法 PKNNDFA
PKNNDFA（Parameter-oriented KNN based Data Filling Algorithm）可以看作最强调邻域结构的一种填补策略。它通过 K 近邻信息来估计缺失项，并允许参数控制邻域选择方式和补值行为。相对前两种方法，它通常更适合复杂、非均匀分布的数据，但也会引入更高的参数选择要求。
把数据填补真正嵌入模糊决策流程
这篇文章最值得注意的一点是，它不是单纯做“缺失值恢复”，而是把补值问题放到模糊决策语境里看待。换句话说，作者关注的是：
$\text{不完整 IVq-ROFS 决策矩阵} \rightarrow \text{数据填补} \rightarrow \text{可用决策信息} \rightarrow \text{后续模糊决策分析}$
这使得这篇论文更像是模糊决策方法链条中的“前处理基础设施”工作。

实验与应用解读

从目录结构看，文章验证设计很完整，主要分成四层：

三种方法的计算复杂度分析
作者专门讨论了 MVDFA、PLDDFA 和 PKNNDFA 的复杂度，说明这篇论文不是只追求补值精度，也关心大规模数据下能否实际使用。
随机生成数据集实验
随机数据实验用于检验三种填补方法在可控缺失场景中的稳定性与鲁棒性。这类实验的价值在于可以系统比较不同缺失机制和参数设置下的性能表现。
真实应用一：社区导向型旅游
文章将方法应用到 community-oriented tourism 场景。这说明不完整 IVq-ROFS 补值并不是纯理论问题，而是可以服务于真实的模糊评估数据分析。
真实应用二：研究生面试评价
第二个真实应用是 graduate interview。这一点非常有代表性，因为面试评价天然带有模糊性、主观性和缺失信息，正适合检验填补算法是否能在现实评价问题中提升后续分析质量。

文章后续还单列了“Advantage analysis”，说明作者不仅展示结果，还明确总结了各方法的相对优势。结合三种算法结构可以合理理解为：

MVDFA 更轻量；
PLDDFA 更强调距离结构；
PKNNDFA 更强调邻域信息利用；
三者适用于不同的数据复杂度与计算预算。

简要评价

这篇论文的意义在于，它把“缺失数据处理”从模糊决策外围问题，提升成了核心研究对象。很多决策论文默认输入矩阵已经准备好，但实际问题里最先崩掉的往往正是数据完整性。

因此，这篇文章虽然不像 Choquet-VIKOR、三支决策或 Banzhaf 动态权重那样直接输出新的决策排序框架，但它解决的是更基础的问题：在不完整 IVq-ROFS 信息下，怎样先把数据补全到可决策状态。

从实验室论文脉络来看，这篇工作属于明显的“前处理与数据基础层”研究，可以和后续各种 IVq-ROFS / q-ROHFS 决策方法形成自然衔接：先补值，再排序，再分析。

基本信息

项目	内容
期刊	Expert Systems With Applications
卷期	Vol. 288 (2025), Article 128201
DOI	10.1016/j.eswa.2025.128201
作者	Xiuqin Ma, Hongwu Qin
关键词	Data Filling, Incomplete fuzzy set, interval-valued q-Rung Orthopair fuzzy set, Data imputation, Fuzzy decision-making, Uncertain data analysis

Dynamic Q-Rung Orthopair Hesitant Fuzzy Decision-Making Model Based on Banzhaf Value of Fuzzy Measure A MAGDM Approach Based on Dual Hesitant Q-Rung Orthopair Fuzzy Dombi Norm With Hamy Mean Operators and Its Application