近日,我院师生(冷强奎教授、硕士生郭佳美、硕士生焦二杰、孟祥福教授)与合作者(王长忠教授)在中科院一区、TOP期刊Knowledge-Based Systems上发表了题为”NanBDOS: Adaptive and parameter-free borderline oversampling via natural neighbor search for class-imbalance learning”的学术论文。
Knowledge-Based Systems是一本人工智能领域的国际跨学科期刊,2022年影响因子为8.139,中科院一区、JCR一区。该期刊主要发表人工智能及相关领域的原创性、创新性和创造性研究成果,旨在关注基于知识和其他人工智能技术的系统研究和重要进展。该篇论文的第一作者单位和通讯作者单位均为菠菜老平台集合网。
分类不平衡数据是机器学习领域的一项挑战性任务。许多智能决策场景均表现出类别不平衡特征,如银行欺诈检测、疾病诊断、风险行为评估等。在这些场景中,标准分类器会产生倾向多数类的诱导偏差。尽管少数类样本占比较小,但误分其中的一个都可能引发严重的后续事故。例如,将一位患病的人误分类为健康,这不但会延误诊治甚至会造成严重的生命损失。因此,建立针对少数类样本的精确学习机制已成为不平衡分类领域的一个核心问题。
本项研究从数据层面出发,通过合成过采样技术来改善数据不平衡对分类器的影响,提出了一种基于自然近邻的自适应边界过采样新方法NanBDOS。该方法能够挖掘样本间的自然近邻关系,并且是完全无参的,解决了传统采样方法由于K近邻参数值改变所带来的不适定问题。更重要的是,NanBDOS为每个采样种子分配动态的采样权重,这种策略严格对应于数据复杂性并能够维持数据的原始分布。与多个state-of-the-art方法的对比也证实了该方法的有效性和竞争力。
该项成果依托“辽宁省无线射频大数据智能应用重点实验室”和“大数据分析与人工智能实验室”开展研究。通过近年的积累,我院研究生工作和科研工作正逐渐深入专业领域前沿,一些高质量科研成果正在不断产出。这些成果将为我院实验室发展、研究生培养和学科建设起到重要的支撑作用。