站内搜索

“梦溪湖论坛”秋季第七讲—“可扩展的主动聚类算法研究”

文章作者:文/曾子斐 吴保童 图/吴沛岭 责任编辑:廖俊怡 审核人:王鑫 文章来源:


11月13日下午,西南石油大学计算机与软件学院在明理楼B306举行了“梦溪湖论坛”系列讲座秋季第七讲。本次讲座主题为“可扩展的主动聚类算法研究”,由谢文波老师主讲。围绕该主题,介绍了在CIMK会议发表的论文“ACDM:An Effective and Scalable Active Clustering with Pairwise Constraint”。谢老师主要从聚类、稀疏图构造、高价值节点选择、高效查询和细化等方面展开系统讲解。

谢老师从聚类引入,介绍了传统聚类的挑战。他指出了聚类的主观性,单一数据集可以以多种有效的方式进行聚类,可以根据用户或者研究者的兴趣、倾向有不同的划分方式。由于聚类的主观性,将约束集成到聚类中变得非常重要,这使得用户能够向系统传达他们的偏好。接着介绍了半监督的聚类,它可以提前让用户在数据里进行对比,构成约束。但漫无目的、随机地去打标记,时间消耗过大。所以引出主动学习,它能自动选择关键数据,减少人工干预以提高聚类效果,去解决应用问题。传统主动学习也有不足,例如计算资源、内存支持、等待时间长等问题。

基于以上背景,谢老师团队提出了一种新的主动聚类模型(ACDM),它应用最近邻技术构建扩散图,并利用在线框架迭代细化聚类结果。谢老师指出,ACDM是从纯数据结构解决问题,时间复杂度较低,所以比较快。接着介绍了ACDM的框架:最近邻层次的最近邻构建了一个稀疏图,用于捕获复杂的数据关系;贪婪搜索策略去评估节点,动态平衡不确定性和代表性。高效的查询和细化减少了成对约束需求,采用扩散模型进行有效的标签重新分配。

谢老师接着讲解了构造稀疏图的过程。每个点都被视为一个代表点,每个代表点与其最近邻连接,形成若干个连接组件。找到新的代表点,迭代上述步骤后则构建出稀疏图。谢老师指出,稀疏图就是带有层次结构的聚类数。此外,谢老师详细讲解了高节点选择的标准,其一是代表性,探索聚类的一般分布;其二是不确定性,探索聚类之间的模糊边界。谢老师还指出了如何去平衡两个标准,以最大限度地获取信息。他建议道,在批量模式下,不确定性优先,代表性次之。针对如何评价代表性,赵老师指出同时探索代表点和离群点。对于不确定性,是采用KNN局部区域中节点聚类分布的香农熵去处理。

在讲座的互动环节,师生们积极提出问题,围绕稀疏图的稀疏性、人机交互处理纠错、聚类等细节展开了讨论。谢老师以细致的解释和丰富的实例,回应了大家的疑问。这场讲座不仅是一次知识的传递,更是一次思想的碰撞,丰富了与会者的学术认知,更是对ACDM有了深入的了解。

更新时间:2024-11-14

Copyright© 2018 All Rights Reserved. 西南石油大学计算机与软件学院