报告题目:发现和组合数据湖中的表格数据
主讲人: 鲍芝峰,博士,皇家墨尔本理工大学大数据与数据库研究组,教授
时间:2024年11月14日10:00-11:00
地点:yl8cc永利官网翔安校区西部片区3号楼302室
报告摘要:数据湖已成为存储大量异构数据的重要存储库,为数据驱动的研究和应用带来了巨大的机遇和重大挑战。从这些海量数据中有效地提取、提炼和利用相关数据是一个多方面的问题,需要复杂的策略。本次演讲介绍了一种系统的数据集合方法,强调了三个关键任务,这些任务对于充分发挥表格数据湖的潜力以实现特定的下游应用至关重要:1) 数据集发现:此任务解决了从表格数据湖中有效识别与特定用户意图相符的相关数据集的需求。2) 数据集层面的组装:一旦发现相关数据集,重点就转移到将它们组装成一个统一而全面的数据集。3) 数据点层面的组装:最后一步是从组装的数据集中优化数据点的选择,为下游任务(例如训练机器学习模型)挑选出最有效的子集。通过系统地解决这些任务,我们的框架将原始的、碎片化的数据转换为专为机器学习和其他分析目的而定制的精炼、高质量的数据集。本次演讲将详细介绍为每项任务开发的方法和算法,讨论遇到的挑战,并说明对高效和有效的数据准备至关重要的实际应用的潜在影响。
报告人简介:鲍芝峰,博士,皇家墨尔本理工大学大数据与数据库研究组组长,教授,也是墨尔本大学的名誉高级研究员,曾担任皇家墨尔本理工大学信息发现与数据分析中心联合主任。鲍芝峰教授在新加坡国立大学获得计算机科学博士学位,并曾获得最佳博士论文奖。鲍教授近期的研究方向为数据管理和治理,尤其关注DB4AI和AI4DB。在DB4AI中,他研究如何识别合适的数据集、发现隐藏的关系、解决数据质量问题以及满足不同的用户需求。在AI4DB中,研究机器学习如何优化数据库操作,包括索引选择、查询优化以及低维和高维数据的基数估计。鲍教授获得过多项荣誉,如澳大利亚研究委员会未来奖学金、澳大利亚计算研究与教育协会 (CORE) 杰出研究奖、谷歌教师研究奖以及KDD'19最佳论文奖亚军。他是 CIKM'24 完整论文轨道的 PC 联合主席,并曾担任 PVLDB、SIGMOD 和 ICDE 的副主编。他还担任 CORE 2026 会议排名委员会的数据管理和数据科学领域主席。此外,他还为各种组织提供咨询服务,包括墨尔本市的智慧城市项目和维多利亚州卫生和公共服务部的数据质量计划。
邀请人:软件工程系 王晓黎副教授