NDBC2017参会报告
南开大学
计算机学院

数据库与信息系统研究室

NDBC2017参会报告

NDBC 参会报告

整理:李仲伟 史慧珂

第 34 届中国数据库学术会议(NDBC2017)于 2017 年 10.20 -- 10.22 在浙江杭州举行。本次会议由中国计算机学会主办,中国计算机学会数据库专业委员会协办,浙江大学承办,中国计量大学、浙江工业大学、杭州电子科技大学和浙江工商大学协办,阿里巴巴、网易、人民邮电出版社赞助。

会议的举办地点在气候宜人的西子湖畔,主要场地在浙江大学玉泉校区,设有多个会场,包括永谦主会场、多个卲科馆分会场、周亦卿报告厅、影视厅及阿里巴巴公司等多个场所。

本次会议的主题是“系统演示”,主要关注数据库技术所面临的新的挑战问题和研究方向,并反映我国数据库技术研究的最新进展。自1999年数据库专委会成立以来,数据库专委会继承中国数据库多年来形成的优良传统,致力于办好这一传统的数据库盛会,为中国大陆、香港、台湾、澳门和海外华裔数据库研究者、开发者和用户提供一个大中华数据库论坛,交流有关数据库研究与应用的成果和经验,探讨数据库研究与应用所面临的关键性挑战问题和研究方向。

主体内容

研究生学术辅导

这部分是 NDBC 会议的一大特色内容,本届会议依然沿袭下来,在永谦主会场四位导师就学术研究、论文投稿、方向选择、写作技巧、研究心态等多方面进行了报告。

SIGMOD China Workshop

分布式数据库并行查询调度问题的实践与研究

华东师范大学的胡卉芪分享了关于分布式并行处理技术的发展相关的关键技术。当数据的规模大幅增加、应用的复杂度大幅提高时,在数据库系统中查询处理越来越开始依赖分布式并行处理技术。分布式查询会涉及到流水线(pipeline)、分片(segment)、执行阶段(stage)、任务(task)等概念,在这几个概念的基础上,胡卉芪用了消费者、生产者模型,通过一些详细的例子阐明了在查询计划中并行度如何保证调整达到平衡的问题。

主要讲的是分布式数据库系统是怎么回事,怎么在上面进行并行化查询,如何安排查询计划,如何实施查询调度的问题。主要是从大的框架层面来讲的,具体技术细节没怎么讲。有意思的是,最后提到了他们团队实现的两个系统:CEDAR、Gingko。

基于样例的知识图谱查询

北京大学的邵蓥侠介绍了他在SPARQL查询方面的研究工作。目前随着各类智能应用的发展,知识图谱作为一种重要的知识表示形式已经开始广泛使用,同时也出现了许多开放知识图谱,例如Yago、Freebase、DBPedia等,而访问这些开放知识图谱需要使用结构化查询语言SPARQL操作RDF格式的数据,但是普通用户书写SPARQL进行查询是一件很困难的事情,这需要掌握RDF这个无schema数据格式。邵蓥侠做了相关工作以提升RDF表示的知识图谱的可用性,他介绍了一种基于样例的知识图谱查询范式,这个方法的关键点是,用户在查询时先输入部分的样例,然后根据这部分样例,对实体间的相似度和相关性进行衡量,推测用户的真正查询意图,之后生成合理的SPARQL查询,获取知识图谱中所有与样例相似的结果,并且使用交互式的迭代优化技术不断完善结果。

主要讲的是知识图谱查询,是和RDF、图数据结构相关的内容,这部分的内容还可以进行下去,因为讲者的方法并没有完全解决这个问题,而是用不断迭代优化的技术趋近最有解,在知识图谱查询方面还可以继续研究。

开幕式

图书发行仪式,中国数据库40年历程回顾

分组讨论讲论文

这方面内容主要是学生汇报自己做的论文内容,在分会场进行。没有参加。

TCDE China Chapter

IEEE TCDE China Chapter学术沙龙活动,邀请当年在IEEE ICDE会议上发表的部分第一单位在中国地区的论文的相关作者来参加活动、并用中文做学术论文报告。

TCDE学术沙龙持续时间就一个下午,主要内容包括新南威尔士大学的林学民教授讲图数据管理方面的内容,中科院陈华伟讲机器学习领域的内容,北京大学冯岩松讲自然语言处理领域的内容等等。另外还有几篇ICDE2017上发表的research paper的报告。

ICDE Talks

Adaptively Secure Conjunctive Query Processing over Encrypted Data for Cloud Computing,由东莞理工学院的李睿副教授主讲。论文主要解决在公共云上隐私保护的方式下,包括关键字查询和范围查询在内的连接查询方面的问题。论文提出了一个基于对称加密的方案,并且方案同时满足自适应安全、高效的查询处理和可扩展索引尺寸。在自适应安全方面,主要建立一个不可区分的布隆过滤器(IBF)索引的数据结构。在实现高效的查询处理和结构不可分辨性上,论文提出不可区分的二叉树(IBtree)。在实现可伸缩的、紧凑的索引尺寸上,论文提出IBTree空间压缩算法。整个方案是用c++实现的。在实验方面,论文与KRB关键字查询和PBTree范围查询进行对比。

Complex Event-Participant Planning and Its Incremental Variant,由北京理工大学的成雨蓉博士后主讲。论文主要研究领域是基于社交网络平台的在线事件。

PrivSuper:A Superset-First Approach to Frequent Itemset Mining under Differential Privacy,由东北大学的王宁博士主讲。论文主要研究内容是差分隐私,不太了解。

技术论坛(前沿)

区块链技术论坛

这个论坛由镍磐科技CEO黄海旻、华东师范大学金澈清教授、Oracle架构师杨保华进行分享,主要讲解了从数据库角度看待区块链以及区块链在企业中的实际应用现状。

区块链的概念近两年逐渐深入人心,但真正进入企业级应用的时候,实际上还面对许多问题。从业者应该清醒认识到:进行区块链选择的决策时,从业者一定要从当前需要解决的实际业务问题出发,将决策建立在真正的业务需求上,而不是一个纯粹的技术。技术应该是应用解决方案的一部分。

但作为应用解决方案的一部分,企业开始部署区块链时发现区块链需要去中心化,这跟传统应用的部署思路几乎完全不同,并因此陷入困境。然而,在区块链技术中除了智能合约和分布式账本等底层组件需要去中心化之外,其实上层架构跟传统技术完全没有区别。不论区块链的应用是否是去中心化的应用,企业都应该把它构建在一系列相互独立的服务基础上,将系统模块化,这样不同的部分就可以进行独立的演化和部署。

要明确区块链解决的两个核心问题:第一个是分布式的信任(Distributed Trust),第二是不可抵赖的账本(Indelible Ledgers)。找到了业务问题后,我们可能还需要关注两个核心的业务指标。第一是业务的吞吐量,第二是业务的交易确认时间。加密算法、底层网络通信协议、交互操作性其实不是最重要的,应该考虑的重点是分布式共识算法(分布式的多个节点,彼此之间需要网络通信对某个状态达成共识,但彼此之间又不信任)、区块链技术的账户模型和智能合约。

分享到: