摘要:
近年来, 数据库系统为了应对新应用和新数据类型对数据管理与分析提出的全新挑战, 产生了一系列新的发展趋势, 包括: (1) 在数据管理方面, 计算机硬件的创新与人工智能技术的深入为数据库系统带来了全新的发展机会, 而伸缩性、容错性、可扩展性等应用需求又给数据管理带来了全新的挑战; (2) 在数据分析方面, 数据量的剧增、数据类型的异构与应用需求的多样对数据库系统的分析能力与性能提出了更高的要求; (3) 在数据安全方面, 多方安全计算、联邦学习等应用和需求的变化给数据库安全与隐私保护技术带来了全新的课题. 因此, 需要利用和发展现有的数据库理论, 构建形成新的技术和系统经验. 本专题立足于数据库系统核心技术, 探讨在大数据环境下数据库与数据管理技术的新发展与新趋势, 特别是聚焦如何利用数据管理技术的深厚理论积淀和丰富技术成果, 促进数据库新型技术的发展, 解决遇到的各类与管理、分析、安全相关的痛点、难点问题. 本专题重点关注具有创新性和突破性的高水平研究成果, 探讨相关基础理论、关键技术, 以及在系统研发过程中关于系统设计原理、范式、架构、经验等方面的实质性进展, 探讨其在相关产业和领域的应用前景.
本专题公开征文, 共收到投稿26篇. 论文均通过了形式审查, 内容涉及新型的数据管理、数据分析与数据安全技术. 特约编辑先后邀请了30多位专家参与审稿工作, 每篇投稿至少邀请2位专家进行评审. 稿件经初审、复审、在线论文宣读与专家评审 (因受新冠疫情影响, NDBC 2021会议延期. 为不影响发表进度, 原定于在NDBC上的会议宣读改为在线论文宣读) 和终审共4个阶段, 最终有18篇论文入选本专题. 根据主题, 这些论文可以分为3组.
摘要:
新型硬件及其构建的环境改变了传统的计算、存储以及网络体系,也改变了上层软件既往的设计假设,特别是通用处理器和专用加速器组成的异构计算架构,改变了数据库系统的底层框架设计和查询优化的代价模型.数据库系统需要针对新型硬件的特性做出适应性调整,以充分发挥新硬件的潜力.提出一种面向CPU/GPU/FPGA异构计算融合的基于代价的查询优化器Geno,可以灵活地调度并最优化地使用各类资源.主要的贡献是:发现根据系统环境硬件实际能力调整代价参数可以显著地提升查询计划的准确性,并提出一种异构资源代价计算方法和校准工具;通过对GPU、FPGA等异构硬件能力估算及对数据库系统硬件实际能力的校准,建立异构计算环境下查询处理的代价模型;实现了支持选择、投影、连接、聚合的GPU算子和FPGA算子,实现了GPU算子融合及流水线设计、FPGA算子流水线设计;通过基于代价的评估解决算子分配和调度问题,生成异构协同的执行计划,实现异构计算资源的协同优化,以充分发挥各异构资源的优势.实验结果表明,通过Geno校准后的参数值与实际硬件能力更加匹配.相比于PostgreSQL和GPU数据库HeteroDB,Geno能够生成更加合理的查询计划.TPC-H实验中,在行存表情况下,Geno比Postgresql执行时长减少了64%-93%,比Hetero-DB执行时长减少了1%-39%;在列存表情况下,Geno比Postgresql执行时间减少了87%-92%,比Hetero-DB执行时间减少了1%-81%;Geno列存与行存相比,查询执行时间减少了32%-89%.
摘要:
基数估计和代价估计可以引导执行计划的选择,估计准确性对查询优化器至关重要.然而,传统数据库的代价和基数估计技术无法提供准确的估计,因为现有技术没有考虑多个表之间的相关性.将人工智能技术应用于数据库(artificial intelligence for databases,AI4DB)近期得到广泛关注,研究结果表明,基于学习的估计方法优于传统方法.然而,现有基于学习的方法仍然存在不足:首先,大部分的方法只能估计基数,但忽略了代价估计;其次,这些方法只能处理一些简单的查询语句,对于多表查询、嵌套查询等复杂查询则无能为力;同时,对字符串类型的值也很难处理.为了解决上述问题,提出了一种基于树型门控循环单元,Tree-GRU (tree-gated recurrent unit)的基数和代价估计方法,可以同时对基数和代价进行估计.此外,采用了有效的特征提取和编码技术,在特征提取中兼顾查询和执行计划,将特征嵌入到Tree-GRU中.对于字符串类型的值,使用神经网络自动提取子串与整串的关系,并进行字符串嵌入,从而使具有稀疏性的字符串变得容易被估计器处理.在JOB、Synthetic等数据集上进行了大量实验,实验结果表明,所提模型的各方面性能优于主流算法.
摘要:
由深度学习驱动的学习型查询优化器正在越来越广泛地受到研究者的关注,这些优化器往往能够取得近似甚至超过传统商业优化器的性能.与传统优化器不同的是,一个成功的学习型优化器往往依赖于足够多的高质量的负载查询作为训练数据.低质量的训练查询会导致学习型优化器在未来的查询上失效.提出了基于强化学习的鲁棒的学习型查询优化器训练框架AlphaQO,提前找到学习型优化器做不好的查询,以提高学习型优化器的鲁棒性.AlphaQO中存在两个重要部分:查询生成器和学习型优化器.查询生成器的目标是生成“难”的查询(传统优化器做得好,但是学习型优化器反而做得不好的查询).学习型优化器利用这些生成的查询进行测试和训练,并提供反馈让查询生成器进行更新.系统迭代交替的运行上述两个部分,分别进行训练.目的在于在提供尽量少的信息和消耗足够小的时间下找到足够多“难”的并且未见的查询给优化器训练,以提高学习型优化器的鲁棒性.实验结果显示:该生成器会提供越来越难的训练查询给学习型优化器;同时,这些查询能够提升学习型优化器的性能.
摘要:
非易失内存(non-volatile memory,NVM)为数据存储与管理带来新的机遇,但同时也要求已有的索引结构针对NVM的特性进行重新设计.围绕NVM的存取特性,重点研究了树形索引在NVM上的访问、持久化、范围查询等操作的性能优化,并提出了一种上下两层结构的异构索引HART.该索引结合了B+树与Radix树的特点,同时利用了Radix结点搜索快以及B+树范围查询性能好的优点.对整体架构进行了精心设计,改进了Radix树的路径压缩策略,设计了NVM写友好的结点结构,并将Radix树叶结点集中存储和链接.同时在仿真NVM设备以及傲腾真实NVM平台上进行了实验,对比了HART的不同衍生变种的性能,并与多个NVM索引进行了对比.结果表明,HART的写性能和点查询性能优于现有的类B+树索引,范围查询性能优于基于Radix的WOART索引,具有较好的综合性能.
摘要:
硬件事务内存(hardware transactional memory,HTM)能够极大地提升多核内存事务处理的吞吐.然而,为了避免慢速持久化设备对事务吞吐的影响,现有系统以批量的方式提交事务,这使得事务提交有极高的延迟.低时延非易失性内存(non-volatile memory,NVM)的出现,给降低基于HTM的内存事务处理时延带来了机遇;然而,利用NVM需要解决HTM无法和NVM硬件协同的挑战:持久化写入NVM会直接中断HTM的执行.为了解决这一问题,提出了名为Parity Version的机制,将事务中的NVM操作和HTM操作进行区分.这样,事务可以正确且高效地利用NVM降低基于HTM事务处理的时延.将该机制集成到现有基于HTM的内存数据库、DBX中,并提出了DBXN:一个低时延高吞吐的内存数据库.:还针对真实NVM硬件的特性对事务实现进行了相应的优化.在典型事务处理测试基准TPC-C中,DBXN能够将DBX的事务提交时延降低99%,同时还有2.1倍更高的吞吐.
摘要:
持久性内存(persist memory,PM)具有非易失、字节寻址、低时延和大容量等特性,打破了传统内外存之间的界限,对现有软件体系结构带来颠覆性影响.但是,当前PM硬件还存在着磨损不均衡、读写不对称等问题,特别是当跨NUMA (non uniform memory access)节点访问PM时,存在着严重的I/O性能衰减问题.提出了一种NUMA感知的PM存储引擎优化设计,并应用到中兴新一代数据库系统GoldenX中,显著降低了数据库系统跨NUMA节点访问持久内存的开销.主要创新点包括:提出了一种DRAM+PM混合内存架构下跨NUMA节点的数据空间分布策略和分布式存取模型,实现了PM数据空间的高效使用;针对跨NUMA访问PM的高开销问题,提出了I/O代理例程访问方法,将跨NUMA访问PM开销转化为一次远程DRAM内存拷贝和本地访问PM的开销,设计了Cache Line Area (CLA)缓存页机制,缓解了I/O写放大问题,提升了本地访问PM的效率;扩展了传统表空间概念,让每个表空间既拥有独立的表数据存储,也拥有专门的WAL (write-ahead logging)日志存储,针对该分布式WAL存储架构提出了一种基于全局顺序号的事务处理机制,解决了单点WAL性能瓶颈问题,并实现了NUMA感知的事务处理、检查点和灾难恢复等优化机制及算法.实验结果表明,所提出的方法能够有效提升NUMA架构下PM存储引擎的性能,在YCSB多种测试场景下分别提升了105%-317%,在TPC-C场景下提升了90%-134%.关键词:数据库;存储引擎;持久性内存;NUMA (non uniform memory access);WAL (write-ahead logging)
摘要:
时序相似性搜索是时序数据分析最基本的操作之一,具有广泛的应用场景.针对现有分布式算法无法应对维度增长、扫描范围过大和相似性计算耗时的问题,提出一种面向键值存储的分布式时序相似性搜索方法KV-Search.首先对时序数据分块,并设计其键值存入键值数据库,解决了时序数据维度高且不断增长的问题;其次,基于切比雪夫距离计算其下界,并利用键值范围扫描提前过滤无效数据,减少了数据传输;最后,利用基于分块的时序表示计算距离下界,避免了更高维度真实数据的计算,加快了查询效率.使用HBase实现了KV-Search,并利用真实的大规模数据集做了大量实验.实验结果表明,KV-Search算法在效率和扩展性方面均优于基准实验.
摘要:
随着信息化和工业化的融合,物联网和工业互联网蓬勃发展,由此产生了以时间序列为代表的大量工业大数据.时间序列中蕴含着很多有价值的模式,其中,对称模式在各类时间序列中广泛存在.挖掘对称模式对于行为分析、轨迹跟踪、异常检测等领域具有重要的研究价值,但时间序列的数据量往往高达几十甚至上百GB.使用直接的嵌套查询算法挖掘对称模式可能花费数月乃至数年的时间,而索引、下界和三角不等式等典型加速技术最多只能产生一两个数量级的加速.因此,基于动态时间规整算法的启发,提出了一种能够在O(
w
×|
T
|)的时间复杂度内挖掘出时间序列所有对称模式的方法.具体来说,给定对称模式长度约束,基于区间动态规划算法计算出对称子序列,进而依据贪心策略选择数量最多且不重叠的对称模式.此外,还研究了在时间序列数据流挖掘对称模式的算法,并根据窗口内数据的特征动态调节窗口大小,保证了对称模式数据的完整性.采用1个人工数据集、3个真实数据集在不同数据量下对上述方法进行实验.由实验结果可知,与其他对称模式挖掘方法相比,该方法在模式挖掘结果及时间开销方面均有较好的表现.
摘要:
新兴分布式计算框架Apache Flink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP (resource allocation based onruntime prediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果在迭代作业提交时和超步间的同步屏障处分别进行资源的初始分配和动态调整,以保证可使用最小资源集,使迭代作业在用户规定的运行时限内完成.通过在不同数据集下执行多种典型的Flink迭代作业进行了相关对比实验,实验结果表明,所建立的运行时间预测模型能够对各个超步的运行时间进行准确预测,而且在单作业和多作业场景下,采用所提出的动态资源分配策略相比于目前最先进算法在各项性能指标上都有所提升.
摘要:
随着大数据和机器学习的火热发展,面向机器学习的分布式大数据计算引擎随之兴起.这些系统既可以支持批量的分布式学习,也可以支持流式的增量学习和验证,具有低延迟、高性能的特点.然而,当前的一些主流系统采用了随机的任务调度策略,忽略了节点的性能差异,因此容易导致负载不均和性能下降.同时,对于某些任务,如果资源要求不满足,则会导致调度失败.针对这些问题,提出了一种异构任务调度框架,能够保证任务的高效执行和被执行.具体来讲,该框架针对任务调度模块,围绕节点的异构计算资源,提出了概率随机的调度策略resource-Pick_kx和确定的平滑加权轮询算法.Resource-Pick_kx算法根据节点性能计算概率,进行概率随机调度,性能高的节点概率越大,任务调度到此节点的可能性就越高.平滑加权轮询算法在初始时根据节点性能设置权重,调度过程中平滑加权,使任务调度到当下性能最高的节点上.此外,对于资源不满足要求的任务场景,提出了基于容器的纵向扩容机制,自定义任务资源,创建节点加入集群,重新完成任务的调度.通过实验在benchmark和公开数据集上测试了框架的性能,相比于原有策略,该框架性能提升了10%-20%.
摘要:
图是描述实体间关系的重要数据结构,被广泛地应用于信息科学、物理学、生物学、环境生态学等重要的科学领域.现如今,随着图数据规模的不断增大,利用分布式系统来处理大图数据已经成为主流,出现了形如Pregel、GraphX、PowerGraph和Gemini等经典的分布式大图数据处理系统.然而,与当前先进的基于单机的图处理系统相比,这些经典的分布式图处理系统在处理真实的图数据时并没有充足或稳定的性能优势.分析了几个有代表性的分布式图处理系统,总结并归纳出了影响其性能的主要挑战.通过对这些挑战的深入研究,提出了RGraph——一个基于RDMA的高效分布式大图数据处理系统.RGraph旨在通过充分利用RDMA的优势来提升图处理系统多个方面的性能.在图划分方面,RGraph采用基于块的划分方式避免破坏原始图数据的局部性,从而保证顶点的高效访问.在负载方面,RGraph提出了基于RDMA单边READ的任务迁移机制和线程间细粒度的任务抢夺方式来分别保证计算节点间以及计算节点内线程间的动态负载均衡,确保集群中的所有计算资源能够被充分利用.在通信方面,RGraph通过对IB verbs的有效封装,实现了符合图计算语义的多线程RDMA通信模型.相比于传统的MPI,RGraph的通信机制可以减少计算节点间2.1倍以上的通信延迟.最后,利用5个真实大图数据集和1个合成数据集,在拥有8个计算节点的高性能集群上测试了RGraph.实验结果表明,RGraph具有明显的性能优势.相比于Powergraph,RGraph具有10.1-16.8倍的加速比,与当前最先进的分布式图处理系统相比,RGraph的加速比仍能达到2.89-5.12倍.同时,RGraph在极度偏斜的幂律图上也能保证稳定的性能优势.
摘要:
Tip分解作为图数据管理领域的热点研究问题,已被广泛应用于文档聚类和垃圾邮件组检测等实际场景中.随着图数据规模的爆炸式增长,单机内存已无法满足其存储需求,亟需研究分布式环境下Tip分解技术.现有分布式图计算系统的通信模式无法适用于二部图,为此,首先提出一种基于中继的通信模式,以实现分布式环境下处理二部图时消息的有效传递;其次,提出分布式butterfly计数算法(DBC)和tip分解算法(DTD),特别地,为解决处理大规模二部图时DBC面临的内存溢出问题,提出了一种可控的并行顶点激活策略;最后,引入基于顶点优先级的消息剪枝策略和消息有效性剪枝策略,通过减少冗余通信和计算开销,进一步提高算法效率.实验平台部署于国家超算中心高性能分布式集群上,在多个真实数据集上的实验结果验证了所提算法的有效性和高效性.
>
综述文章
摘要:
联邦学习是顺应大数据时代和人工智能技术发展而兴起的一种协调多个参与方共同训练模型的机制.它允许各个参与方将数据保留在本地,在打破数据孤岛的同时保证参与方对数据的控制权.然而联邦学习引入了大量参数交换过程,不仅和集中式训练一样受到模型使用者的威胁,还可能受到来自不可信的参与设备的攻击,因此亟需更强的隐私手段保护各方持有的数据.分析并展望了联邦学习中的隐私保护技术的研究进展和趋势.简要介绍联邦学习的架构和类型,分析联邦学习过程中面临的隐私风险,总结重建、推断两种攻击策略,然后依据联邦学习中的隐私保护机制归纳隐私保护技术,并深入调研应用上述技术的隐私保护算法,从中心、本地、中心与本地结合这3个层面总结现有的保护策略.最后讨论联邦学习隐私保护面临的挑战并展望未来的发展方向.
>
专刊文章
摘要:
随着大数据时代的到来,如何在保护用户隐私的前提下完成多维类别数据上的频率分布估计问题成为研究热点.已有的工作主要是基于中心化差分隐私模型或本地化差分隐私模型完成安全算法的设计.鉴于上述两种模型在隐私保护程度或发布结果可用性方面的弊端,基于新兴的混洗差分隐私模型,设计用户数据收集策略,进而提供高安全、高可用的频率分布估计服务.考虑到多维类别属性的多维特征以及不同属性上取值域大小不等的异构特点,从扰动算法以及洗牌方式等角度出发,设计了基于单洗牌者以及多洗牌者的数据发布方案ARR-SS和SRR-MS.此外,结合上述两种方案的优势,通过填补技术消除属性间异构问题,提出了基于取值域填补的单洗牌者数据发布方案PSRR-SS.从理论上分析了3种策略的隐私保护程度以及误差级别,并利用4个真实数据集验证所提出方案在频率估计问题上的有效性.此外,将所提方案作为带噪数据库生成技术的加噪组件,评估随机梯度下降算法在生成带噪数据上的训练结果的可用性.实验结果展现了所提方案优于当前同类算法.
摘要:
大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高了其执行效率.在此基础上,系统支持求和、求均值、求最值、等值连接和任意连接等查询操作,并充分利用多方特点减少各数据拥有方之间的数据交互,降低安全开销,从而有效支持高效数据共享.最后,在标准测试数据集TPC-H上进行实验,实验结果说明:与目前的数据联邦系统SMCQL和Conclave相比,该系统能够支持更多的数据拥有方参与,并且在多种查询操作上有更高的执行效率,最快可超越现有系统3.75倍.
摘要:
随着信息技术以及电子病历和病案在医疗机构的应用,医院数据库产生了大量的医学数据.决策树因其分类精度高、计算速度快,且分类规则简单、易于理解,而被广泛应用于医学数据分析中.然而,医学数据固有的高维特征空间和高度特征冗余等特点,使得传统的决策树在医学数据上的分类精度并不理想.基于此,提出了一种融合信息增益比排序分组和分组进化遗传算法的混合式特征选择算法(GRRGA).该算法首先使用基于信息增益比的过滤式算法对原始特征集合进行排序,然后按照密度等分的原理对排序后的特征进行分组,最后再使用分组进化遗传算法对排序后的特征组进行遗传搜索.其中,分组进化遗传算法共分为种群内和种群外两种进化方法,并使用两种不同的适应度函数来控制进化过程.此外,针对决策树的不稳定性,提出使用Bagging方法对C4.5算法进行集成学习.实验结果显示,GRRGA算法在6组UCI数据集上的Precision指标均值为87.13%,显著优于传统的特征选择算法.此外,与另外两种分类算法对比可知,GRRGA算法的特征筛选性能依然是最优的.更重要的是,Bagging方法在Arrhythmia和Cancer医学数据集上的Precision指标分别为84.7%和78.7%,充分证明了该算法的实际应用意义.
摘要:
覆盖模型可以缓解神经机器翻译中的过度翻译和漏翻译问题.现有方法通常依靠覆盖向量或覆盖分数等单一方式存储覆盖信息,而未考虑不同覆盖信息之间的关联性,因此对信息的利用并不完善.针对该问题,基于翻译历史信息的一致性和模型之间的互补性,提出了多覆盖融合模型.首先定义词级覆盖分数概念;然后利用覆盖向量和覆盖分数存储的信息同时指导注意力机制,降低信息存储损失对注意力权重计算的影响.根据两种覆盖信息融合方式的不同,提出了两种多覆盖融合方法.利用序列到序列模型在中英翻译任务上进行了实验,结果表明,所提方法能够显著提升翻译性能,并改善源语言和目标语言的对齐质量.与只使用覆盖向量的模型相比,过度翻译和漏翻译问题的数量得到进一步减少.
地址:北京市海淀区中关村南四街4号,邮政编码:100190
电话:010-62562563 传真:010-62562533 Email:
[email protected]
技术支持:
北京勤云科技发展有限公司
京公网安备 11040202500063号