聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

2021年毕业生成果展示系列 之三 大数据研究室

2021-10-07 16:06 浏览: 5011305 次 我要评论(0 条) 字号:

一分耕耘,一分收获。

天才之舟,在汗水的河流里启程。

成功不是将来才有的,而是从决定去做的那一刻起,持续累积而成。

今天的毕业生成果展示系列将向大家介绍“大数据研究室”的24名毕业生。



宋宇

论文标题:基于多阶段非负矩阵分解的异质边表示学习研究

论文发表在ACM Transactions on Knowledge Discovery from Data和IEEE Transactions on Neural Networks and Learning Systems。

获2020年研究生国家奖学金。

研究方向:网络表示学习

导      师:黄宏

指导老师:黄宏

毕业去向:北京三快在线科技有限公司

论文摘要:

网络表示学习尝试用低维稠密的向量最大化保留网络的原始信息,这些向量一般被视为特征,用来执行后续的网络分析任务。节点之间不同类型的关系可以被抽象为异质边,由于每一种异质边代表不同的语义信息,经典的网络表示学习方法通常处理网络中的同质边,而不能很好地建模节点之间的异质边。因此,如何从异质边网络中挖掘复杂结构的信息仍然是值得探讨的课题。

为了探索异质边的网络表示学习,通过将每种异质边代表的关系视作网络的一个视角,该视角描述了节点之间特定类型的邻近关系,进而异质边网络表示学习问题被进一步转化为多视角学习问题。事实上,大多数现有的网络表示学习方法都等价于矩阵分解。然而,传统矩阵分解的近似误差通常相当大,因为单个低秩矩阵不足以捕获完整的原始信息。通过梯度提升的多阶段矩阵分解过程,多阶段非负矩阵分解模型渐进式地将上一阶段的残差矩阵进行分解,从而实现了较低的矩阵分解误差。同时,基于多阶段的模型结构,多阶段非负矩阵分解模型设计了两种不同的非负矩阵分解方式。其中,统一的非负矩阵分解通过对多个视图的相似度矩阵进行联合分解,从而保存不同视角之间的一致性信息;独立的非负矩阵分解通过对每个视图的相似度矩阵单独地进行分解,从而保存每个视角的独特信息。最后,将每个阶段学习到一致性信息和独特信息的向量表示进行串联,从而获得网络中所有节点的最终向量表示。

实验结果验证了通过多阶段非负矩阵分解方法学习到的异质边网络的向量表示,在多个任务上的实验效果均优于现有的方法。在多个真实世界的数据集上进行的节点分类实验中取得了超过2%的准确率提升;在节点聚类实验中取得了大约1.5%的互信息分数的提升;在网络可视化任务中,不同社区中的节点分布差异可以更加明显的展示出来。同时,实验还验证了多阶段矩阵分解的合理性以及有效性。 


张一鹏

论文标题:数据中心多工作负载间JSON解析优化研究

论文发表在ICDE 2020国际会议上。

研究方向:内存计算

导      师:马晓静

指导老师:石宣化

毕业去向:杭州字节跳动科技有限公司

论文摘要:

JSON是许多企业和Web应用中非常流行的数据交换格式,因为JSON灵活,简单并具有很强的表达力。目前,许多数据分析系统都支持加载和查询JSON数据。然而,JSON是一种原始数据格式,也就是说,在分析处理JSON数据之前必须先解析它。但是解析JSON的代价很高昂,这成为了查询JSON数据的瓶颈所在。以前的许多研究都集中在如何构建高效的解析器以降低解析JSON的成本,而对于如何减少解析的发生率的研究却很少。通过对阿里巴巴实际的生产工作负载,大约300万个JSON查询进行研究,发现查询之间具有显著的空间相关性和时间相关性。这种时空相关性导致了查询之间存在大量冗余的解析操作。Maxson是为了解决这些问题而设计的一个轻量级缓存系统。它设计了一个基于机器学习的预测器,结合长短期记忆算法和条件随机场算法来确定在给定空间预算条件下可以被缓存的JSONPath并缓存其值。在执行查询时,Maxson将SQL语句编译成物理计划,如果出现在SQL语句中的JSONPath命中了有效缓存,将会生成一个有关JSONPath信息的占位符并引用对应的缓存表。最后,初始化两个读表器,分别读取缓存表和原始数据表,结合索引从两张表中读取每条记录的每个字段按正确顺序拼接并返回。Maxson在SparkSQL的基础上实现。实验结果表明,Maxson明显优于现有的JSON解析器,它可以消除大部分重复的JSON解析开销,将端到端的工作负载性能提高了1.5–6.5倍。


曹皓爽

论文标题:分布式大图划分与连接处理方法研究

研究方向:分布式图数据存储

导      师:袁平鹏

指导老师:袁平鹏

毕业去向:腾讯科技(深圳)有限公司

论文摘要:

随着资源描述框架(Resource Description Framework,RDF)数据规模的急剧增长和应用场景的不断扩充,分布式RDF存储系统面临许多挑战。一方面,现有的RDF图划分技术大多以集中式划分为主,对于海量图数据的处理能力有限,同时无法保证划分后子图语义完整性。另一方面,由于图数据具有强关联性,传统的分布式图处理会产生冗余的中间结果,导致通信开销增大,连接计划的制定与执行也较为耗时,存在很大的优化空间。

针对现有大图处理面临的问题,高性能分布式RDF存储系统D-TripleBit提出一种名为实体树的粗粒度划分单元,并基于此设计并实现分布式图数据划分算法,该算法在保证划分性能的同时提高查询执行效率。其次,系统结合不同类型的查询语句与划分单元的特性,提出多阶段查询分解算法,并实现与之匹配的子树分布索引和统计索引。最后,D-TripleBit系统设计图分布感知的子查询分配策略和通信量缩减优先的连接处理策略,并将集群实时负载信息引入连接计划的生成过程中,从而减少连接过程中的数据传输开销,进而优化连接计划。

实验结果表明,D-TripleBit系统具备良好的可扩展性。相比于以前的RDF划分方法及存储系统,D-TripleBit系统无论是在数据划分还是查询方面都有更高的效率。在十亿级别及以上的图数据,数据划分算法在划分效率方面同对比方法相比有4.2%的性能提升,并且冗余率不超过125%。在数据查询性能方面,在生成式数据集中,相比于对比系统能提升5%至10%,在真实数据集中约有7.8%提升。


陈哲学

论文标题:文本情绪三元组抽取算法研究

研究方向:自然语言处理

导      师:石宣化

指导老师:黄宏

毕业去向:蚂蚁金服(杭州)网络技术有限公司

论文摘要:

随着互联网技术的蓬勃发展,人们积极地在线上分享自己对于社会事件、公众人物和消费服务等方面的看法和态度。通过分析挖掘来自各个领域的文本评论,情感分析有利于掌握舆情的走向,了解媒体和大众对于热点事件的看法,帮助用户了解商品的口碑以及利于企业商家改进产品和服务。因此,情感分析成为当下的研究热点,具有巨大的价值。

为了细粒度地分析用户评论,情感分析任务从简单地判断文本的情感极性逐渐演变成抽取文本的情绪三元组。文本情绪三元组抽取(Text Sentiment Triplet Extraction,TSTE)旨在从句子中提取三元组,其中每个三元组都包含一个实体,其相关联的情感以及解释情感原因的观点。现有的大多数研究都是以多阶段流水线的方式解决这个问题,而忽略了这三个要素之间的相互信息,并存在错误传播的问题。针对现有工作的不足,提出语义和句法增强的文本情绪三元组抽取模型(Semantic and Syntactic Enhanced Text Sentiment Triplet Extraction Model,S3E2),该模型充分利用三元组之间的句法和语义关系,并共同地提取它们。具体来说,针对TSTE的任务,S3E2设计了图-序列双重表示和建模范式:利用图来表示句子中单词对之间的语义和句法关系,并通过图神经网络(GNNs)对其进行编码,同时通过双向长短期记忆网络(BiLSTM)对原始句子进行建模,以保留顺序信息。

在此设置下,该模型进一步应用了一个更有效的推理策略去抽取三元组。在四个基准数据集上的广泛实验表明,S3E2的性能明显优于现有方法,这证明了S3E2以端到端的方式的优越性和灵活性。


程诚

论文标题:基于GPU的时序数据并行压缩算法研究

研究方向:时序数据库

导      师:石宣化

指导老师:石宣化

毕业去向:成都晓多科技有限公司

论文摘要:随着各种互联网服务和工业物联网的飞速发展,其生成的时序数据规模不断扩大,给时序数据的存储管理带来了巨大压力。在实际生产环境中,时间序列的数量连年成倍增长,传统数据库的磁盘吞吐率会逐渐成为其整体性能瓶颈,为了保证数据库系统的读写性能,使用内存缓存近期数据,搭配磁盘持久存储成了当前的主流应对方案。而随着数据量的持续增长,系统内存开销不断增加,集群需要频繁进行扩展,导致系统运行和维护成本也在持续增加。数据压缩作为一种节约存储开销的常用技术,虽然能够实现不错的压缩比或吞吐率,但为了优先保证数据库系统的读写性能,时序数据库通常会限制数据压缩过程,即无法支持时序数据的实时压缩和解压。

为了解决上述不足,基于CUDA设计并实现了一种并行压缩通用框架GFPC(General Framework for Parallel Compression),能够利用GPU实现时序数据的并行压缩,加速数据的压缩和解压过程,并且GFPC与压缩算法之间高度解耦,能够适应多种压缩算法。其中GFPC架构主要可以分为数据划分模块、计算模块、数据合并模块共三个部分,分别负责数据块的分割、压缩和解压、合并等任务,并通过数据并行的方式来对时序数据的压缩和解压过程实现加速。此外,基于对时序数据中各个类型数值序列的数据特征分析结果,在GFPC架构上实现了多种时序数据无损压缩算法,相比于传统的压缩方案不论是压缩比还是吞吐率都有明显性能提升。

实验结果表明,基于GFPC的时序数据压缩算法在GTX 1050上最多能将测试数据集压缩到原来的1/30,同时压缩和解压吞吐率能够维持在GB/s级别。相比于Gorilla压缩算法,压缩比提升最多可以达到50%以上,而压缩和解压的加速比平均能达到3.5倍。


冯懿

论文标题:基于异质网络的新闻推荐方法研究

研究方向:数据挖掘

导      师:赵峰

指导老师:陈汉华、黄宏

毕业去向:汉海信息技术(上海)有限公司

论文摘要:

新闻是自然语言处理领域中重要的研究对象之一,从海量新闻中挖掘出内容相关的新闻进行推荐有助于提高用户的阅读体验或用于相关新闻内容分析。对新闻进行特征建模时,传统的文本编码器难以保留长文档中丰富的语义信息和句法结构,因此,文档的图表示法被提出用于发现长格式文档的潜在语义结构。然而新闻文档通常含有复杂的语义交互信息,如何将多样的语义信息建模成网络的表示形式,并从中学习有效地表征用于相关新闻推荐系统是具有挑战意义的。

异质信息网络可以模拟复杂的上下文信息,其不仅在特征建模中表现优异,在推荐系统中也得到了广泛的应用。因此,提出基于异质网络的新闻推荐方法(Heterogeneous Network Based News Recommendation Method,HNNR),用于相关新闻推荐任务。HNNR将新闻语料构建为多类型节点和边的异质信息网络,有效地利用新闻文本的多重交互关系学习新闻特征,进行Top- 相关新闻推荐。具体地,HNNR无监督地抽取新闻语料中的共现和关联信息作为交互关系建模新闻交互网络。为了构造基于元路径的上下文,结合加权随机游走算法和基于元路径的随机游走算法,优先采样表征重要交互信息的路径实例。通过自注意力机制和多视角的策略,HNNR能够学习多重交互关系下新闻的有效表示,实现了一个无监督的基于语义匹配的推荐方法。

为了验证HNNR方法的有效性,在两个真实的新闻数据集CNSE-en和CNSS-en上测试性能。实验结果表明,HNNR方法的F1值比匹配模型MatchPyramid、LDA、CIG-Sim-GCN分别高出11%、3%、2%。


何泽鹏

论文标题:基于LDA的可解释词向量构建方法研究

研究方向:自然语言处理、大数据

导     师:袁平鹏

指导老师:石宣化、黄宏

毕业去向:北京字节跳动网络技术有限公司

论文摘要:

近年来,不断有新的词向量模型被提出,但这些最佳性能的模型却无法在内容偏差检测、分类任务的可解释评估等工作中产生作用,原因是这些词向量不具有可解释性,向量空间不具有参考系的作用。当前的可解释词向量模型大多数基于大规模语料库生成,但大部分人难以获得正规的大规模语料库文件,且实际需求中经常会遇到语料库规模小、数据集少的情况,而现有的可解释词向量构建方法在小语料库上性能不及预期,同时,鲜有构建完全正交的词向量空间的研究。为解决以上问题,基于隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)的稀疏正交可解释语义感知模型(Sparse Orthogonal Interpretable Sense , SOISense)被设计用于在小型语料库上生成正交向量空间和可解释词向量。

基于LDA的SOISense模型在Word2Sense模型上做了改进,解决了当前可解释词向量模型构建的向量空间正交性差的问题,并在保证稀疏度的前提下提高词向量的可解释语义维度,优化了可解释词向量在小语料库上的性能表现。该方法不依赖于任何预训练语料库,不需要人为指定每个维度的语义,仅通过LDA自动抽取语料库中的主题并生成主题的单词分布以及单词的主题分布,同时设计了一种约束规则为每个主题生成相互完全正交的基向量,并将单词的主题概率分布作为权值与主题基向量进行计算,最终生成改进的词向量。

该词向量在单词相似性任务中的5个数据集上以及3个下游新闻分类任务上进行测试,实验结果证明,改进后的SOISense模型生成的词向量的性能均优于Word2Sense模型。此外,SOISense模型在语义维度、正交性等方面均优于POLAR模型以及Word2Sense模型,单词解释实验也证明了该方法基于小规模语料库生成的词向量是具有可解释性的。


赖明琪

论文标题:新闻的话题检测与追踪研究

研究方向:数据挖掘、自然语言处理

导      师:黄宏

指导老师:黄宏

毕业去向:蚂蚁金服(杭州)网络技术有限公司

论文摘要:

随着网络新闻的发展,人们可以获取更广泛的信息,但也面临难以从海量新闻中快速识别时事热点的困境,因此话题检测与追踪技术应运而生。主题模型可以检测可解释的话题,被广泛应用于话题检测与追踪系统,但多数主题模型缺乏针对新闻领域的优化,存在仅考虑单一词共现信息、未充分融合语义等问题。

鉴于上述问题,基于图自编码器的主题模型和基于主题推理结果的话题追踪方法被设计用于新闻话题检测与追踪系统。基于图自编码器的主题模型被用于话题检测模块,该模型将细粒度共现词对和语义特征显式的引入文档建模,以获取更丰富的主题相关性信息。为了联合多种信息建模主题,该模型将语料构成图作为输入,该图以词语和文档为节点,基于文档词袋和细粒度共现词对两种词共现信息建边,并利用词嵌入表示节点特征。为了从图中推理主题,模型引入图自编码思想,利用编码器提取潜在分布作为话题检测结果,利用解码器重构词共现信息,并通过反向传播更新话题检测结果。基于主题推理结果的话题追踪方法被用于话题追踪模块,该方法结合主题词和词嵌入计算话题向量,根据向量距离度量话题相似性,进而以话题为粒度进行新增话题与既往话题间的单遍聚类,实现话题的增量追踪。

实验部分在多个新闻数据集上评估新闻话题检测与追踪系统于话题连贯性和话题聚类性能上的表现。结果表明,上述主题模型和话题追踪方法可以识别更具连贯性的话题,并具有最佳的话题聚类性能,且这种提升在小型数据集上更明显。


李成

论文标题:基于差分隐私的个性化轨迹隐私保护方法

研究方向:轨迹隐私保护

导      师:丁晓锋

指导老师:丁晓锋

毕业去向:贝壳找房(北京)科技有限公司

论文摘要:大数据时代下,移动互联网发展与移动终端的普及形成了海量移动对象轨迹数据。通过数据挖掘,运营商可以为用户提供更优质的出行服务,但轨迹数据具有高度敏感性,通过轨迹数据,攻击者可以了解用户的生活习惯,宗教信仰,健康状况等敏感信息。这些敏感信息极易损害用户的个人名誉、身心健康,危害用户的切身利益。因此,如何让轨迹数据发布后不泄露个人隐私,又能满足运营商的数据挖掘需求,为用户提供更优质的生活服务成为当前丞待解决的问题。

在当前的轨迹隐私保护技术中,差分隐私技术由于不受攻击者背景知识影响且拥有严格的数学定义而受到学者们的青睐。但传统的差分隐私轨迹保护技术仍存在一些不足,第一个问题是直接对轨迹整体加噪会导致数据可用性较低,且无法满足用户的个性化需求,第二个问题是路网环境下的轨迹隐私有其特殊性,位置之间的相关性使得对单个位置加噪无法保证敏感位置不被泄露。

为了解决上述问题,提出了一种基于差分隐私的个性化轨迹隐私保护方法,针对第一个问题,利用TF-IDF算法筛选出用户的敏感位置,只对敏感位置进行加噪,非敏感位置直接发布。在满足用户个性化的隐私保护需求的同时,能够显著提高数据的可用性。针对第二个问题,刻画敏感位置周围非敏感位置的隐私风险,对隐私风险较高的非敏感位置也进行加噪,防止攻击者根据路网环境推测出用户的敏感位置。通过在真实轨迹数据集GeoLife和T-drive上的实验表明,该方法能够在保护用户轨迹隐私的同时,保持较好的数据可用性。


钱佳佳

论文标题:面向新冠和术后镇痛的可解释性特征筛选

研究方向:医疗大数据

导      师:吕新桥

指导老师:陆枫

毕业去向:北京字节跳动科技有限公司

论文摘要:医疗数据分析的主要目的是找到疾病预测的相关因素,为医生诊断提供临床依据。现在,随着大数据技术不断发展和医疗信息化建设不断推进,越来越多的研究将机器学习应用到医学领域,从高维非线性特征中找到关键的少数特征,即医学上的相关因素。特征筛选作为处理高维数据的一种方法,能够将预测分析集中在重要特征上,帮助机器学习模型找到疾病预测的相关因素。

医疗数据存在质量差、样本少、特征维度高等问题,导致现有机器学习和特征筛选方法难以找到具有临床意义的关键特征,而且分析结果在医学领域认可度不高。针对这些问题提出了基于投票式迭代学习的特征筛选,特征筛选过程以医学知识驱动的迭代式学习框架为基础。框架分为三个阶段。第一阶段是单特征多模型筛选,即通过SHAP(Shapley Additive exPlanation)分析工具衡量单个特征对不同模型的贡献来进行排序。然后结合医学知识,基于投票原则更新特征排序结果并筛选出靠前的特征。第二阶段是多特征单模型验证,即对初步筛选的特征子集进行分类预测,通过衡量分类模型的性能来验证特征子集的有效性。同时会根据医学临床知识对特征进行二次筛选。第一阶段和第二阶段的特征筛选和验证过程可反复迭代,以不断改善最终分类模型的性能。第三阶段是多视图验证,即从可解释、统计以及逻辑推理多个视图对筛选特征进行分析,验证其临床意义。

医学知识驱动的投票式迭代学习框架已经在新冠重症早期预警和麻醉术后镇痛分析中得到了应用,经过特征筛选的分类模型性能与特征全集上模型性能十分相近。与其他特征选择方法相比,此框架训练得到的分类模型的AUC和平衡准确度BAC最高。在新冠重症早期预警中发现了6个与循证医学一致的关键特征,发现了3个新的早期预警相关因素。在麻醉术后镇痛分析中发现了4个与循证医学一致的关键特征和2个新的术后镇痛相关因素。


唐训祝

论文标题:文本分类中语义增强算法研究与实现

研究方向:语义自动矫正、图卷积神经网络、文本分类、实体感知

导      师:金海

指导老师:金海

毕业去向:出国读博

论文摘要:

近年来,自然语言处理技术的快速发展加速了文本分类的研究进程,文本分类经历了人工构造分类器、有监督学习分类、半监督学习分类到现在的无监督分类。目前,常见的问题包括:文本分类数据中存在大量的多义词现象,这使得普通方法的效果不高;作为特殊的数据载体,中文文本语义体现在不同的方面,比如同音不同字、同字不同音、蕴含汉字背景含义的情况,这表明单单抽取汉字的语义信息不足以充分获取到句子的语义信息。针对以上不同问题,提出了对应的解决方案,具体如下。

针对文本分类中多义词造成模型抽取语义不准确的问题,提出了一种将实体的事实知识注入到预训练模型BERT中的新方法。具体来说,首先,使用开源知识库查询实体的邻接节点作为实体的拓展语义,并将其与与所在文本句向量做相似度计算,得分最高的词即为中心词的具体含义。最后,SQuAD、NER等任务上分别对模型进行验证和测试。实验结果表明,模型在SQuAD、NER等任务上优于同样参数的BERT模型。

针对中文文本分类中文本语义的多种表达形式的情况,提出了一种基于汉字多粒度表达的语义融合框架。具体来说,首先,分别使用相关工具生成中文对应的偏旁部首、拼音以及五笔序列。然后,提出一种基于注意力机制的模型框架融合汉字、拼音、五笔和偏旁部首级别的语义来进行中文文本分类。模型在四个广泛使用的开源中文文本分类数据集上进行测试,并详细对比了包括LSTM、BERT等多个模型。实验结果表明,融合多粒度的模型架构在中文本分类中要优于普通的分类模型。

针对文本分类中实体对文本的重要影响,提出了一种实体感知机制的文本分类模型。具体来说,在文本中占据重要意义的实体之间的联系构成了非欧几里得图结构,普通的基于序列的神经网络不能够有效抽取其实体间联系的特征。为此提出了图卷积神经网络对实体图进行特征卷积,并将实体的词嵌入注入到文本序列中形成了实体感知的文本分类编码器,以此提高模型对文本关键特征的抽取能力。最后,在THUCNews上进行对比实验,实验结果表明,在绝大部分情况下,基于实体感知的分类模型要优于普通的文本分类模型。


王晨旭

论文标题:面向新闻文本的实体抽取和链接技术研究

研究方向:自然语言处理、知识图谱、实体抽取、实体链接

导      师:陈汉华

指导老师:赵峰

毕业去向:腾讯科技(深圳)有限公司

论文摘要:

信息时代的高速发展带来的不仅是信息流动的加快,还带来了信息的快速积累,其中非结构化的文本信息占据其中很大一部分。实体识别和实体链接技术是从非结构化的文本中抽取结构化的实体知识并与知识库进行链接得到统一的表示,是知识抽取的一项重要任务,对于构建知识图谱、问答系统等有重要的意义。

在构建实体识别和链接模型时,存在标注新闻数据样本类型分布不均衡、文本中的实体对上下文的长距离依赖、新闻中用词不规范导致的一词多义等问题,如何解决这些问题是新闻分析的关键。在实体抽取中,基于预训练模型BERT和双向长短期记忆网络BiLSTM进行编码,有效融合实体上下文,并使用双向条件随机场CRF解码增加实体边界识别效果。针对实体抽取训练样本分布不均衡问题,利用少样本学习模型StructShot对稀疏类型实体进行层次化抽取。实体链接基于知识库Wikidata和Wikipedia,使用实体别名、实体描述及反向索引等实体特征作为检索条件构建候选实体生成模块,并使用分类的方法构建多特征融合的实体匹配模型。从实体抽取和实体链接任务的相关性角度出发,使用知识蒸馏的框架,将识别效果较好的实体抽取模型的知识迁移到实体匹配模型中,有效提高实体链接模型在小数据集下的识别能力。为了验证实体抽取和实体链接模型的有效性,构建面向新闻文本的端到端实体识别系统,用于新闻知识图谱。

对于实体抽取任务选用基于新闻文本的CoNLL-2003和OntoNotes5数据集进行评估,模型在两个数据集上的Micro-F1值分别达到91.6%和89.3%,超过了目前大多数模型,且相较于spaCy有4%的提升。对于实体链接任务,与端到端实体识别系统TagMe对比,在不同的阈值下有1%~10%左右的提升。


王吉飞

论文标题:极大持久社区发现方法研究

研究方向:社区检测

导      师:袁平鹏

指导老师:袁平鹏

毕业去向:腾讯科技(深圳)有限公司

论文摘要:

随着现代社会计算机的不断发展,全行业信息化数字化进程的不断推进,图数据的规模也在不断增长。在如此庞大驳杂的图数据中如何提取有用的信息即图挖掘则具有着重要的意义。并且,社交网络的兴起也促使图数据内各种社区的形成,而在其中挖掘出具有特定特征的社区,很多情况下更是NP难问题,不易设计出高效算法。同时,图数据内,时态图因其特殊的时间属性,逐渐代替传统的普通图,成为了社区搜寻领域活跃的研究对象。

极大持久社区发现方法研究致力于在时态图中搜寻出持久且紧密联系的社区,为此设计了(k,Δ)-Clique的模型。该社区具有一定规模,并且在特定时间间隔内的任意Δ长度时间段内都能保持极大团的特性。同时,为了高效地在时态图内搜寻到所有的极大的(k,Δ)-Clique社区,该研究设计了一系列算法。该算法基于普通图内搜寻极大团的传统BronKerBosch算法并做出修改,使其适应时态图内的搜寻,并且对算法进行了两次优化—区间计算优化和整体算法优化,提升了算法的效率。

实验环节则先探究了自身参数对搜寻时间的影响。k值影响剪枝效果,越大剪枝效果越好,搜寻时间越小。Δ值影响社区联系紧密程度,值越小联系越紧密。对比已有的两个算法,极大持久社区搜寻算法能做到更高效地搜寻(k,Δ)-Clique社区。同时,经过实验发现,索引优化算法和整体优化算法两者运行效率在Δ上呈现相反的变化趋势,不过整体上后者效果更好。


王永辉

论文标题:分布式流连接系统结果完整性保障策略研究

研究方向:分布式流连接

导      师:陈汉华

指导老师:陈汉华

毕业去向:浙江天猫技术有限公司

论文摘要:

随着大数据应用的发展,流连接系统被广泛的用于从两个数据流之中发掘有价值的信息。一个高效的流连接系统需要满足可扩展、高性能和连接完整性三个方面的需求,而现有的流连接系统在设计时重点考虑可扩展性和高性能。系统将所有的处理单元划分成两部分并组织成二部图的形式。每部分处理单元负责存储一条流(R流或S流)的元组。新元组到达时,系统将其随机地划分到负责其所属流的某个处理单元中存储,并广播到另一侧所有的处理单元与存储的元组连接。二部图模型具有良好的可扩展性和性能,但是在大规模的分布式集群中,广播流元组难以保证流元组接收顺序的一致性。连接运算按照元组到达的顺序进行,而不同处理单元上元组到达顺序的不一致导致系统中可能出现重复和缺失等异常的连接结果。异常结果对于部分流连接应用而言是无法接受的,如在Google的广告推荐应用中,重复的连接结果会增加广告主的成本,而缺失的连接结果会损失Google公司自身的收益。

为了满足流连接应用的需求并解决结果异常问题,设计了一个新颖的可保障结果完整性的分布式流连接系统——Eunomia。该系统借助自主设计的有序连接模型可有效地避免异常连接结果。有序连接模型采用中继策略并将所有的处理单元构造成树形结构,保证了流元组到达所有处理单元的顺序一致。为了应对动态变化的流速,Eunomia系统设计了一个轻量级的自适应调整策略。该策略通过监控处理单元的负载情况,分析出系统的性能瓶颈,进而通过动态的调整连接模型的结构来保证系统的性能。Eunomia系统设计了一个高效的同步策略,在树形结构的根节点之间保证流元组顺序一致性。性能评估使用了来真实应用的大规模数据集,实验结果表明相比于现有的分布式流连接系统,Eunomia系统将吞吐率提升了25%,处理延迟降低了74%,同时更好地保证了连接结果完整性。


夏赫

论文标题:可解释性机器学习对新冠中药疗效的分析研究

研究方向:医疗大数据

导      师:陆枫

指导老师:陆枫

毕业去向:华为技术有限公司西安研究所

论文摘要:

在COVID-19爆发之后,中药一直是诊疗方案中所提及的治疗方式,为了根据指标分析探究中药在治疗该疾病中发挥的具体作用机制,遂对武汉市同济医院的COVID-19重型患者进行研究。

由于在回顾性分析中存在的数据散乱和基线条件不易控制等问题,且从指标数据建立机器学习模型分析疗效是一种能被国际广泛认同的方法,论文提出了可解释的归并式机器学习方法,通过数据归并、方法归并和知识归并来构建分析模型。其中方法归并将机器学习和模型解释方法共同参与到训练过程中,提供特征重要性信息和模型做出决策的原因信息;数据归并将多组数据合并后进行分析,解决阳性样本分布不均衡的问题;知识归并将医学知识和模型解释结果进行归并,综合分析后得到医学结论。首先对患者电子数据中的异构数据进行数据整合,数据整合依靠的是患者的住院号和数据的时间戳。根据患者医嘱数据中的用药情况将患者分为不同治疗方式,将该信息作为训练特征之一输入机器学习模型。模型架构基于机器学习算法LightGBM和模型解释算法SHAP,建立两轮预测模型,该方法通过对第一轮预测模型的重要特征进行选择,输出用于第二轮模型训练所用到的特征,最后对第二轮预测模型中的治疗方式特征进行单因素分析,并设置交互变量分析其他实验室指标。

最终模型得到很好的预测性能(AUC达到99.32%,灵敏度达到85.71%),并且经过SHAP分析发现中药治疗和中成药治疗的样本具有比西药治疗更小的SHAP值。在治疗方式为中药和中成药时,对白球比、白蛋白或淋巴细胞计数异常的患者在结局指标插管或死亡方面体现出明显的疗效,西药则没有。因此本研究认为,对于COVID-19重型患者来说,当患者的白球比、白蛋白或淋巴细胞处于异常状态时,选择中药治疗或者中成药治疗可以降低患者出现插管死亡的概率。


许万全

论文标题:面向新冠患者恢复期的可解释性机器学习

研究方向:医疗大数据

导      师:刘方明

指导老师:陆枫

毕业去向:国家电网金华公司

论文摘要:

大数据技术在近年来迅速发展,同时医学研究逐渐迈入信息化时代,两者的融合已经成为当下研究的热点。医疗领域的数据具有宝贵的研究价值,例如预测疾病的发生、分析患者的预后情况等。然而,医疗领域的数据往往是小样本数据集,存在数据量少的问题,无法训练传统的深度学习模型。因此,针对医疗大数据领域中的小样本问题进行研究,具有重大的意义以及现实价值。 

针对医学领域的小样本数据集,设计了基于医学经验的问题特征空间搜索方法。通过选择不同的特征子集作为分析变量和目标变量,结合专业医师经验,寻找具有研究价值的医学问题。另外设计了基于SHAP特征选择的小样本预测解释模型,首先对模型进行数据预处理,分别使用随机森林模型和SHAP方法得出候选特征子集,通过XGBoost模型比较候选特征子集的性能,筛选最优特征子集,并结合专业医师的判断,得出用于解释小样本问题的特征集合。最后使用该特征集合训练模型,并通过SHAP方法分析特征对于模型的影响。

基于问题特征空间搜索的预测解释模型在协和医院的新冠数据集上进行了实验。通过基于医学经验的问题特征空间搜索方法,寻找到具有研究价值的医学问题,并针对“患者入院出院CT数据与出院三个月后的残留病灶的关系”这一问题进行实验。由SHAP产生的备选特征子集,通过专业医师筛选,得出26个指标用于后续实验。对XGBoost模型和LightGBM模型进行训练,AUC达到0.9左右,说明特征选择的效果较好。最后利用SHAP分析方法,挖掘出影响模型结果的医学指标,如真实病灶体积、病灶内有功能肺组织体积比例等,能够帮助医疗人员进行后续科研工作。


袁杰

论文标题:分布式复杂事件处理系统中间结果传输优化机制研究

研究方向:复杂事件处理

导      师:刘海坤

指导老师:陈汉华

毕业去向:阿里云计算有限公司

论文摘要:

随着流数据在生活中得到了广泛的应用,越来越多的应用需要对流数据进行复杂事件处理,对多个数据之间的关联关系进行分析,从中获得更有价值的信息,例如金融交易分析、健康监测、智慧城市等。复杂事件处理需要快速地从流数据中识别出满足用户需求的复杂事件,由于目前数据规模不断增大,需要将复杂事件处理扩展到分布式系统中以提升其处理能力。在分布式环境下,处理过程中产生的中间结果需要在不同的机器之间进行传输以进行下一步的匹配计算。然而随着处理的进行,中间结果的数量迅速增加,大量的中间结果在分布式集群中的网络传输会严重影响系统性能,而且随着系统规模扩大,这一问题会愈发严重。

针对中间结果的传输开销问题,提出了通过带路由表事件图结构进行中间结果传输的分布式复杂事件处理系统Anemoi。Anemoi将中间结果构造为事件图结构进行传输,事件图中的一个顶点和一条边分别可以表示多个相同的事件和多条相同的事件间关联关系,从而解决了中间结果之间事件冗余的问题,有效地降低了中间结果传输开销。同时,还设计了基于事件图的中间结果匹配方法,能够直接在事件图的结构之上进行匹配计算,避免了每次匹配前都需要从事件图中提取出中间结果的开销。此外,Anemoi系统实现了一套自适应的中间结果传输策略,可以根据系统负载实时调整中间结果传输方式,进一步优化系统性能。

Anemoi系统基于流处理引擎Storm实现,通过两个来自于电子商务和出租车订单的真实数据集对系统各项指标进行了测试。实验结果表明,相比于目前最好的分布式复杂事件处理系统,Anemoi将系统吞吐率提高了39.4%,将处理延迟降低了32.5%。


张默涵

论文标题:基于机器阅读理解框架的事件抽取研究

研究方向:深度学习、自然语言处理

导      师:石宣化

指导老师:谢夏

毕业去向:国网湖南省电力有限公司信息通信分公司

论文摘要:

当今社会,海量的信息涌入互联网中,为了从海量互联网新闻数据中提取到有价值的信息,人们开始依赖自然语言处理技术进行信息抽取,而事件抽取则是信息抽取的重要部分。当前的事件抽取方法侧重于设计复杂的特征,而忽略了外部先验知识的引入,这在面对复杂且属于开放领域的新闻数据时难以有效地进行事件抽取。

为了解决上述问题,设计了在机器阅读理解框架下进行事件抽取的方法,该方法将待抽取的语句在结合问题模板经过实例化之后,编码了先验知识,有效提升了模型的域适应能力。事件抽取分为两个核心子任务,分别是事件检测和事件论元抽取。针对前者,提出了固定与非固定问题模板方法;针对后者,提出了实体依赖与无实体依赖的方法,其中无实体依赖的方法无需任何实体信息即可进行论元抽取,从而避免了误差传播。此外,基于以上方法,对每个任务进行了形式化转换,并设计调整了神经网络模型结构。

在公开数据集上对模型进行实验评估,包括一般事件抽取实验,无实体注释的论元抽取实验以及事件抽取的域适应实验。实验结果表明所提出的模型在一般事件抽取实验中事件类型分类与论元角色分类的F1值分别达到了74%以及59.7%,与当前事件抽取模型有着相当的性能,且在无实体注释论元抽取能力上F1值提升了至少1%,域适应的事件检测与论元抽取的F1值分别至少提升了0.6%以及1.9%。此外,将所提出的模型进行实际应用,与基线模型相比,抽取到的事件及论元数目增加了66.7%以及64%也表明了所提出方法的有效性。


张瑞

论文标题:面向新闻文本分类的层次数据增强和学习方法研究

研究方向:自然语言处理、数据挖掘

导      师:赵峰

指导老师:张腾

毕业去向:中国建设银行股份有限公司

论文摘要:

文本分类是自然语言处理领域中当前学术界和工业界最受关注的前沿问题之一。通用的文本分类算法极大依赖数量充足且类别均衡的数据集,而在实际任务中面对新闻文本数量有限且类别不均衡的情形,文本分类算法效果不佳,鲁棒性较差。此外,由于新闻具有文本风格跨度大、长文本语义丰富且表达方式多样的特点,针对新闻领域的文本分类已成为重大挑战。

基于以上问题,提出了层次数据增强和学习方法框架HDAL,并应用于新闻文本分类任务中。层次数据增强模型实现“文本—特征”双层数据增强。在文本层层次数据增强模型中,将文本抽取算法用于数据增强领域,融合基于统计、图和潜在语义的方法,结合新闻标题信息和信息熵算法改进后,通过设置冗余约束条件采用线性规划方法得到数据增强文本。在特征层层次数据增强模型中采用Mixup方法,通过对文本映射在特征空间中的点进行线性插值构造的方式,生成小样本类点邻域附近的新样本。层次学习方法通过对大样本类和其它小样本类进行层次分隔的方式,保证了每层学习过程中不同类别之间的数量均衡。应用在文本分类算法上时,层次学习方法借助重加权设置比例系数的方式优化了二分类任务下的交叉熵损失函数,降低算法在学习过程中大样本类对其它类造成的混淆和干扰。

在NSDC和20NewsGroup两种新闻数据集上,对层次数据增强和学习方法框架HDAL进行了文本分类测试,实验结果表明HDAL框架对文本分类算法的F1提升2%至5%。相较于数据增强算法EDA,HDAL框架对文本分类算法的F1提升程度均超过1%,且耗时更短。


张斯璟

论文标题:基于图注意力网络的代码摘要模型研究

研究方向:大数据

导      师:陈汉华

指导老师:王多强

毕业去向:中国农业银行股份有限公司

论文摘要:

代码摘要是软件维护过程中的重要部分,为开发人员提供简洁易懂的解释说明。工业界软件开发项目中往往缺乏注释。代码摘要的自动生成技术可以减轻繁琐复杂的人工标注,释放更多优质劳动力。因此,研究代码摘要的自动生成技术对促进业界相关应用的发展具有重要意义和价值。

目前在代码摘要领域仍然存在一些挑战:1.传统的序列到序列模型可以学习到源代码的序列表示,却难以学习代码的结构化语义信息;2.在传统代码摘要模型中,模型在训练过程中的目的是将交叉熵损失函数值最小化,这与业界衡量模型预测质量的主流评测标准不匹配,导致模型训练并不能真正提升预测质量。

针对这些挑战,对代码摘要的自动生成技术展开了研究。主要工作如下:

1. 构建了一个基于图注意力网络的代码摘要模型。模型使用编码器-解码器结构,使用序列编码器学习源代码的序列信息。在代码的抽象语法树上添加具有语义信息的边,转化为图,使用基于图注意力网络的图编码器学习代码图的结构信息,从而充分利用代码的序列特征和结构化语义特征。

2.通过强化学习的手段对模型进行进一步的优化。为了避免模型训练目标与评测标准不匹配问题,利用自我批判序列训练算法直接优化主流评价标准,并进一步对模型进行训练,从而优化模型的预测结果。

实验结果表明,该代码摘要模型能够较好学习源代码的特征信息并提升代码摘要质量。该模型预测结果与基线模型相比有较好提升。


赵玉莹

论文标题:动态图中影响力最大化问题方法研究

研究方向:图数据库、图算法

导      师:金海

指导老师:袁平鹏

毕业去向:出国读博

论文摘要:

随着脸书、微博等社交媒体的发展和普及,人们逐渐习惯在这些平台上分享自己的看法,这些观点能够通过社交网络快速扩散并影响到他人。如何在新媒体中最大程度地发挥个人的影响力具有重要意义。目前,大部分影响力最大化的研究旨在查询静态图中影响力最大的节点集合,但是,现实世界中的图是不断动态变化的。此外,现有研究没有考虑不同查询之间的相互影响,而实际上人们倾向于进行多次查询。如何在影响力不断变化的基础上,考虑多次查询找到影响力最大的节点集合,就构成了一个难题。一方面,查询序列对当前查询的影响难以量化。另一方面,图动态变化的特性使得快速有效地生成答案成为一个挑战。

针对第一个问题,动态图中基于查询序列的影响力最大化问题量化不同查询之间的关系为影响力增益,并基于此扩展了原先静态图中的问题。为了解决该问题,通过设计一种基于压缩索引的解决方案,实现了三类压缩的顶点影响力索引(影响力增益索引,正向影响索引和反向影响索引)和基于滑动窗口的查询序列管理机制。顶点影响力索引通过跟踪不同略图中节点的影响,从而避免在获取节点影响集的过程中进行大量冗余计算(查询之间以及查询内部的冗余)。查询序列管理机制控制了查询序列的影响范围,并通过聚合的序列计数以及序列影响减少窗口滑动的更新开销。基于该索引方案,当图变化时,保存的索引根据图中影响力发生变化的部分进行更新;当遇到查询时,基于查询序列的算法利用存储的索引快速构建答案。

在多个实际数据集上的大量实验表明,与从静态场景扩展的其他方法相比,基于索引的方法能够给出高质量的回答并且具有更高的效率。实验表明,作为查询时选择节点的指标,影响力增益比影响力更能挑选出具有差异性的节点。此外,针对剪枝技术的测试表明剪枝技术在减少访问次数方面起到了促进作用;内存消耗的实验可以看出压缩策略在减少存储开销方面行之有效。


郑康

论文标题:基于深度学习的病理学图像分类研究

研究方向:深度学习、医疗大数据

导      师:丁晓锋

指导老师:谢夏

毕业去向:北京猿力未来科技有限公司

论文摘要:甲状腺患者总体发病率平均在15%~28%,是人群中最常见的疾病之一。如何利用计算机高效处理甲状腺图像分类问题成为很多学者的研究热点,由于医学图像对比度低、信噪比低的特点,并且医学领域很难提供大量数据集,导致医学图像的分类成为计算机视觉领域极具挑战性的课题。近几年,深度学习取得了巨大的突破,为甲状腺病理学的诊断带来了新的契机。为了获取足够的训练数据,首先将甲状腺病理学原始医学图像进行切割,让图像符合神经网络的接受大小,并且对切割后的数据集进行扩增。KNN算法是为了过滤不需要的训练数据,但是KNN算法在进行决策的时候会出现一定的困境,因此在KNN算法上进行优化,设计一个新的算法KNN-C算法。实验结果表明,KNN-C算法过滤医学数据集的准确率非常高,可以达到97.00%。在设计模型方面,首先设计一个浅层神经网络SNN,然后根据分类结果在SNN神经网络上进行优化,得到新的模型SNN-C。SNN-C神经网络在分类医学图像已经初步具备了一些能力。利用设计过程中的启示,在VGG网络上进行修改与优化,设计新的神经网络VGG-C。优化后的VGG网络不仅减少了训练时间,还提升了各种性能。数据集来源于华中科技大学同济医学院提供的医学数据集。对甲状腺乳头状癌分类模型的准确性与合理性进行了测试,并且利用图表来对实验结果进行具体分析,从实验结果可以得知,设计的神经网络模型相对于VGG网络准确率从94.62%提高到了97.24%。


朱玉莲

论文标题:基于特征贡献度的儿童脓毒症危险因素分析

研究方向:医疗大数据

导      师:郑然

指导老师:陆枫

毕业去向:深圳字节跳动信息科技有限公司

论文摘要:

儿童脓毒症发病率高、病程发展快,发病机理复杂,在临床上呈现多样化。由于缺乏黄金诊断标准,导致了其早期诊断困难。在传统数据分析难以对高维、复杂线性关系的数据进行有效分析的情况下,可以利用机器学习来进行儿童脓毒症危险因素的识别,以实现早期诊断。

针对医疗数据高缺失率、复杂相关性的特点,提出了基于机器学习的特征贡献度评估方法。使用梯度提升树构建分类预测模型,再使用树模型的夏普利加性解释(Tree SHapley Additive ExPlanations,TreeSHAP)方法来构建解释器模型,分析每个特征对模型预测的贡献度,以此来衡量特征的重要性。由于脓毒症的异质性,需要进行脓毒症亚型的划分,提出了基于TreeSHAP方法非零估计特征的亚型划分方法。为了保证医学上的可解释性,以及指标在临床上的可操作性,采用医学知识驱动的迭代式特征筛选,在进行特征选择时加入医学知识。在每个亚型中找到重要特征后,考虑到传统统计学方法对危险因素的分析效果有限,利用TreeSHAP方法来分析指标在脓毒症预测上的表现,以及构建贝叶斯网络来发现指标异常之间的依赖关系,实现脓毒症危险因素的推理。

利用基于特征贡献度的危险因素识别与推理方法,将同济医院儿童脓毒症病例依据年龄这一非零估计特征,划分成3个年龄组。在各个年龄组中识别和筛选出12个重要指标,指标数减少了86%,但是12个指标构建的预测模型性能与87个指标的模型性能相当,验证了这12个指标的重要性。不同年龄组的危险因素存在差异,且符合医学上的认知,得到了医生的认可,证明了方法在医学上的可行性。


祝贺

论文标题:NVM环境下高性能动态图处理数据结构研究

研究方向:动态图、非易失性内存

导      师:金海

指导老师:华强胜

毕业去向:北京猿力未来科技有限公司

论文摘要:  

在过去十数年来自网络与社交网络的图信息量在急剧增长,这种本质上动态变化的图对存储、分析与处理的实时性需求越来越高。新兴的非易失性内存(Non-volatile Memory, NVM)技术具有高密度、高可扩展性和接近零待机功耗的优点,同时由于字节寻址等特性被认为是替代DRAM的潜在候选者,它们可以满足动态图信息快速增长的存储与处理要求。然而,由于NVM的读写不对称特性和数据一致性要求,传统动态图数据结构在NVM环境下效率低下。

为了解决NVM环境下动态图数据结构存在的读写不对称和耐久性低等问题,设计与实现了层级合并排序数组(Level Merge Sorted Array, LMSA),它是一种支持在对数时间内同时完成读与写操作的动态图数据结构。它使用层级数组存储动态图中边信息来提升查询速度与减少因动态图数据结构性质维护而产生的写次数。为了低开销地保证数据一致性,LMSA利用无日志记录一致性方案进行插入、删除和更新等操作。

在配置了英特尔傲腾持久内存DCPMM(Intel Optane DC Persistent Memory Module)机器上的实验结果表明,与最新的动态图数据结构Stinger和GraphTinker相比,LMSA插入操作吞吐量是Stinger的4.3-12.6倍,是GraphTinker的1.4-4.35倍,其删除操作吞吐量是Stinger的5.7-20.1倍,是GraphTinker的1.4-4.58倍。

耕耘才有所得,

付出才有收获。

实验室希望他们

鸿鹄之志和蝼蚁之行,

抬头仰望星空,

低头脚踏实地


往期· 回顾



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复