聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

【喻园学子】吴步文——抓住机遇,努力奋进

2022-06-02 10:50 浏览: 2039522 次 我要评论(0 条) 字号:

发表于

本期“喻园学子”栏目向大家介绍的人物是实验室2009级博士生——吴步文,文章选自《并行与分布式计算通讯》2015年第2期总第21期的专栏“封面人物”,他读研期间在数据库领域顶会ICDE 2015和ICDE 2017发表两篇论文。

来自华中科技大学计算机科学与技术学院SCTS/CGCL实验室的博士生吴步文的论文“Scalable SPARQL Querying using Path Partitioning”被数据库领域A类国际学术会议The 31st IEEE International Conference on Data Engineering (ICDE 2015) 录用。

该论文针对RDF数据划分的优化问题,提出了一种基于路径的RDF图划分技术模型,并基于此模型提出了一种基于语义关联的启发式算法,此算法可以有效地降低时间和空间复杂度。论文选取多个常用数据集,证明了路径划分算法的可扩展性,并结合实际原型系统验证了,使用该路径划分算法进行数据分布,能够大幅度减少分布式处理中的网络数据传输开销,进而提高分布式查询处理效率。

本刊对论文作者吴步文博士进行了采访,以下第一人称记录。


初入实验室:在实践中不断学习

我自2005年9月以本科生的身份进入华中科技大学计算机科学与技术学院开始学习,到2009年9月夏天,以直博生的身份加入到SCTS/CGCL实验室,到今年已近十年。在这期间,是学院各位老师的淳淳教诲,让我逐渐在科研的道路上找到方向,并努力前行。

2008年暑期,带着新奇与佩服的心情,我进入SCTS/CGCL实习,与老师及师兄们有了第一次接触,这让我第一次感受到实验室的科研与学习氛围,这段实习经历让我下定决心,希望能够继续在实验室进行博士阶段的学习。

初次见金老师,是在2008年的保研面试。由于在实验室的实习经历,我特别期望能够继续在实验室进行学习,所以在简历中提到了希望在实验室读博的意愿。令我记忆犹新的是,面试刚刚结束,金老师便出来热忱地欢迎我加入实验室团队,并约我在他办公室见面,向我介绍实验室情况。平易近人的金老师使我更加坚定了在实验室读博的决心。就这样,在2009年的夏天,我怀着激动的心情加入了实验室的大家庭。

作为一名直博生,博一的课程不仅包含了硕士生全部的必修和选修课程,还包含许多博士课程。在忙碌的课业学习之外,还需要抓紧时间阅读文献,了解研究方向的基础知识及最新动态。博一上半学期的生活是充实的,但细细回顾,这期间,我的学习并不系统,再加上囫囵吞枣式的文献阅读方式,造成的后果是我对学习的内容一知半解,学习效率并不高。学期结束时,回想半个学期的收获,竟然毫无头绪,对以后的工作方向也是完全不是所措,迷茫并且无助。

2010年初,在袁平鹏老师的带领下,我们开始了TripleBit原型系统的开发,这一阶段,我感到收获很大。在多次与组内同学和袁老师的讨论下,我又重新回顾了很多原来已经看过的文献,并开始较为系统地学习数据库实现技术。而与半年前不同的是,在思考系统该如何实现并与同学讨论方案的同时,再挖掘阅读论文,我明显感到对许多论文有了更加深入的理解。基于实践的理解是印象深刻的,也是具体详细的,不再有囫囵吞枣的感觉,也不再似懂非懂,在实践中学习,使我能够更好地发掘别人论文中的技术的亮点,也能深入地发掘别人算法中的不足,这种锻炼是在纯粹读论文的过程中无法体会的。就这样,在不断地讨论,不断地修正中,TripleBit原型系统完成了,系统性能较原有的国内外语义数据处理系统有非常大的提升,最终经过袁老师的不懈努力,这一工作被数据库领域A类国际学术会议VLDB录用。


博士开题:从交流中捕捉灵感

博二下学期,在完成了TripleBit系统方面的工作后,我开始着手寻找自己博士期间的研究方向,为博士开题做准备。在阅读文献的过程中,我注意到Stonebraker教授,也就是今年的图灵奖获得者,提出了一个很有意思的观点,“One Size Fits All”: An Idea Whose Time Has Come and Gone,即关系数据库已经不能满足对所有类型数据的处理需求,应该针对不同类型的数据设计不同的数据存储和处理系统。TripleBit的设计理念正是基于此——一个专门为语义数据设计的集中式数据处理系统。

在此基础上,我开始思考这样一个问题:随着数据的爆炸式增长,分布式处理肯定是今后的发展方向。那么既然one size cannot fit all,分布式关系数据库肯定也无法高效的处理语义数据,我为什么不在此做文章?在仔细学习和分析了分布式数据库的相关理论知识后,我发现要从集中式处理转变成分布式处理,首先需要解决的问题是如何将数据存储从集中式变成分布式。当然,分布式数据库中已经有很多这样的算法和技术,但是这些技术都不合适语义数据。因为使用这些技术,在数据处理过程中会产生大量数据传输,进而造成大量网络开销。至此,我的第一个研究方向便产生了,语义数据的划分技术。既然划分技术有了变化,那么传统的查询优化技术也肯定无法匹配,由此我顺理成章地规划出了我的第二个研究方向——基于不同语义数据划分技术的查询优化技术。这两个方向相辅相成,只要按照这两个方向深入研究,博士毕业论文的结构是非常清晰的。

但说起来简单,想起来简单,实际动手做起来各种问题也会随之而来。有想法,只是万里长征的第一步。

刚开始写文章时,我才第一次深刻的意识到在科研的道路上,我还有太多太多的知识需要补充,不用说实现系统,设计实验,文章写作,就连最基本的一些技巧,如画一个明了的示意图,制作表达清晰的表格和实验结果图都需要花大量时间去学习。在不断的学习当中,我一步一步的完善着自己的工作,但在好不容易文章快要完工时,我却发现VLDB 2011最新的文章列表中有一篇文章竟然和我做的工作十分类似,并且有着显著的性能提升。这个打击对我来说是比较大的,我清晰的意识到,如果你不能迅速地实现你的想法并发表,你花了大量时间和精力做的工作很有可能会被别人抢先发表,更严重的问题是,你的后续工作将变得异常艰辛,因为你的工作必须比别人更优秀。当时我只能安慰自己说,至少研究方向没错。

此后,就是在紧迫感与压力下重新发掘和设计算法,与袁老师重新讨论文章结构。从头再来的过程是非常痛苦的,但教训要吸取,科研也还要继续,在这一段时间,我感到多与指导老师交流是非常有帮助的。首先,在你准备给老师和同学做报告时,可以帮助你重新梳理自己的方案,帮助你从细节方面重新审视其优势和不足。其次,往往在交流和讨论时,可以发现以前没有发现的问题。而当你钻到牛角尖时,旁观者也总是能给你中肯的建议。正是与袁老师的讨论,帮我理清了我们的算法与VLDB文章的异同,并最终使我产生了新的灵感。


文章被拒:在挫折中坚定信念

每个人的一生中总会遇到一些挫折,而读博期间文章被拒稿所带来的挫折可能是大部分博士都无法避免的。每篇文章都是倾注了心血的产物,满怀希望地投稿,希望自己辛苦的研究能获得大家的认可,文章被录用,工作得到广泛地认可,可能是很多博士工作的目标。通宵达旦的工作,深入挖掘文献,构架系统,就是希望得到那一封包含着“Congratulation”的录用邮件,但在此之前首先要面对的,是一次次地赶Deadline,被拒,总结问题,赶下一个deadline,又被拒……一遍遍的循环,难免让人沮丧。这期间的酸甜苦辣只有经历过才能体会,对我而言,文章一次次被拒的那段时间心情是十分灰暗的。

在这样的时期,坚定的信念以及对自己工作的信心正是突破这种灰暗心情的利剑。坚定的信念不是盲目自大,而是需要对自己的工作有一个深入的认识。这里当然不只是自己单方面对文章的认识,更重要的是需要顶级会议审稿人对你文章的认识。关于这一点,我自己的体会是,文章写完后首先尽量尝试顶级会议是非常有意义的,因为你可以从领域专家那里得到第一手的意见与建议。结合领域专家的意见,能够更好地帮助你审视自己的工作的优势与不足,并能帮你判断文章所能投的会议等级。如果你感到自己的工作能够达到顶级会议的水平,那么一定要有信心,要努力坚持,是金子总是会发光的。

说起审稿,就不得不再啰嗦两句。重视并正确认识审稿意见,这是对审稿人的工作的肯定和尊重。博士的工作都是创新性的工作,审稿人也不一定能完全理解(当然我们自己表达的问题也有很大影响),有时可能会有一些有偏差的审稿意见。但是绝大部分的意见都是中肯的,有意义的。对于审稿人的意见一定要认真对待。对于审稿人提出的问题,一定要尽最大的努力去解决,不要逃避,不要试图去掩饰。因为思考并解决这些棘手的问题不仅能使你的文章提升档次,也能锻炼你深入思考的能力。


出国交流:在努力中寻求机会

文章多次被拒不可避免地让我产生了沮丧的情绪,正是在这个时候,金老师与袁老师给了我一次与国外老师面谈的机会。当时我刚做了膝盖手术,拄着双拐来到8号楼和南丹麦大学的周永銮老师进行了一次简单的交流。正是这次简单的交流,促使我来到了丹麦。

初到丹麦,刚刚经历了文章第三次被拒稿,我不停地反思为什么文章总是中不了?为什么实验效果很好但是审稿人总是不埋单?经过和周老师及同学的交流并总结审稿意见,我们认为是文章写作问题,这里的文章写作问题不仅仅包含了语句描述问题,而且还包括了以何种结构方式向审稿人展示你的工作。

当时被拒的文章中使用的是启发式算法,虽然效果很好,但是总是无法得到审稿人的认可。经过分析后,我们决定换一种文章的组织方式。首先清晰地描述问题,并把问题形式化。这一步可以让审稿人能具体地理解你的文章的目的及意义。其次,证明待解决的问题的难度,是NP-Complete还是NP-Hard?能不能在多项式时间内找到有固定近似比的近似算法(证明APX-Hard)?这时,审稿人就能更清楚地了解你的研究的难度。然后当然就是给出算法及其描述。如果能找到近似算法及其近似比,那么也会给你的文章加分。如果只是用贪心算法,启发式算法或者随机算法,则必须给出强有力的证据,证明使用这种算法的优势。理论方面描述清楚后,还需加上全面的实验佐证,在实际应用中证明你的理论。最后,还需从审稿人的角度分析文章可能得漏洞。

这其中的每一步都需要付出巨大的努力,才能最终产生一篇完整的优秀的论文。


文章发表:在收获后汲取感悟

絮絮叨叨说了这么多,也零零碎碎和大家分享了一些我读博期间的经历和个人的经验。以下还有一些文章撰写方面的感悟希望能和大家分享:

(1) 深入全面的研究问题。作为一个普通的博士生,我们在文章中提出的算法可能很有效,但这并不意味着能够轻易得到审稿人的认可。正因为此,我们的研究一定要深入,对问题的分析一定要具体,系统或者算法的提升在哪里?为什么会有这些提升?针对什么样场景效果更好?哪里还可以改进?只有对这些问题都能做到全面的解读,并在文章中行之有效地体现,才能够提高文章被录用的几率。

(2) 提高论文的可读性。深入全面的对问题进行分析是第一步,但要让审稿人读懂文章,还得注意语法正确,表述清晰简洁。文章描述时尽量做到精确具体,避免大而空的概念性叙述。科技文献的根本在于传播技术,无需花哨的辞藻与漂亮的修辞,清晰简洁的文字能够提高文章的可读性。所以如果有国外相关领域的教授帮你修改文章,肯定会提高文章的可读性。如果没有,金老师推荐的很多文章修改网站也是值得一试的,至少不会犯一些低级的语法错误,导致文章因为语言表达问题被拒稿。

(3) 文章逻辑清晰通顺。在文献阅读以及多次投稿的过程中,我感觉到文章逻辑的清晰通顺是很重要的,逻辑清晰不仅体现在段落之间,也体现在句与句之间,必须明确他们之间的逻辑关系。一篇逻辑清晰的科技文献,能够带领读者循序渐进地理解作者的想法,更好的了解文章所描述的问题。

(4) 巧妙利用Running example。一个恰当的贯穿全文的running example可以为你的文章增色不少,好的running example可以将文章贯通,并把很复杂的算法以通俗易懂的方式表示出来,这样会令审稿人阅读时更轻松,更好的锚定文章的重点所在。


致谢:

论文最终能被ICDE在录用,首先要特别感谢金老师与袁平鹏老师对我的大力支持与指导,另外还要感谢南丹麦大学周永銮老师与乔治亚理工的Ling Liu老师在论文写作过程中给予的指导与帮助。最后,为STCS/CGCL大家庭送上最诚挚的祝福。

吴步文



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复