聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

2021年毕业生成果展示系列 之一 系统软件与体系结构研究室

2021-09-16 20:58 浏览: 570344 次 我要评论(0 条) 字号:

岁月匆匆,往事如歌。实验室迎来了2021届毕业生,他们每位都在实验室留下了美好的青春记忆。今天的毕业生成果展示系列将向大家介绍“系统软件与体系结构研究室”的19名毕业生。



No.

01

 刘晨昊

论文标题:在基于DRAM的FPGA加速器上应用特定缓存机制处理网格化真实图

论文发表在ACM Transactions on Reconfigurable Technology and Systems

研究方向:FPGA

导      师:廖小飞

指导老师:邵志远

毕业去向:出国读博

论文摘要:

图处理是大数据时代的重要研究课题之一。为了使用具有深存储器层次结构的基于 DRAM 的 FPGA 板构建图形处理的通用框架,一种合理的方法是将给定的大图划分为多个小子图,用二维网格表示该图,然后对图进行处理,用子图来分而治之。这种方法(网格图处理)将图数据存储在存储容量大但带宽相对较小的片外存储设备(例如,板载或主机DRAM)中,并通过使用存储容量小但随机存取性能优越的片上存储器件(如FF、BRAM和URAM)。然而,在网格图处理过程中,FPGA芯片中的处理单元与慢速片外DRAM之间直接交换图(顶点和边)数据会导致FPGA芯片和片外存储设备之间的性能下降。在本文中,我们展示了通过利用FPGA的灵活性和可编程性来构建特定于应用程序的缓存机制,它可以有效地提高基于 DRAM的FPGA硬件加速器的网格图处理性能,从而弥合了基于 DRAM的FPGA硬件加速器之间的性能差距。芯片和片外存储设备利用数据访问的局部性来减少了数据传输量。我们设计了两种特定于应用程序的缓存机制(即顶点缓存和边缓存),以分别利用网格图处理中存在的两种类型的位置(即顶点局部性和子图局部性)。实验结果表明,通过顶点缓存机制,我们的系统(命名为 FabGraph)在处理存储在板载DRAM中的中图时,BFS和 PageRank的速度分别比ForeGraph提高了3.1倍和2.5倍。借助边缓存机制,FabGraph的扩展(命名为FabGraph+)在处理存储在主机DRAM中的大型图时,比FPGP实现了高达9.96倍的BFS加速。


No.

02

 梁宇轩

论文标题:图算法的规则化及其处理机制的研究

获上海交通大学与卫宁健康联合举办的第一届智慧医疗挑战赛一等奖和最佳DEMO奖。

研究方向:图计算、动态图

导      师:吕新桥

指导老师:张宇

毕业去向:北京大学信息科学技术学院读博

论文摘要:

由于分析大规模动态图的重要性,许多时序迭代图处理(Timing iterative Graph Processing,简称TGP)作业通常需要被生成来处理动态图的相应快照,以获取不同时间点的图处理结果。为了提高动态图处理性能,期望在大规模动态图上并发运行多个TGP作业。尽管最近已经开发了许多基于GPU的图处理系统,但将它们应用到大规模动态图上并发运行多个TGP作业时,作业之间会相互干扰并造成昂贵的CPU与GPU间的数据传输开销,最终导致较低的GPU利用率。

针对上述问题,观察到当TGP作业分别访问不同的快照进行独立处理时,TGP作业间具有强时间局部性和空间局部性,这是因为快照的大部分相同,并且只有少数部分随时间变化。通过显著降低CPU与GPU间的图数据传输开销,可以为高效的并发执行TGP作业提供机会。基于此观察,开发了一个大规模动态图处理系统EGraph,该系统可以集成到现有的GPU加速的静态图处理系统中,以使其在GPU加速器的帮助下有效地支持在大规模动态图上并发执行TGP作业。与现有方法不同,EGraph提出了有效的加载-处理-切换(Loading-Processing-Switching,简称LPS)执行模型。它能够有效地减少CPU与GPU间数据传输的开销,并通过充分利用TGP作业之间的数据访问局部性,确保更高的GPU利用率以有效执行TGP作业。为了高效支持LPS执行模型的实现,EGraph实现一种结构感知的细粒度动态图管理机制以进一步减少冗余的CPU-GPU数据传输开销,并且通过局部性感知的动态图并发处理机制有效的支持TGP作业的高效并发执行。实验结果表明,将EGraph集成到最先进的GPU内存外(out-of-GPU-memory)图处理系统(即Subway),性能可提高2.3-3.5倍。


No.

03

 李洋

论文标题:基于数据流的高并发流水结构

研究方向:系统结构

导      师:金海

指导老师:廖小飞

毕业去向:北京三快在线科技有限公司

论文摘要:

随着大数据市场的迅猛增长,大数据处理的需求也日益旺盛。由于大数据不仅体量庞大,更具有类型复杂、处理模式各异的特征,依据应用领域的不同,还可能具备有效信息稀疏或时效要求高等特点,这无疑对计算机体系结构的性能提出了更高的要求。在这一背景下,另一种计算机程序执行模型——“数据流”开始得到更多的关注。数据流计算机是以数据驱动指令执行,即当某一指令所需的输入数据齐备时才为该指令分配计算资源并将其执行,这与控制流计算机的运行原理截然不同。因此,数据流体系结构能支持异步并行计算,天然破解了控制流体系结构固有的多线程同步通信开销大、异构并行效率低的难题,并因其细粒度、高并行的特点而能更好地支持大数据处理中的很多非规则问题(如图计算、稀疏矩阵运算、快速排序等)。


No.

04

 王浩波

论文标题:针对不一致写入攻击的NVM磨损攻击防御技术

研究方向:内存计算

导      师:金海

指导老师:廖小飞、刘海坤

毕业去向:实验室攻读博士

论文摘要:

由于有限的写寿命,非易失性内存(Non-volatile Memory,简称NVM)在磨损攻击下十分脆弱。同时,由于工艺差异,NVM单元之间的耐久性差异很大。为了延长NVM设备的使用寿命,考虑耐久性差异的磨损均衡策略试图将密集的写入操作对应的地址映射到耐久性较高的强单元。这些策略都假设未来写入流量的分布与当前检测窗口检测到的写流量分布类似。不一致写入攻击通过设计在两个检测窗口截然相反的写流量来误导这些磨损均衡策略,从而将写流量集中到弱单元。

针对不一致写入攻击的NVM磨损攻击防御技术CLIMBER通过基于热度信息的细粒度地址重映射,将被错误映射到弱页的热地址映射到更强的页中来避免写流量被集中到弱页上,从而实现对不一致写入攻击的防御。同时,CLIMBER根据不同页面的强度设置对应的交换阈值,来达到防御效果与交换开销之间的平衡。CLIMBER还设计了一种弱页随机映射机制,通过将冷地址映射到随机选择的弱页来避免最弱页被不一致写入攻击定位,进一步提高防御效果。

实验结果显示,CLIMBER能够有效地防御不一致写入攻击。与现有最新的防御机制相比,CLIMBER将不一致写入攻击下的最大磨损率降低了43.2%,同时,将PCM在不一致写入攻击下的预期寿命从4.19年延长到了7.37年,只引入了很少的硬件和性能开销。


No.

05

 吴锦雯

论文标题:CPU旁路的DDR-NVRAM内存页迁移机制

研究方向:RISC-V、异构内存

导      师:廖小飞

指导老师:廖小飞

毕业去向:中船重工第709研究所

论文摘要:

随着集成电路的迅速发展,复杂指令集在设计时间与成本上已无法满足要求。一种新型的指令集架构RISC-V引起了大家的关注,其设计简洁大方、可扩展性强。但目前关于新型芯片内存控制部分的研究探索较少。内存控制器对计算机整体性能有很大影响,新型芯片的内存控制将影响到后续内存的发展及计算机整体性能的发展。在这些空白领域进行探索,有利于积累经验。同时在内存方面,有关DRAM-NVM异构内存的研究也在逐渐深入。将DRAM的读写优势与NVM的大容量存储相结合,能有效提高内存系统性能和使用寿命。综合这两点,可将lowRISC作为平台,设计实现CPU旁路的异构内存热点数据页迁移机制。

该页迁移机制的功能模块主要包括FIFO缓冲区、控制MIG读写模块、地址范围划分及监测延迟模块。通过FIFO缓冲区可实现DDR-NVM之间的数据迁移通道,减少对内存通道的抢占以提高系统性能;控制MIG读写模块即代替CPU发送访存指令,完成数据读写。实现由内存控制器控制内存中数据迁移,确定CPU无感;地址范围划分及监测延迟模块可模拟NVM读写特性,通过将板上DDR进行地址范围逻辑划分,利用延迟模块进行延迟,解决无商用NVM可供实验的问题。为其它模块提供环境支撑。实验共进行了6组数据测试,得出如下结论:1、当读写访问比例相同时,对NVM范围内的数据访问越多,系统性能提升越明显。2、写操作对系统性能影响更大。读比例大时,两者差异范围在34.50%~39.54%左右;写比例大时,两者差异范围在41.34%~47.12%左右。3、相较原生lowRISC系统,添加混合内存控制器的系统性能平均提升43%。


No.

06

曾圳

论文标题:基于FPGA的软硬件协同图计算加速系统

研究方向:图计算、加速器

导      师:金海

指导老师:廖小飞

毕业去向:华为技术有限公司

论文摘要:

图结构具有高效的表达能力,广泛应用于各类计算领域,诸如社交网络分析,网络搜索等。随着图数据规模指数级爆炸增长,高效性成为图数据处理十分重要的要求。然而,图计算在现有通用处理器架构上存在着严重的不规则访存问题,其处理性能因而受到很大影响,研究面向图计算的硬件加速器成为性能加速的重要途径。现有的图计算加速器通常采用以点为中心的编程模型来充分利用节点间的并行性,在运行过程中使用位图结构维护活跃点集合,从而保证算法的正确执行。然而,基于位图的存储模式需要记录所有节点的执行状态,通常仅在活跃点较多时才具有较好的存储效率,活跃点较少时则会引入大量的无效计算开销,极端情况下,这一性能损失可达40%以上。如何较好地根据图计算活跃量自适应定制图计算硬件结构成为亟待解决的问题。

基于FPGA的软硬件协同图计算加速系统通过检测运行时活跃点数量,动态地选择合适的存储模型,同时采用点数据缓存,边数据预取等优化方法提升访存效率,从而提升整体图计算加速系统的性能。具体地,在软件上提出了基于位图和队列混合存储结构的Push-Pull编程模型,允许在图计算过程中选择合适的活跃点存储结构;在硬件上则设计了基于层次存储的加速器架构来保证两类数据的高效管理。系统采用FPGA片上资源来实现计算单元之间的连接,消除了计算流水线的时间损耗。在处理大计算量图迭代的功能模块中,系统采用了点数据访存优化设计,降低图计算中的点数据的随机访问开销。此外,设计了片上点边流水线同步结构来支持边数据预取,将随机边数据访问转化为顺序边数据访问。

实验结果表明,相较于现有的FPGA图计算系统ForeGraph,本系统实现了1.36~3.02倍的性能提升,并且系统片上资源开销更低。同时,系统针对大规模计算设计的访存优化和缓存传输策略极大程度上保证了系统性能。



No.

07

 罗子璇

论文标题:基于RISC-V的判别类目标跟踪算法的实现与评测

研究方向:目标跟踪、RISC-V

导      师:蒋文斌

指导老师:蒋文斌

毕业去向:中国电信集团直属云计算分公司

论文摘要:

RISC-V指令集的出现给碎片化的智能驾驶辅助系统(ADAS)开发带来了更多的机遇与挑战,目标跟踪技术作为ADAS关键技术拥有大量的嵌入式应用场景。然而,当前主流目标跟踪算法——核相关滤波算法(KCF),在智能辅助驾驶场景依然无法很好地解决遮挡情况与多目标跟踪等问题。同时,目标跟踪算法在RISC-V指令集上的移植与评测研究也较少。

针对现有研究的不足,提出面向辅助驾驶的判别类目标跟踪算法评测与优化方法。采用基于响应矩阵均值的遮挡检测机制与带加权窗口的遮挡处理方法解决KCF算法的遮挡问题,通过SSD快速检测器与数据-轨迹关联的方法实现KCF算法的多目标跟踪。进一步地,验证目标跟踪算法在RISC-V平台移植的可行性,将KCF算法移植到RISC-V指令集上,并基本实现目标跟踪功能。在RISC-V架构上采用向量扩展指令对KCF算法进行测试,分析向量扩展指令相对于标量指令的加速效果;在RISC-V平台上针对KCF算法进行寄存器使用比例测试以及内存消耗测试,为后续定制化芯片设计给出指导意见。

最后在OTB与MOT16数据集上进行测试,实验结果显示:针对KCF算法的优化能保证精度一定的情况下解决遮挡问题与多目标跟踪问题,且面向RISC-V指令集的KCF算法移植是可行的,RISC-V向量扩展指令集能有效提高KCF算法效率。进一步实验得出KCF算法在RISC-V指令集上的各寄存器使用比例以及内存消耗数据。


No.

08

 王庆

论文标题:面向RISC-V平台的ADAS目标检测算法移植与评测

研究方向:辅助驾驶、RISC-V、目标检测

导      师:金海

指导老师:蒋文斌

毕业去向:广东省深圳市招联消费金融有限公司

论文摘要:

高级辅助驾驶系统(Advanced Driving Assistance System,ADAS)是典型的智能物联网(Artificial Intelligence Internet of Things,AIoT)应用,目标检测是其中重要的感知任务之一。受限于硬件资源,ADAS中基于AI的目标检测方法在车载系统中较难落地。第五代精简指令集(Reduced Instruction Set Computing V,RISC-V)作为新型指令集架构,非常适合AIoT场景,有望推动ADAS应用的落地。但目前缺乏ADAS应用向RISC-V平台移植的实践经验和评测数据,面向ADAS的RISC-V CPU设计缺少相关参考依据。

为探索面向ADAS的目标检测算法向RISC-V平台移植的可行性,提出了一套评测方案。第一,评测了四种ADAS检测算法向RISC-V移植后的性能变化,比较了检测网络中,下采样的池化或全卷积实现的速度与精度。第二,针对RISC-V的基础整数指令集有RV32E、RV32(64)I的不同实现,而RV32E只使用RV32(64)I中32个通用寄存器的前16个,更适合嵌入式环境。由于目前没有支持RV32E的实验环境,因此展开了检测网络对寄存器使用占比的评测,旨在为RISC-V的整数指令集的选择提供依据。

上述实验基于RISC-V的指令模拟器Spike展开,数据集选用Common Objects in Context (COCO)的子集COCO-ADAS。实验结果表明,模型移植到RISC-V平台后精度不会发生变化。相比下采样的池化实现,全卷积网络前向推理的RISC-V指令数目下降了32.3%,精度下降了13.1%。因此用卷积来实现下采样更有速度优势,更适合ADAS此类关注实时性的场景。寄存器使用占比的评测结果表明,目标检测网络的计算对前16个寄存器的使用占比达到了81.4%,对后16个寄存器的使用占比仅为18.6%,说明对前16个寄存器使用更频繁。因此面向ADAS的RISC-V CPU可选只使用16个寄存器的RV32E作为基础整数指令集,以降低硬件实现复杂性。


No.

09

 张朝钦

论文标题:RISC-V新型嵌入式平台在车辆行为决策算法方面的评测

研究方向:RISC-V 自动驾驶

导      师:金海

指导老师:蒋文斌

毕业去向:中国舰船设计中心

论文摘要:

自动驾驶系统中的行为决策算法是一类计算密集型的人工智能应用,其对底层硬件设计提出了新的要求。RISC-V作为新兴开源指令集架构,在CPU与加速器设计上有广阔前景,有望用于自动驾驶系统的硬件平台中。然而,目前绝大多数辅助驾驶系统尚未针对RISC-V平台进行评测。

针对上述问题,结合车载嵌入式平台的特点,设计了RISC-V嵌入式平台在行为决策算法方面的评测。主要工作由以下几部分组成:1)评测设计部分针对RISC-V新型嵌入式平台的特性,设计了数个评测指标,对这些指标对算法的影响进行了讨论;2)扩展指令集评测主要在嵌入式场景下对部分RISC-V扩展指令集进行了评估测试,分析扩展指令集对程序运行的影响,评测结果用于指导硬件设计中指令集的选择;3)存储资源评测主要针对在嵌入式环境中包含寄存器和内存在内的硬件资源使用情况进行评估测试,并用来指导硬件设计,提高资源利用率。

上述实验在RISC-V的指令模拟器上进行,针对压缩指令集和存储资源分别进行测试。实验结果表明,以压缩指令集为目标架构的程序可减少静态指令体积20%左右;程序运行过程中使用的寄存器集中在14个寄存器中,其他寄存器使用频率极低;所需的内存较小,且不受数据大小影响。数据表明车辆行为决策算法在RISC-V嵌入式平台上具有良好的适应性。


No.

10

段梦青

论文标题:基于知识图谱的餐饮推荐方法研究

研究方向:知识图谱、推荐

导      师:邵志远

指导老师:王多强

毕业去向:中国农业银行武汉研发中心

论文摘要:

随着人类生活品质的提高,餐饮行业渐渐成为市场经济的重点领域,面对多种多样的餐饮店铺,消费者不知道该如何选择。推荐算法可以在不需要明确需求的条件下提炼消费者潜意识中的需求,为消费者提供好的选择建议。但一些传统的推荐方法常常会遭受数据稀疏性以及冷启动等因素的困扰,知识图谱包含了丰富的知识,它可以为新用户或者新物品提供额外的知识,将其视为辅助信息的来源融入推荐任务中,可以提高推荐算法的多样性、准确性与可解释性。

知识图谱也有很多缺失的知识,然而现有的基于知识图谱推荐方法一般都认为知识图谱是完整的,仅仅是在原始的实体数据浅层级别上传递知识,这会限制推荐性能。并且常见的知识图谱推荐方法一般只是使用知识图谱中的实体信息,很少利用关系信息,为了充分利用知识图谱提供的信息,并考虑知识图谱的不完全性,更加了解消费者对某店铺喜好的原因,提出了DRKG模型。新模型采用多任务学习方法同时进行推荐任务与知识表示学习任务,使用交叉特征共享模块和关系偏好交互模块进行两个任务的连接,通过相互学习来弥补和完善各自缺失的信息;为了使推荐方法更具有可解释性,DRKG模型在知识图谱传递知识的同时,使用关系偏好交互模块将知识图谱中的关系融入推荐方法中,细粒度地了解消费者的偏好,深入了解消费者喜欢某家店铺的原因。

实验验证了DRKG的有效性,证明知识图谱在推荐中具有积极作用。实验表明DRKG模型在理解消费者的偏好上具有优势,在餐饮推荐场景上具有一定的实用价值。与其它基于知识图谱的推荐方法相比,DRKG模型在点击率预测与Top-K预测中都表现良好,在点击率预测中AUC指标达到87.5%,ACC指标达到79.6%。


No.

11

 焦妍

论文标题:基于RISC-V的代理内核实现

研究方向:RISC-V

导      师:郑龙

指导老师:邵志远

毕业去向:中国电信有限公司广州信息化研发中心

论文摘要:

RISC-V是一款新型的通用指令集体系结构。作为一款模块化的指令集,RISC-V具有开源、可扩展性强等特点。RISC-V拥有完整的软件栈,自下而上分别是目标机器的软件实现层、内核层、函数库层、工具链层以及应用层。作为RISC-V软件栈的重要组成之一,内核层在控制硬件资源和支持用户程序方面起着重要作用。RISC-V代理内核是一款轻量级的应用程序执行环境,可以承载静态链接的RISC-V ELF二进制文件。

相较于传统内核,代理内核具有轻量、易用、高效等特点。但是,现有代理内核仅实现了Linux应用程序二进制接口的一个子集,无法对较为复杂的多进程程序提供支持。为了解决这一问题,基于现有的RISC-V代理内核,实现了一个新的内核。新内核的实现如下:1)在功能扩展方面,新内核进一步改进了现有代理内核的系统调用和异常处理单元,为应用提供了更为强大的功能支撑。2)在中断处理方面,新内核添加了时钟中断与设备中断,用以响应系统中异步的中断事件。3)在内存管理方面,新内核为现有代理内核添加了内存管理单元,用以维护内核中物理内存的分配和回收;以物理内存的管理为基础,新内核实现了从虚拟内存到物理内存的三级页表映射,用以实现了512Gib的逻辑地址空间。4)在进程管理方面,新内核向现有内核添加了一个进程管理单元,以实现进程的创建、执行、回收以及切换;基于进程管理单元,新内核实现了睡眠锁与自旋锁这两种锁机制,用以维护进程间数据的一致性。

最后,在用于测试代理内核的软件测试环境中,通过非法指令测试、非法地址访问测试、虚拟内存测试以及多进程测试,对内核的各个功能模块进行了验证。通过实验测试,验证了代理内核系统调用模块、异常处理模块、中断处理模块、内存管理模块以及进程管理模块的正确性。同时,在基于ZedBoard的硬件测试环境中,通过前端服务器,实现了代理内核在Rocket Chip上的正确运行。


No.

12

 彭平

论文标题:面向RISC-V向量平台的计算机视觉算法的移植与评测

研究方向:RISC-V、向量指令、体系结构

导      师:张宇

指导老师:邵志远

毕业去向:深圳虾皮信息科技有限公司

论文摘要:

计算机视觉(CV)算法已经被广泛地应用于日常生活的许多领域。伴随着物联网技术的快速发展,在嵌入式系统诸如CV算法等多媒体应用需要更高效的处理来满足其实时性要求。由于多媒体数据(如图像和视频)通常格式规整,数据处理逻辑一致且相关性不高,因此适合使用单指令多数据(SIMD)指令来加速处理。SIMD指令能够在一条指令中同时对多个数据项执行相同的操作,被广泛应用于提高CV算法计算的并行效率。然而目前X86及ARM架构下的SIMD指令存在着指令定长,并行性受限,不满足向量长度的边缘数据无法处理和硬件兼容性较差等缺点。

RISC-V的向量扩展指令将操作码和数据集的长度分离,具有可变的向量长度及寄存器组合的特性,可以提供更高的灵活性和可移植性。然而RISC-V向量指令对于CV算法的有效性和性能还未知。针对RISC-V的向量拓展指令,通过实现一套内联汇编函数,并以此对典型的CV算法,如灰度、均值滤波和边缘检测等进行了移植和有效性及性能评测,同时与ARM架构下的定长SIMD指令进行比较。

通过具体实验发现,与使用标量指令的基线CV算法实现相比,使用RISC-V向量指令(0.8版本)的实现所需的指令数目平均减少了3倍。此外,通过将8个向量寄存器组合以形成长寄存器来处理,算法提交指令数目可额外减少8倍(总共减少约24倍)。实验验证了RISC-V向量指令指令在CV算法中的应用潜力。



No.

13

 赖皓

论文标题:基于FPGA的应用访存行为动态监测硬件设计

研究方向:RISC-V SoC、内存控制器、应用访存踪迹

导      师:刘海坤

指导老师:刘海坤

毕业去向:深圳虾皮信息科技有限公司

论文摘要:

随着计算机技术的发展以及半导体制造工艺的进步,传统的动态随机访问存储器(DRAM)已经难以满足应用在数据访问中对存储器的高吞吐,大容量的需求。混合异构内存系统同时利用了随机访问存储器低延时和新型非易失性存储器(NVM)大容量的优点,在未来很可能逐渐取代传统的单一内存系统成为今后内存系统发展的主流。

为了使混合异构内存系统高效运行,需要一个能够实时动态监控处理器访存过程,分析应用访存行为特征,并以此对内存访问行为进行指导的工具。同时,也有必要设计一种有效的页面管理办法来减少非易失性存储器的写入次数,将大量的读写请求迁移至效率较高的动态随机访问存储器中,以此提升内存访问效率,降低系统能耗。基于FPGA的应用访存行为动态监测系统(RMTA),通过采集RISC-V处理器访存信号对访存行为进行监测与收集,实现了动态感知应用访存行为的功能。设计了全新的页面信息记录模块与维护策略记录采集到的应用访存信息,并以此为基础准确划分冷热内存页面,为DRAM/NVM混合内存架构重构和内存热页迁移提供了必要的决策信息。此外,RMTA通过添加处理器总线采集模块实现RISC-V访存指令获取,相对于硬件计数器、软件仿真等方式,具有准确、快速、不失真的优点。

由于传统的x86和ARM架构商业授权过于昂贵,源码难以获取,而全新指令集架构RISC-V具备开源免费、开发复杂性小、开发周期短等优势,应用访存行为动态监测系统将基于RISC-V指令集架构构建一套片上系统(SoC)并进行FPGA验证。实验结果表明,相较于传统单一内存系统的硬件仿真系统,RMTA在访存速度以及系统开销方面都表现出很大优势,性能平均提升43%。


No.

14

卢浩迪

论文标题:基于远端直接内存访问的数据持久化机制研究

研究方向:内存计算

导      师:吴松

指导老师:刘海坤

毕业去向:实验室攻读博士

论文摘要:

近年来,随着新型持久性内存(PM)和远端直接内存访问(RDMA)技术的蓬勃发展,低持久存储开销的PM和低传输延迟的RDMA在数据中心环境中得到了广泛的应用。然而,由于RDMA网络接口卡(RNIC)中存在易失性缓存,如何在PM和RDMA结合的系统中高效地保证远端数据持久性成为了重大挑战。持久RDMA操作和RDMA数据更新的可见性在分布式持久内存系统中还没有得到充分的研究。尽管少数基于远端过程调用(RPC)的研究工作通过多个RDMA操作的组合来支持远端数据持久性,但在这些基于软件的持久化传输解决方案中,远端CPU需要参与其中,并且数据传输持久化对发送端的可见性被滞后,进而导致传输时延增加。

为了避免现有RPC设计的不足,设计了持久RPC系统,利用多种硬件支持的RDMA Flush刷新原语来将RNIC易失性缓存中的数据刷新到持久区域中。持久RPC系统通过批处理优化以及并发传输已确认持久化的RPC请求,让复杂的数据处理过程和持久传输过程解耦合。此外,持久RPC系统在接收端构建持久缓冲区来存储数据处理请求,并结合RDMA连接信息组成重做日志以提供失效恢复特性,多种原语实现方式还可以满足各类系统环境和应用设置的需求。在实验方面针对基于RDMA 的RPC进行了深入的分析和测试,揭示了RPC通信设计对传输性能的影响。在配备Intel Optane DCPMM和InfiniBand网络的真实测试环境中,基于RDMA Flush原语的持久RPC与现有RPC通信设计的对比能够更加真实地反映持久RPC设计的性能优势。

实验结果表明,基于RDMA Flush原语的持久RPC相比现有RPC系统可提高90%的吞吐率,减少49%的第99百分位传输延迟。源自实验结果的研究分析也为基于RDMA分布式持久内存系统的设计提供了重要的指导建议。


No.

15

王彦钊

论文标题:基于RISC-V的可重构混合内存架构

研究方向:RISC-V、可重构、混合内存

导      师:蒋文斌

指导老师:刘海坤

毕业去向:吉林省国家电网

论文摘要:

近年来,计算机应用技术蓬勃发展,但不同类型的计算机应用对内存的需求大不相同。当前主流的两种异构内存系统只能满足特定类型应用的内存需求。平行结构的DRAM-NVM异构内存架构可以充分利用NVM的容量,适合对延迟不敏感、对主存容量敏感的应用,如大数据相关应用;层次结构的DRAM-NVM异构内存架构可以缓存频繁访问的数据,适合对延迟敏感、对主存容量不敏感的应用,如互联网相关应用。

基于RISC-V的可重构混合内存架构针对上层应用的访存局部性特征,综合考虑混合内存不同存储介质的性能、功耗和耐久性,实现了平行架构和层次架构之间的动态重构,满足了各种类型应用对内存的不同需求。为了进一步提高内存系统的效率,设计了基于多级队列和基于Majority Element Algorithm(MEA)算法的缓存替换策略:前者使用多级队列将缓存热页设置成不同的优先级,保证系统充分利用缓存;后者使用MEA算法,兼顾了数据访问频度和时间局部性的同时减少了硬件开销。此外,基于RISC-V的可重构混合内存架构提供应用层的配置接口,可由应用自定义DDR/NVM的层次化配比比例,增强了系统的可扩展性。

实验结果表明,相较于LowRISC项目中使用的传统内存系统,基于RISC-V的可重构混合内存系统在性能、能耗方面均表现良好。性能平均提升43%,能耗降低12.5%,且片上系统稳定性增加。


No.

16

罗文

论文标题:基于ERNIE-TextCNN的敏感信息过滤技术研究

研究方向:自然语言处理

导      师:石宣化

指导老师:郑然、王多强

毕业去向:北京达佳互联信息技术有限公司

论文摘要:

文本数据作为人们网络生活当中最为常见的一种信息类型,在协助人们进行观点陈述的同时,极有可能夹杂着诸如暴恐反动、低俗色情、垃圾广告、脏话谩骂等诸多敏感信息。基于字符匹配以及决策树搜索算法,虽然能够精确的定位敏感信息,可是一旦出现由繁体字、拆解字、拼音字母等组成的变体,则无法匹配。基于贝叶斯以及随机森林等传统机器学习技术,虽然能够根据选定的特征进行分类过滤,但是前期需要大量的特征工程,并且有限的文本特征使得模型难以提取到基于上下文语义信息,从而导致敏感信息的筛查率较低,达不到大规模的过滤效果。

为了解决这些问题,设计并实现一种结合ERNIE预训练模型以及基于文本卷积神经网络的ERNIE-TextCNN模型。该模型首先采用前期经过大量语言训练的词向量,针对敏感信息这类特殊文本,进行动态调整,获得涵盖注意力信息的多维特征词向量。然后根据敏感信息通常是以敏感词以及短语的形式局部出现这一特点,通过卷积神经网络,对文本中的局部敏感信息进行特征提取,经过信息融合降维,得到与敏感信息类别有着相同维度的决策向量,最终通过softmax逻辑回归来预测敏感信息类别。ERNIE-TextCNN模型的构建,同时还考虑了模型整体的收敛速度。由于ERNIE的多头注意力机制以及TextCNN的多维度卷积运算都可以并行的计算,因此ERNIE-TextCNN模型可以在保证快速收敛的前提下,提升敏感信息过滤准确率。

进一步构建各类对比模型,采用相同的实验环境以及数据进行测试分析,ERNIE-TextCNN模型在几乎不影响收敛速度的基础上,达到了最佳的敏感信息分类准确率,可以将99.63%的文本划分到正确的类别。



No.

17

 李陈

论文标题:基于TensorFlow的卷积神经网络优化研究

研究方向:人工智能

导      师:郑然

指导老师:张宇

毕业去向:某战区信息通信团

论文摘要:

当前伴随时代的发展以及科技水平的迅猛提升,世界范围内也兴起了基于人工智能为中心的科技竞赛,计算机视觉作为人工智能的一个重要分支而被众多学者所重视。它在社会生活中无处不在,包括搜索、图像理解、视觉导航、生物医学、无人机和自动驾驶汽车等领域都有计算机视觉的应用。正因为计算机视觉应用范围极广,其面对的数据集与实践需求多种多样,如何又快又好地搭建和训练出符合实际需要的神经网络模型,成为摆在人们面前的一个难题。传统的深度学习模型往往由于框架的大量和深度封装,缺乏一定的灵活性,且模型训练周期往往较长,这导致模型的迭代优化速度很慢,制约了深度学习神经网络解决现实问题的能力发挥。

为解决传统神经网络模型开发中存在的问题,基于TensorFlow设计并实现了一个提供多种优化接口的轻量级卷积神经网络,主要面向图像识别领域进行深度学习模型的简单搭建与快速迭代优化。简单的优化接口,让使用者在搭建模型时能自主地选定模型结构:为减轻模型训练负担与提高模型训练速度,可以用自定义mini-batch优化接口配置batch-size参数;在模型构建时自定义学习率参数,控制模型学习速度;使用自定义模型评估指数,评估不同应用下的模型好坏等等。这些优化接口,让使用者真正实现按需搭建。同时,轻量级让模型的搭建更简单,也能使用优化接口实现对模型训练过程的监控,根据监控结果对模型进行快速迭代优化,在最短的时间内训练出符合实际需求的图像识别卷积神经网络。

使用手语图片构建的数据集训练一个手语识别卷积神经网络模型,实验结果显示,神经网络模型中的超参数如学习率、神经网络的层数、小批量数据mini-batch的大小等,其取值都对模型训练结果有着非常大的影响,所以,能够自主定义并快速迭代这些超参数在实际应用中显得极为重要。并且通过对超参数的快速迭代,能够在较短的时间内找到合适的参数,训练出能高效解决实际问题的神经网络模型,相比于单纯用TensorFlow和Keras搭建的神经网络模型,综合训练时间和实现效果作为比较指数,提供多个优化接口的轻量级卷积神经网络在综合效率上提升了60%,这表明了模型在解决不同图像识别现实任务时的可行性与高效性。


No.

18

 吴雨薇

论文标题:系统数据中心环境下的大规模图计算高效通信方法研究

研究方向:图计算、加速器

导      师:胡侃

指导老师:郑龙

毕业去向:百度在线网络技术(北京)有限公司

论文摘要:

图计算是众多现实业务的技术基础,在许多现实场景中有广泛应用,例如社会网络分析和商业信息分析。FPGA因其并行性、节能性和可重构性,成为加速图计算的重要计算平台。随着图数据规模的快速增长,现有FPGA加速器片上存储容量难以对其进行完整存储。许多云供应商(如亚马逊、微软和百度)推出了各自的FPGA云数据中心,提供了大规模图计算加速的机遇。

然而实现扩展数据中心环境下多FPGA图计算系统存在着的两个主要挑战:首先,现有单FPGA图计算加速器配备有量身定制的实现层,难以通过重用基础架构来构建分布式图计算加速器;其次,数据中心分布式拓扑互联结构存在环形互连特殊性,这会带来很多不必要的通信开销。基于上述的挑战,提出了数据中心环境下的大规模图计算高效通信库FDGLib。它可以将现有基于FPGA的图计算加速器扩展到数据中心,使其成为分布式图加速系统,并且只需较少的硬件工程工作。FDGLib将分布式图计算中的通信与计算解耦,因此开发人员可以通过FDGLib提供的API进行少量的代码修改,使FDGLib与图计算加速器集成,实现节点间的通信和单节点上的计算。为了减少通信开销,FDGLib还提出了通信优化策略,包括图划分和子图放置。FDGLib中统一的图划分机制使图划分策略可以由开发人员灵活选择。考虑到数据中心中基于环形网络的FPGA互连模式,FDGLib设计了一种新颖的子图放置策略,通过精心设计的子图布局方案来提高通信效率。


No.

19

郑耀辉

论文标题:基于HBM的高性能图计算高层次综合方法研究

研究方向:图计算、加速器

导      师:郑龙

指导老师:郑龙

毕业去向:华为技术有限公司

论文摘要:

图计算在诸多现实场景中具有广泛的应用,例如路径导航、社交网络分析以及广告推荐等。随着图数据规模的急速增长,图计算高性能需求与日俱增。FPGA因其细粒度的并行性、较高的能效和可编程性,已然成为包括数据中心在内的新型计算基础架构。高层次综合允许用户使用高级语言对FPGA进行编程,可大幅降低FPGA硬件开发门槛,采用高层次技术是平衡图计算高效性和易用性的重要技术途径。然而,现有基于高层次综合的图计算方法由于资源消耗过高以及计算主频下降的问题,导致图计算加速器系统的扩展性较差,无法充分利用新型高带宽内存(High Bandwidith Memory)的硬件特性,图计算性能加速效果不理想。

为了解决上述问题,提出了一种可扩展的高层次综合图计算方法ScalaGP。通过分层的数据转发机制,ScalaGP能将查找表资源使用量由复杂度O(MN)(M表示顶点处理单元数,N表示边处理单元数)下降到O(NlogM),同时具有更简单的模块设计以及更少的资源消耗等特性,从而支持更高的并行处理单元数量,并且能够达到较高的频率。ScalaGP根据图计算的访存特点,经过请求合并、预取、多通道访存解耦等一系列访存优化策略,能够显著提高图计算过程中的并发访存效率。同时,ScalaGP抽象出一系列构建图算法所需的基本算子,并设计了面向图计算硬件友好的加速器模板,能够自动将用户使用高级语言表达的算法编译成高性能硬件电路。

实验结果表明,ScalaGP并行处理单元数可至少扩展到384个,计算频率能够达到约230MHZ。相较最新的高层次综合图计算框架ThunderGP,并行处理能力提升至少12倍,资源消耗只有ThunderGP的75%左右,性能加速8.64~18.94倍。



长风破浪会有时,

直挂云帆济沧海!

实验室预祝他们

在今后的工作岗位上

前程似锦,

一路繁花相送!




网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复