聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

大模型数据架构基础:向量数据库实践应用

2023-06-24 15:38 浏览: 2177443 次 我要评论(0 条) 字号:

为促进数据基础架构的行业交流与技术发展,DataFun举办首届DataFunSummit2023数据基础架构峰会,设立分布式存储架构、大规模存储架构、数据存储应用、向量数据库架构、离线计算架构、实时计算架构、大规模计算架构、数据计算应用等8个主题论坛,欢迎广大从业者参与活动,推动数据架构的基本算子演进!

扫描二维码即可免费报名

正如From、Join、排序等是SQL的基本算子,存储与计算是也是数据架构中数据生产与消费的基本算子,对于数据架构之下的技术栈层级,我们可将其定义为数据基础架构。

数据存储技术在适应大数据时代的规模需求基础之上,持续优化可用性、可靠性、存算分离、事务性等能力,演变出分布式文件系统、分布式对象存储、分布式块存储三大类型,数据库也通过存储格式等方面的改进助力数据处理的加速等应用需求。为适应AI的迅速发展,对非结构化数据、图数据等原始数据形式的存储支持以提高数据表达能力,或者对AI算法架构中间产物向量表示的存储支持以提高处理效率,都是不可小视的发展趋势,特别是后者已经在大模型推动下成为行业热门,即向量数据库。
数据计算以离线计算和实时计算为两大主要技术路线,离线计算引擎以Spark为主导,实时计算引擎以Flink为主导,规模化仍是第一特点,而前者发展较成熟,后者则在往云原生、流批一体、流式数仓、流式数据库等方向迅速发展,但在实际应用中,这两大引擎仍需要根据业务需求,进行大量的技术优化。
下面为您带来本次峰会的详细介绍:
  峰会介绍

专家评审团

蒋鸿翔 网易数字产业事业部 技术经理

个人介绍:网易数据库内核和数据基础设施负责人,全面负责数据库内核技术和大数据平台底层技术开发工作,先后主导了内部MySQL分支InnoSQL、HBase、自研时序数据库、实时数据仓库、离线计算等各种不同的平台,具有丰富的数据库内核和大数据平台相关经验;擅长数据库内核技术诊断、复杂环境数据恢复,大数据平台各种性能优化技术等等。

杨华 T3出行 大数据平台研发负责人

个人介绍:杨华 (Vino Yang) , Apache Hudi / Kyuubi PMC member & Apache Kylin Committer. Apache Flink 贡献与布道者。T3 出行大数据平台研发负责人。加入T3之前曾在腾讯主导Flink从0到1落地并支撑日均数十万亿的消息处理规模。

杨诗旻 字节跳动 数据湖团队技术负责人
个人介绍:于 19 年加入字节跳动,目前是数据湖团队技术负责人。团队负责基于 Hudi 的 EB 级数据湖解决方案,在字节内部的实时数仓、离线数仓和推荐系统等多个场景落地,还负责火山引擎产品LakeHouse Analytics Service 的相关技术。目前聚焦于湖仓一体和批流一体的架构演进,在大数据计算、存储、数仓优化等领域有丰富的经验。

  峰会嘉宾

  峰会论坛

①分布式存储论坛

出品人:司春峰 bilibili 技术专家

个人介绍:2009年毕业于南京大学。先后在EMC的统一存储部门,百度基础架构部和B站基础架构部从事存储系统的研发工作。创建了B站的对象存储系统和KV存储系统。目前负责B站的分布式存储团队。

林堂辉 bilibili 基础架构部 资深研发工程师

个人介绍:2016年加入B站,作为核心开发亲历了B站从单体架构到微服务的架构改造,后续又负责消息队列、服务发现、数据传输等微服务中间件的开发。目前负责NoSQL存储,从零到一搭建了分布式KV存储系统,为全站业务提供了高性能稳定可靠的存储服务。

演讲题目:如何打造一个高可靠的线上存储系统

演讲提纲:对于每天承载亿级请求的在线存储系统,如何通过多活来保证在线服务的可用性。同时对于机器故障数据损坏等,如何通过数据备份容灾来保证数据的可靠性,对于数据损坏如何快速进行修复。最后,介绍一些常用的运维sop来对故障进行预防及快速响应。

听众收益:

1.如果打造多活存储系统

2.如何通过point-in-time recovery来保证服务的可靠性。

3.通过完善的日常sop来对风险进行预防及快速响应。

吴宏松 网易 基础平台 资深服务端开发工程师

个人介绍:吴宏松,Curve开源社区maintainer,2015年硕士毕业,并于2016年开始在网易从事云计算基础设施相关工作,先后参与开发以及优化了网易第一代分布式块存储,Ceph以及Curve等。

演讲题目:国产开源分布式存储系统--Curve

演讲提纲:

1. CurveBS介绍

简要介绍CurveBS的架构设计,以及我们开始开发CurveBS项目的初心。

2. CurveBS结构设计特点

从CurveBS项目的一些特点展开介绍Curve,包括高性能,易运维,云原生,更稳定等,同时分享交流一些我们系统设计方面的一些取舍。

3. CurveBS应用案例以及开源现状

简要介绍下CurveBS的业务应用案列以及开源现状。

4. Curve roadmap

简要介绍下Curve近两年的项目规划以及社区规划。

听众收益:

1. 了解CNCF 分布式存储项目Curve的架构以及特点

2. 了解Curve的应用案例

3. 了解Curve的RoadMap

郭波 百度云存储高级研发架构师

个人介绍:硕士毕业于华中科技大学计算机专业,随即加入百度基础架构体系存储方向,长期致力于分布式存储/云存储架构/云存储产品的研发和推广,具备超过十年的相关经验。目前作为云存储部门高级研发架构师负责Aries存储系统的研发和演进,该系统作为云存储数据面底座,支撑了百度智能云多个云存储产品以及百度网盘的数据存储需求和快速发展,同时也负责了部分NoSQL数据库产品的演进。

演讲题目:百度云磁带库存储架构的设计与实践

演讲提纲:本演讲介绍百度云存储最新一代磁带库存储架构与设计,包括设计细节与实践案例。通过该演讲,听众可以获得一种成功落地的大规模应用磁带库的方案,并可以从中获得一些百度云在磁带库存储上的经验与思考,以及分布式存储在架构设计上的一些经验与思考。演讲内容大致分为以下4个部分:

1. 介绍企业级磁带与磁带库的特性及合适的应用场景;

2. 百度云存储数据面底座Aries系统的总体设计与概念;

3. Aries系统接入和应用磁带库的架构设计细节;

4. 一个实践案例的解析。

听众收益:

1. 企业级磁带和磁带库有哪些典型特性?有哪些适合的应用场景?

2. 百度云存储数据面底座Aries是怎么样设计的?

3. Aries如何接入和应用磁带库?有什么实践案例?

沈泰宁 PingCAP 分布式存储部门 高级软件工程师

个人介绍:

 TiDB 项目 committer

 TiDB 备份恢复

 TiDB 数据同步

 TiKV 项目 committer

 grpc-rs 项目 maintainer

 rust-prometheus 项目 maintainer

演讲题目:分布式事务型 KV 数据库 TiKV 的实现和实践

演讲提纲:在这次分享中,我们将会探讨 TiKV,一款支持事务的分布式 KV 数据库。首先,我们会介绍包括它的功能特性和应用场景;然后,我们将会阐述 TiKV 的架构和实现,了解它的分层设计,各层的算法和实现;最后,我们将讨论在过去几年的技术发展中 TiKV 遇到的挑战和解决方案。

听众收益:

1. 了解 TiKV 的使用场景和设计目标。

2. 了解分布式事务型 KV 数据库的架构和实现。

3. 了解 TiKV 过去几年实践中遇到的问题和解决方案。

扫描二维码免费报名

②大规模存储论坛

出品人:段立国 百度智能云 存储架构师

个人介绍:2011年硕士毕业于东北大学,毕业后一直在百度工作,10年存储开发经验,百度对象存储BOS技术负责人。

马井玮 百度智能云架构师

个人介绍:马井玮博士,毕业于南开大学,期间发表CCF A、B类论文多篇。2016年加入百度智能云,主导了百度沧海·存储的块存储CDS两大关键组件(Append引擎和EC引擎)的设计和实现落地,大幅降低PB级别块存储系统成本,实现性能的增长。

演讲题目:大规模块存储EC系统构建

演讲提纲:

数据容错方式比较

大规模块存储EC的技术挑战

百度沧海的实现方案和业务效果

听众收益:

大规模块存储系统EC引擎构建的难点以及百度智能云的技术解决方案

齐泽斌 美团基础技术部研究员

个人介绍:美团研究员,KV 存储和文件存储负责人,10 年以上分布式存储研发运营经验。2011 年天津大学毕业后加入百度,负责过分布式文件存储 MFS 和分布式 KV 存储 BDRP 研发及运营。2014 年加入美团,负责过分布式 KV 存储 Cellar、分布式缓存 Squirrel、分布式文件存储 EFS 等研发及运营,主要关注于分布式存储技术领域。

演讲题目:美团大规模 KV 存储挑战与架构实践

演讲提纲:KV 存储作为美团重要的在线存储服务,承载了在线服务每天万亿级的请求量,并且保持着 5 个 9 的可用性。为了更好的支撑业务发展,并优化性能、成本,我们研发出两套不同定位的 KV 存储系统。针对大数据量、高数据可靠性场景,研发了分布式 KV 存储 Cellar;针对高吞吐、低延迟场景,研发了分布式缓存 Squirrel。随着服务规模的快速增长,Cellar 和 Squirrel 各自又遇到了不同的可用性、扩展性挑战,并作出了不同的架构迭代。在本次分享中,将介绍美团 KV 存储 Cellar 和 Squirrel 在大规模场景下的可用性和扩展性挑战、架构实践经验,以及 KV 存储的技术发展趋势。

听众收益:

1.了解大规模 KV 存储的可用性、扩展性挑战,以及架构上的应对方法

2.了解分布式缓存和持久化 KV 的应用场景和技术架构差异

3.了解 KV 存储在当前技术趋势下的发展方向

何昱晨 小米高级软件研发工程师

个人介绍:何昱晨,本科硕士均毕业于中国人民大学。2017年硕士毕业后加入小米,负责分布式KV存储系统Pegasus功能开发、业务支持等工作。工作期间,独立开发了Pegasus Bulk Load和Partition Split两个大功能,向社区共提交超过200个patch,致力于不断完善系统功能、持续提升系统健壮性。在2020年Pegasus加入Apache之后,受邀成为Apache Pegasus PPMC。目前是Pegasus在小米的项目负责人。

演讲题目:Apache Pegasus的应用实现与未来规划

演讲提纲:介绍Apache Pegasus的整体架构,基本功能,典型用户场景和未来后续规划。

听众收益:

1. Apache Pegasus适用于哪些场景?

2. 如何参与到开源项目中?

黄华 蚂蚁集团图计算技术专家

个人介绍:深耕存储领域数十年,对底层存储设备,存储引擎,大规模数据库存储系统有深入理解。

演讲题目:基于完美哈希的面向读优化的存储系统

演讲提纲:

1. 基于完美哈希索引的批量更新存储系统及其在蚂蚁业务场景的应用;

2. 如何基于完美哈希构建高效率低成本的超大规模KV存储系统;

听众收益:

1. 基于完美哈希索引,打造索引空间小,索引效率高的点查存储系统;

2. 如何将基于静态数据集的完美哈希索引机制打造成可实时读写的存储系统;

郑鹏飞 百度智能云 高级架构师

个人介绍:博士毕业于中国科学院大学。目前是百度智能云文件存储方向的负责人,在分布式存储方向上有8年工作经验,在块存储、私有化对象存储、分布式缓存、文件存储等多个存储方向上都有研发和架构设计经验。

演讲题目:打造千亿文件量级的大规模分布式文件系统

演讲提纲:

1. 影响分布式文件系统扩展性的问题

2. 元数据系统的技术演进历史

3. 百度智能云 CFS 元数据系统的核心设计

听众收益:

1. 分布式文件系统难以扩展的本质问题是什么?

2. 分布式文件系统的抽象概括是什么样的?

3. 百度智能云是如何彻底解决元数据扩展性问题的?

扫描二维码免费报名

③数据存储应用实践

出品人:冯玮 字节跳动 大数据存储技术负责人

个人介绍:字节跳动大数据存储技术负责人,在分布式存储领域有 10+年技术与产品经验。目前负责字节跳动大数据存储产品的研发和运营工作。主要负责产品及方向包括 HDFS(自研),数据湖(存储)和 火山大数据存储加速产品等,涉及数十 EB 数据的管理和治理。

毛琦 小红书基础架构存储负责人

个人介绍:先后在emc、华为、阿里云从事存储产品的核心开发和架构师角色,目前在小红书负责nosql kv数据库、图数据库、newsql数据库的研发和架构演进

演讲题目:KV存储在用户画像和元数据存储方向的实践

田勇 字节跳动HDFS产品技术负责人

个人介绍:字节跳动HDFS产品技术负责人,参与过文件、对象、NoSQL等多个分布式产品研发,在分布式存储领域拥有10+技术经验。之前在百度负责Mola/Table等NoSQL产品的研发。当前主要关注字节HDFS产品的技术架构演进、成本优化以及数十EB的数据治理等方向的工作。

演讲题目:EB级存储规模HDFS在字节的探索与实践

演讲提纲:HDFS是字节内部历史最久远、体量最大的存储系统,存储规模达到数十EB,运营时间超过10年。支撑了大数据、机器学习、Flink/AP/MQ等多种近离线场景。伴随着字节系业务的发展历程,产品和技术经历了一系列的演进,形成了字节独有的特色:包括采用单一大集群多机房部署形态,通过C++重构版的NameNode/DataNode解决社区版存在的性能和启动效率等问题。构建分级存储体系,结合上层生态的数据访问范式管理数据在多级存储、跨AZ间的流动,降低数据存储成本,提升数据访问效率。此外,还进一步结合机器学习来识别用户的误删行为,提升数据安全保障等。本次分享主要围绕着字节HDFS产品在以上工作中的探索和实践展开:

1. 字节HDFS的新特性;

2. 多机房架构挑战;

3. 分级存储实践;

4. 数据安全防护实践

听众收益:

1. 字节c++重构版本的namenode/datanode引入哪些新feature?

2. 如何结合大数据生态实现海量数据精细化治理来保障业务稳定性,达到成本最优?

3. 多机房架构如何设计?如何解决跨机房访问带宽瓶颈?

4. 如何结合AI实现数据误删保护?

徐明敏 bilibili 基础架构微服务负责人

个人介绍:2011年毕业,先后在阿里、微软、触宝、字节跳动以及B站工作,主要从事分布式缓存/分布式存储/服务治理/可观测等相关工作。加入B站之后作为微服务方向Leader,主要负责服务治理/消息队列/负载均衡/可观测性等方向建设。个人对分布式系统,性能优化以及新硬件应用比较感兴趣。

演讲题目:B站日志平台架构演进

演讲提纲:主要内容为B站的日志平台如何从1.0走到现在3.0的存算分离/离在线统一架构的。其中遇到了哪些困难,在架构上做了怎样的抉择和思考,如何在有限的人力以及资源下完成降本增效目标。

听众收益:

靓点1:基于B站团队现状如何做技术选型和规划

靓点2:B站日志平台是如何实现离在线统一的

靓点3:B站日志平台是如何一步一步贯彻降本增效的


扫描二维码免费报名

④向量数据库架构与实践

出品人:郑伟 腾讯 大数据部平台部 Senior TechLeader

个人介绍:在推荐、搜索、广告领域深耕十多年,精通从正排、向量索引等基础架构到召回、混排等业务系统。目前负责腾讯推荐系统中台TRS的工作,服务腾讯内部十几个大小推荐业务。

徐华建 翼支付风险管理部总监

个人介绍:中国电信翼支付风险管理部总监,中国图象图形学学会视觉大数据专委会委员,多年视觉风控和内容安全算法及产品能力建设,目前负责翼支付视觉风控和内容安全相关AI能力建设。

演讲题目:翼支付在向量检索的应用与实践

演讲提纲:

向量检索是一种通过计算向量之间的相似度来进行信息检索的方法。它基于向量空间模型,将文本、图像等数据表示为高维向量,并利用相似度计算来快速检索相似的数据项。向量检索是向量数据库的一种应用,向量数据库为向量检索提供了基础设施和算法支持,使得大规模向量数据的快速检索成为可能。

向量检索在很多领域有广泛应用,如文本搜索、图像检索、推荐系统等。它在智能风控、电子商务、社交媒体、智能搜索等行业背景下发挥着重要作用,提供了高效的信息检索和个性化推荐功能,为用户提供更好的体验和效率。

本次演讲将分享如下内容:

1、为什么需要向量检索

2、什么是向量检索

3、如何进行向量化和检索

4、翼支付在向量检索中的应用

个人收益:

1、了解什么是向量检索

2、了解如何进行向量化和向量检索算法

3、了解翼支付在向量检索的应用案例

扫描二维码免费报名

⑤离线计算架构

出品人:路项浩 美团 计算引擎技术专家

个人介绍:美团计算引擎技术专家,2015年毕业于大连海事大学,曾就职于小米、360,2020年加入美团,关注大数据资源调度,离线计算等方向,目前主要负责Spark离线计算,Flink批能力建设,推动流批一体落地。

蔡灿 小米软件研发工程师

个人介绍:目前就职于小米,负责Spark稳定性、性能优化等相关工作。

演讲题目:Apache Spark在小米的生产实践

演讲提纲:

1. Hive SQL迁移Spark SQL

2. Multiple Catalog落地与应用

3. 离线场景下Spark的稳定性与性能优化

4. 未来规划

听众收益:

1. 了解Hive SQL的迁移手段与收益

2. 了解Spark在小米生产实践中的一些稳定性及性能倒退问题与优化方式

冯明潇 阿里云 高级开发工程师

个人介绍:在阿里云主要负责Spark引擎相关的优化工作,Apache Celeborn PPMC 成员。

演讲题目:Apache Celeborn 提升 Spark Shuffle 性能和稳定性的最佳实践

演讲提纲:本次分享将会分享 Apache celeborn 的设计细节,应用案例和未来规划,来阐述 Apache Celeborn 对于实现 Spark Shuffle 的性能优化以及稳定性提升的最佳实践。具体包括:

1. Celeborn 前世今生

2. Celeborn 设计详解

3. Celeborn 对 Spark Shuffle 的加速案例

4. Celeborn 对 Spark Shuffle 的稳定性提升案例

5. Celeborn 未来规划

听众收益:

1. 通过 Celeborn 缩短 spark 作业运行时间达 20%

2. 稳定支持每天 PB 级别 shuffle 数据量

3. 支持云原生 Spark

4. 多引擎支持, Spark 和 Flink 共享同一套 shuffle service 服务

刘俊宏 美团 技术专家

个人介绍:2015年加入美团。专注大数据分布式存储领域,先后负责HDFS、HBase服务和增量数据生产解决方案。

演讲题目:美团离线列式生产的探索与实践

演讲提纲:

1. 数仓宽表与特征数据生产

2. 列式生产特征与选型

3. 美团自研列式生产解决方案

4. 效果与未来规划

听众收益:

1. 特征数据与数仓宽表数据生产有哪些问题

2. 列式生产如何加速宽表生产

3. 列式生产落地方案细节

吴剑亮 bilibili 资深开发工程师

个人介绍:研究生毕业于南京大学,一直专注于大数据组件开发,目前在b站负责离线调度,在离线混部。

演讲题目:B站大数据集群混部实践

演讲提纲:B站在应对资源需求增长和降本增效时的一些做法:

1. 背景介绍

2. 混部架构

3. 主要实现和优化

4. 效果和收益

5. 总结和展望

听众收益:

1. B站如何同时保障业务资源需求增长和降本增效

2. 多种场景下大数据混部的挑战和优化

3. 如何保障混部的稳定性

扫描二维码免费报名

⑥实时计算架构

出品人:李劲松 阿里云 高级技术专家

个人介绍:阿里云开源大数据表存储团队负责人,负责 Apache Paimon 的研发和产品,硕士毕业于电子科技大学,Founder of Apache Paimon,PMC member of Apache Flink,Committer of Apache Iceberg&Beam。先后从事分布式流计算、分布式批计算、湖存储,目前专注于流式湖仓一体的技术

邵良开 淘宝数据平台数据技术专家

个人介绍:淘系大促决策支持数据产品负责人,双十一大促数据侧横向总PM,主导集团内实时引擎从Blink升级到Flink,并沉淀实时相关配套稳定性产品和解决方案。

演讲题目:淘系大促实时稳定性保障

演讲提纲:以淘系营销活动产品保障工作为切入点,介绍在大促这个极限场景下对实时链路进行稳定性保障的相关工作。

1、营销活动产品介绍(产品定位,影响范围,访问人数)

2、业务背景和面临的问题(20点开卖场景下,流量峰值叠加爆发对于稳定性保障的难度)

3、解决方案

实时全链路链路容灾能力建设:TT(输入)->Flink(计算)->Holo(存储)->FBI(展现)
压测模式优化(真实数据,工具平台建设)
流程模拟预演(特殊场景保障方案)

4、整体效果(业务效果,平台工具沉淀)

5、未来展望

听众收益:

1、极限场景下的实时压测解决方案

2、存储层holo库的使用、优化和保障方案

3、某些特殊场景保障案例

闵文俊 蚂蚁集团技术专家

个人介绍:毕业于南京理工大学,毕业后一直从事大数据相关工作,2019~至今在蚂蚁集团从事实时计算引擎开发工作,目前主要负责蚂蚁流批一体和数据湖相关工作

演讲题目:Flink流批一体在蚂蚁的落地

演讲提纲:

流批一体的场景介绍

流批一体的问题

流批一体相关优化

听众收益:

了解流批一体如何在生产实践中为业务提效

了解流批一体落地过程中的问题与挑战

伍翀 阿里云Flink SQL 负责人

个人介绍:伍翀,花名云邪,阿里巴巴高级技术专家,阿里云 Flink SQL 负责人,Apache Flink PMC member & Committer,Flink CDC 创作者之一。长期以来一直专注于流处理、批处理领域。

演讲题目:Apache Flink:从流式计算走向流式数仓

演讲提纲:随着近些年的实时计算技术的发展,越来越多的用户开始基于Flink等技术构建实时数仓,但是当前典型的实时数仓架构有着诸多的问题。为了解决这些问题,Flink开始从单纯的流式计算,往流式数仓方向演进。本次分享将介绍 Flink 在这一年中在流式数仓方向取得的一些进展,包括 Paimon 的孵化和一体化打造,更稳健的流计算,Batch性能的大幅提升,完善的数据管理功能,SQL的服务化等等。也将会分享 Flink 接下来在流式数仓方向的思考和未来规划。

听众收益:

1. 实时数仓如何选型

2. 实时数仓未来的发展趋势

3. Flink 最新特性的概览和剖析

4. Flink 未来的发展规划

傅宇 RisingWave Labs数据库开发工程师

个人介绍:傅宇,毕业于南京大学计算机系,数据库及基础架构开发者,拥有7年数据系统研发经验。现任 RisingWave Labs 数据库内核团队 Team Leader,负责 RisingWave 流数据库的设计与研发。曾任阿里云 PolarDB 分布式数据库高级技术专家、Splunk 软件开发工程师。《数据库系统内幕》中文版译者。

演讲题目:RisingWave 云原生流数据库技术内幕

演讲提纲:

什么是流数据库

RisingWave的设计理念

RisingWave的云原生架构解析

RisingWave的应用实践

听众收益:

如何借助流数据库降低流计算的开发和运维成本?

如何在最短的时间内搭建一套实时计算基础架构?

如何借助云原生技术降低流计算成本?

刘卓 滴滴研发

个人介绍:多年的实时计算相关经验,现主要负责滴滴实时计算引擎flink从on yarn切换至on k8s的相关工作。

演讲题目:Flink on K8S 在滴滴的实践和经验

演讲提纲:本次演讲主要介绍了滴滴从flink on yarn切换到flink on k8s的路程,包括了各组件的选择,引擎的改造和优化等各方面的实践和经验。

听众收益:

1.介绍flink从on yarn 切换到on k8s的好处

2.如何改造flink,以便更好的运行在k8s上

3.flink on k8s 稳定性相关的优化介绍

扫描二维码免费报名

⑦大规模计算架构

出品人:潘臻轩 蚂蚁集团 资深技术专家

个人介绍:潘臻轩,蚂蚁金服资深技术专家,现负责蚂蚁图计算部门流式图计算团队。2012年加入阿里集团数据平台,2016年加入蚂蚁集团数据技术部,经历了阿里和蚂蚁实时计算从0到1的演进,从17年底开始负责流式图系统和团队的构建,从0到1打造了蚂蚁的流式图系统。对实时计算和图计算以及上层的应用场景有深入的理解。

王勇 微信实验平台负责人

个人介绍:微信实验平台负责人,数据科学专家,同时负责工程和算法团队,发表多篇实验领域顶会文章。

演讲题目:数据科学计算平台(All in SQL)

演讲提纲:业界缺少分布式数据科学计算平台,我们研发一款亚秒级的数据科学计算平台,用户可以基于海量数据编程运行 概率统计, AB 实验,因果推断等算法模型。

听众收益:

了解可以编程的分布式数据科学平台

吴涛 蚂蚁集团图计算高级技术专家

个人介绍:15年硕士毕业于北航,目前担任蚂蚁集团流图计算Geaflow State方向负责人,高级技术专家。具有多年流状态管理和图状态管理研发经验,现阶段专注于流图计算 State存储研发方面工作。

演讲题目:蚂蚁流图计算引擎Geaflow图状态演进之路

演讲提纲:GeaFlow是蚂蚁集团开源的分布式流图计算引擎,目前广泛应用于金融风控、社交网络、知识图谱以及数据应用等场景。流式图计算相比离线图计算提供了一种高时效性低延迟的图计算模式。本次分享主要是基于自己在Geaflow 中研发图状态中遇到的一些问题以及如何在大规模数据下设计可靠的图状态管理,帮助大家能够从更清晰地去认识这个流图计算这个方向以及图状态管理的设计,并介绍我们在蚂蚁业务场景中的一些实践案例。主要内容包括:

1. 流图计算以及Geaflow介绍

2. Geaflow图状态管理演进

3. 流图计算在蚂蚁的实践

听众收益:

1. 流图计算引擎是什么

2. 蚂蚁大规模流图计算实践场景

3. 如何设计大规模数据下的图状态

宋顾杨 蚂蚁集团 技术专家,Ray 开源社区 Committer

个人介绍:蚂蚁集团技术专家,Ray 开源社区 Committer。2015年加入蚂蚁集团,一直从事基础架构方面的工作。2017年以来主要参与和推动了Ray在蚂蚁从0到1再到万台服务器规模的落地。开源社区方面,是 Ray C++ 分布式框架的作者和 Runtime Environments 框架的主要开发者,也是 Ray 中文社区的布道者。

演讲题目:云原生场景下如何利用 Ray 快速构建分布式系统

演讲提纲:云原生场景下的分布式系统构建具有一定的复杂性,这里的复杂度主要可以从两个方面体现:复杂的技术栈和多种编程语言。Ray 作为新兴的分布式基础设施,在 Core 层的设计上致力于降低分布式系统开发的复杂度,可以帮助开发者基于云原生环境快速构建高效可靠的分布式系统。本次演讲将通过实例剖析 Ray 的核心能力,并介绍 Ray 开源社区的最新进展。

听众收益:

1. 云原生场景下,分布式系统构建的复杂性分析?

2. Ray 如何降低分布式应用的研发成本?

3. Ray 开源社区的现状?在 AI 大模型等领域的发展?

扫描二维码免费报名

⑧数据计算应用实践

出品人:刘一凡 快手 大数据分析平台技术负责人

个人介绍:2020年加入快手,当前为快手大数据分析平台中心技术负责人,过去有大数据和搜索领域实战经验,主导过美团、快手多个大数据相关领域系统从0到1的建设。持续深耕大数据中台领域,保持对大数据开源技术以及发展趋势的高度关注。

扫描二维码免费报名

▌关于我们

DataFun 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过500场线上线下沙龙、论坛及峰会,已邀请近1600位专家和学者参与分享。旗下公众号 DataFunTalk 累计生产原创文章1000+,百万+阅读,17万+精准粉丝。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复