1. 常见的数据分析场景
2. 数仓建模方法
3. 数仓建模方法的优劣势
分享嘉宾|贾毅宁 360数科 数据生态总监
编辑整理|王鹏 滴滴出行
出品社区|DataFun
01
常见的数据分析场景
数仓建模方法
用户空间:以音乐播放为例,用户在APP上的操作会产生行为日志,比如广告请求、曝光、点击,APP打开、用户注册和播放、下载歌曲等操作日志。 数仓建模:我们将用户的行为日志采集过来,形成ODS、DWD层的表,再往后是各个主题表。不同业务团队会创建自己的业务宽表,从用户空间中抽取感兴趣的事件放到各自的主题业务宽表中。 主题应用:再往下是这些主题宽表所支撑的业务,比如报表建设、特征挖掘、机器学习、OneID系统建设等等,最终为增长团队、经营团队和产品团队等提供支持。
数仓建模方法的优劣势
1. 优势
方法论成熟 : 已经在无数的公司中被验证过,更有像《阿里巴巴大数据实践》《Building The Data Warehouse》 等优秀的指导书籍。 技术栈成熟: 无论是从消息中间件、数据ETL管路,数据湖、数据仓库、数据集市的各种选型等,工业界已经诞生了无数优秀的框架和数据库。 l技术供应商支持完善:Google,Amazon,Microsoft,阿里云,腾讯云等供应都提供几乎一站式的服务。 技术人才供给: 各个互联网公司都有数据仓库建模的需求,人才供应充分,培养体系完备。 公司推动阻力小: 数仓的重要性经历了充分的市场教育,推动起来会比较顺畅,投入产出比也比较好阐述。 应用场景:适合指标类的多维分析数据运算。
2. 劣势
建设链条长: 数据采集->ODS->DWD->DWT->数据报表和应用。 数据一致性保证有挑战:不同数据主题之间会有指标和字段的重合,在工程和业务之间,不同的工程团队之间都可能造成理解的偏差。 扩展字段流程复杂:表结构需要预先定义, 扩展新字段往往需要较长的开发周期和回溯数据周期。 工程实现很难统一: 架构评估往往取决于承接的工程团队的过往经验和喜好,同样需求的实现差异较大。 不适合时序行为数据分析:因为需要按照用户维度shuffle和开窗,用户行为分析往往比较耗资源。 预聚合不够灵活:当维度不能命中预聚合的维度时,查询会退化成全表聚合。
面向行为分析的分析方法-概念
用户空间:和数仓建模一样,这部分不变 用户事件序列:和数仓建模方式不同,我们这里不将用户的行为日志抽象到ODS、DWD层,在这里将行为日志数据抽象成用户事件序列,比如对于播放歌曲事件会包含用户属性和事件属性,用户属性回答谁在什么样的设备上这个问题,事件属性回答这个人主要做了什么事, 这个事我怎么去描述它。对于所有事件,我们都可以用这两种类型的元数据来描述这个事件,在一个时间轴上串起来,就可以知道这件事是谁做的,以及做了这件事后发生了什么 事件抽象:有了用户序列的抽象,我们可以聚焦一下,看某个人在某个具体事件序列上的抽象。比如图中会员升级的例子 用户群计算:有了事件抽象之后,最重要的就是我们怎么使用这些数据,我们可以利用这些数据来获取新增用户群、活跃用户群以及满足X条件的用户群等等
传统数仓的解决方案:主要是写一个SQL来看7天前的新增用户在今天的活跃用户中是否有,如果有的话,7天的新增用户作为分母,今天的活跃用户作为分子,除出来一个比例计算留存率。但是可能在数仓里面,一条记录并不是用用户的ID来划分的,所以最终想要计算出用户ID的结果会有一个shuffle、关联、数据倾斜的过程,这都是在传统输出解决方案当中我们需要去考虑的一些点。 行为分析的解决方案:这是另外一种简化的计算用户留存的方式,本质上是在图中的三个圈圈选的用户中做计算,三个圈的交集就是7天前的新增用户在今日活跃用户中的比例。我们将复杂留存SQL转成了三个用户群之间并集和交集的计算。
面向行为分析的分析方法-整体架构
1. 列存储
2. 元数据
3. OneID
4. 缓存层
5. 用户数据访问层
面向行为分析的分析方法-分析举例
回顾
分析了行为分析和指标分析的主要差异 阐述了数仓建模方式的优劣势,更适合用来做指标分析 阐述了行为分析的主要概念和分析思路的不同 阐述了行为分析系统建设的主要层次 阐述了行为分析系统每个层次的主要应用的技术 阐述了行为分析的主要支持的三个分析场景
分享嘉宾
INTRODUCTION
贾毅宁
360数科
数据生态总监
Adobe: 负责中国区DVA团队视频处理核心模块的研发工作,支持产品线包括PremierePro,AfterEffect等。
奇富科技:数据智能部工程团队负责人,方向包括RTA,特征管理,模型管理,IDMapping,联邦学习,金融垂直大模型训练等。
▌2023数据智能创新与实践大会
4大体系,专业解构数据智能
16个主题论坛,覆盖当下热点与趋势
70+演讲,兼具创新与最佳实践
1000+专业观众,内行人的技术盛会
欢迎大家,扫码加好友,限时领取8折购票优惠(立减¥1000)
网友评论已有0条评论, 我也要评论