聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

无代码数据接入和集成——QuickTable实践探索

2023-01-17 20:00 浏览: 2134860 次 我要评论(0 条) 字号:

上下滑动查看⬆️⬇️,查看《数据智能知识地图》数据治理板块(点击可看大图),关注公众号“大话数智”,下载完整版知识地图

导读:随着时代不断发展,数据量越来越大,导致技术栈越来越复杂,业务情况也越来越复杂,部门之间、角色之间的协同也变得更加困难。数据的质量也经常不尽如人意,随之而来的数据清洗、整合工作也越来越多。在数据上投入很多的成本,然而要从业务上看到效果,并非立竿见影。基于业界各种问题,我们总结经验开发出了一款在线的表格化的数据处理工具——QuickTable。

主要包括以下几部分内容:

  • QuickTable 简介

  • 多平台电商数据整合分析

  • 多渠道广告数据整合分析

  • 发展方向

分享嘉宾|张夏天 QuickTable 联合创始⼈

编辑整理|刘步龙 硕磐科技

出品社区|DataFun


01
QuickTable 简介
首先介绍一下当前业界数据处理存在的问题,以及 QuickTable 产品。

上图是关于企业对数据工具需求的一个报告,可以看到当前业界所面临的各种问题。数据量越来越大,导致技术栈越来越复杂,业务情况也越来越复杂,部门之间、角色之间的协同也变得更加困难。数据的质量也经常不尽如人意,随之而来的数据清洗、整合工作也越来越多。在数据上投入很多的成本,然而要从业务上看到效果,并非立竿见影。各种复杂问题在共同推动数据工具的进一步发展。

上图展示了一个简要的决策支持的数据应用的流程。从数据源一直到最终的决策报告,要经过很多步骤,经过很多部门、很多角色。看上去是一个线性的过程。但实际上这一个流程走下来,并不能代表大功告成。因为可能结果到达领导层后发现由这个数据得到的结论跟他们的认知不太一样,或者有明显的错误。那这个过程就必须推翻重来。为了把数据应用的成本降下来,让真正需要使用数据的人能够以更低的成本、更快捷地、自助式地把数据用起来,就诞生了类似 excel 这样的工具。
随着数据量的不断增大,原来电子表格的模式暴露出一些明显问题。第一个是容量有限,第二个是数据逻辑组织分散,第三个是单机存储协同困难,第四个是不能快速连接各种数据源。

QuickTable 的核心理念就是用表格这种形态去连接一切数据源或者数据消费端。我们的一个基本的出发点,就是要连接各种各样的数据源,有技术性的,也有业务性的,有云上的湖仓的存储的,还有 BI、飞书等等。用表格连接一切,真正做到无代码。
QuickTable 具有五大特点:快连接,快探索,快建模,快处理和快协同。

第一大特点:快链接。QuickTable 可以连接技术性的数据源,现在也正在去连接各种业务性的数据源。数据分析师、业务分析师可以自助连接各种数据文件、数据库、API。

第二大特点:快探索。QuickTable 提供了一种很好的数据探索的体验,人人可以 0代码进行数据探索,理解数据内容,发现和纠正数据质量问题。目前版本的数据规模可以达到 1G,百万行级数据处理的查看达到秒级响应。数据处理的过程会按顺序记录下来,很好地组织处理逻辑,也可以随时看到每一步数据处理的结果。

第三大特点:快建模。之前编制好的许多步骤可以非常迅速的转换为 SQL,直接拿到对应的平台去执行。除了 SQL 之外,还可以自定义函数,并且注册到对应的平台之后就可以直接使用。

第四大特点:快处理。让数据工程师可以按需加工数据,我们自己研发了一个基于内存的存储引擎,并且是云原生的,可以弹性的扩展计算能力。

第五大特点:快协同。支持更强的团队协同能力,类似于飞书的协同能力,可以把数据的处理过程分享给同事。未来在每个节点还会增加许多文档,让用户都能协同开发。

上图展示了一个实例,在引入 QuickTable 之后,工作模式发生了变化,使得数据处理工作大幅提效。工作量由三个团队的三天工作量缩减到一个人两个小时的工作量。

我们的产品包含了很多技术创新点
首先基础设施是云原生的。计算侧是一个完全自研的内存引擎。这个内存引擎的优势并不在于它是一个多大规模的数据训练集,而是我们为了去优化交互式数据处理体验而去做的高速响应的能力。中间做了一个转译层,我们用一种自己的 tsl 层去做这个 neutral 的数据处理的语义层。一方面可以直接转成我们内存引擎执行的各种脚本来执行,也可以把它翻译成不同的执行引擎去执行。这样在我们的平台上用户无代码编织的这些处理逻辑,都可以很容易地对接到不同的处理平台上去。上面还做了很多优化的工作,比如 AI 增强等等。

02

多平台电商数据整合分析
接下来介绍利用 QuickTable 和其他无代码工具协同处理数据的例子。首先是一个多电商平台数据整合分析的例子,这里的数据指的是前台搜索出来的公开的数据。

比如淘宝、拼多多、京东、唯品会四个电商品牌,我们想要搜某个品牌的数据,看一下每个平台上该品牌的数量、平均价格等。数据采集用八爪鱼采集器。采集到数据后,放到 QuickTable 来进行数据清洗和数据分析。
比如在京东上面搜索了京东的某个品牌,复制浏览器里面的搜索链接,在八爪鱼首页里面直接粘贴链接,然后开始采集,就进入到了一个采集流程构建的界面。这里可以手动构建,但手动构建难度较大,所以提供了自动识别功能,一键就可以把可能的采集模式识别出来。一般运行几十秒就可以确定。这时可以看到下面列出了要采集的数据,没有问题就可以点击采集,它就可以自动开始采集了。采集完后可以导出成  CSV 文件。
在采集到数据之后,我们进入 QuickTable,首先新建数据文件夹,接着导入数据。

导入后打开,即可进行数据清洗和合并处理。清洗一定是在合并之前。

处理过程可以生成对应的 SQL 语言。
03

多渠道广告数据整合分析

接下来是我们内部多渠道广告数据整合分析的案例。我们在 Google、YouTube 和Facebook 上都有广告投放,需要将不同平台的数据放到一起对比。我们采用了无代码接入工具 Fivetran,将数据接入到 snowflake,QuickTable 可以直接连接 snowflake,进行数据处理。最后的数据展示是用了飞书的多维表格中的 dashboard。

Fivetran 目前提供了 160 多个接各种数据源的 API,数据可以通过它无代码的接入。

之后 QuickTable 把 Snowflake 中的数据加载到 QuickTable 中。配置好连接以后,我们就可以在上面访问自动数据连接,去找我们需要导入的数据,把它导到我们的 QuickTable 里面来。

接入数据之后就可以按照 QuickTable 的方式进行数据处理。把 Google 和 Facebook 的数据合并,导出到 CSV。

最后在飞书的多维表格上展示。这样就可以贯穿来看不同平台的指标了。
04
发展方向

未来的发展方向主要有三方面:
  • 第一个是支持更多的连接:完善技术连接和添加更多的业务连接;
  • 第二个是提高自动化程度:处理过程的自动调度,与其他平台/产品协同;
  • 第三个是更加智能化:数据处理智能增强,数据治理智能化和产品体验智能化。
05
问答环节
Q:QuickTable 是否支持私有化部署?
A:首先我们的整个架构是按照云原生设计的。但是也是可以私有化部署的,只不过不在技术预研中,目前是没有这个能力的,不过可以在后续版本中接入。
今天的分享就到这里,谢谢大家。


|分享嘉宾|



张夏天

QuickTable 联合创始⼈

北京快用云科技术有限公司联合创始人,前TalkingData首席数据科学家,曾在IBM、腾讯,华为等公司担任算法工程师和研究员。目前负责快用云科的数据工具产品智能化, 产品PMF等工作。


|免费电子书|

|商务合作|

|往期文章精选|

1. 基于StarRocks,百草味如何通过数据赋能快消品行业

2. 向量数据库及Embedding流水线

3. Intel® BT:桥接ARM与X86,从源头解决开发者的后顾之忧

关注公众号,下载大数据、AI免费资料⬇️



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复