聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

大数据新一轮革命开启:数据云才是真正的未来

2021-11-01 16:09 浏览: 3124 次 我要评论(0 条) 字号:

嘉宾 |孙元浩
采访 |霍太稳
编辑 |赵钰莹

“2017 年之前,数据大多在本地;2017 年之后,越来越多的人开始在云上使用大数据。转年,我们发布了数据云的第一个版本。”

“2020 年,Snowflake 上市,股价曾一度飙涨到每股 400 多美金,越来越多的人开始注意到这家公司的数据云平台。此时,我们的数据云平台已经迭代了几个版本,并均付诸实践。”

在此之后,我们看到越来越多的大数据厂商开始在数据云领域有所尝试,Snowflake、Databricks 这样的厂商受到的大众和资本关注越来越多。此时的国内市场,星环科技已经默默开启耕耘数据云平台的第三个年头。

纯技术创业这件事儿本身是很难的,这么多年来,技术风口一直在变,创业者得始终保持着敏锐度才不至于走向落败。而风口这东西一旦出现,想追的人可太多了,预判才有机会杀出重围。

在大数据领域创业 12 年,眼见计算引擎经历了数轮迭代,云原生兴起砸中了一批做容器的,数据云因为 Snowflake 上市走入大众认知,回回都能在风口到来前两三年做好布局,这是一种什么判断和体验?本期 C 位面对面,我们邀请到了星环科技创始人兼 CEO 孙元浩,二度做客 InfoQ 的 C 位面对面,这位在基础软件领域创业八年,靠着精准踩点扛过大数据领域数次革新的技术人有哪些心得想要分享呢?

1 大数据时代的初颠覆,从计算引擎开始

在大数据的发展历史上,Hadoop、Spark 绝对是不容忽视的存在。

如果你问开发者:“这些大数据引擎或框架怎么样?”,十年前和现在得到的答案可能完全不同。

十年前,数据大多存储在本地,选择云服务的厂商寥寥无几;十年后,云计算的到来让数据云开始走进企业。计算引擎在这个过程中经历了数轮迭代,应用形式也越来越丰富。

孙元浩整个团队从 2008 年就开始对大数据市场做调研,2009 年投入研发。

彼时,国内的云计算建设刚刚兴起,云厂商开始尝试在各地建立数据中心,将数据进行集中管理,此时还没有人会料到十年之后将迎来数据云的时代,但大家已经发现需要一个高效的数据处理引擎,需求由此诞生。2012 年,国内对大数据需求出现大规模井喷,孙元浩的创业之路由此正式开启。

创业之初,整个团队就已经意识到了现有方案的局限性,而业界对此达成共识已经是三年后了。

“从市场机会来看,2013 年其实都有点晚了,运营商、金融机构那时已经对大数据需求明显增大;从技术本身来看,传统的集中式计算已经很难在性能上有所提升,必须横向扩展,我们当时就判断未来的 10 年将会是分布式系统的天下,从底层操作系统到上层数据库、中间件、分析软件、应用软件都将据此发生重构。”

既然意识到了局限性,也对即将发生的变化有所预判,孙元浩带着整个团队开启了重构之路。团队提出的第一个目标是希望可以用一个计算引擎处理不同的数据量,那时主流的厂商还在推混合架构,孙元浩团队则基于 Spark 的早期版本重新开发了计算引擎。随后几年,团队又摒弃了 HDFS、YARN 等框架,重新构建了分布式存储管理系统、资源管理器、编译器等,实现了大幅重构。

“我们不是为了替代而替代,而是为了实现现有框架无法解决的问题,并附加更多功能,比如数据一致性、兼容 Oracle、DB2 等。”

当业内在 2015 年对现有方案的局限性达成共识并寻找替代方案时,星环科技的 TDH 很自然就进入了公众视野。随后几年,TDH 每年都会进行一次大的版本更新。

重构大数据引擎让星环科技在国内大数据发展初期占到了先机,但远未到终点,云计算的到来为大数据行业又带来了新的变化。

2 云来了,大数据有了新的革新

“当所有人希望在云上使用大数据时忽然发现原有框架设计模式中存储计算高度耦合,但从云原生的角度来看,存储和计算资源完全独立存储才有希望达到极致性价比。”

当时,Hadoop面临诸多争议,市面上唱衰声音不断。很多分析文章将这种“颓势”与云计算的发展结合了起来,云计算带来了数据处理的新方法,同时让存储变得更加廉价,且用户体验获得了成倍提升。

在这个时期,星环科技转而用容器化实现更好的资源隔离,并推出了大数据云平台 TDC,引入了 DevOps 等云原生最佳实践技术,可以将数据和业务直接打包成微服务对外提供。基于 Kubernetes 框架,实现了调度层、网络层和存储层的统一,可支撑所有大数据计算引擎。

然而,这些变化在孙元浩看来都不是革命性的,云厂商基于推广存储产品的目的可能会在宣传时有一定夸大,从技术本身来看,存储计算的解耦从 Spark 时期就开始了,这些改变只是带来了使用模式的变化。

走到这一步,星环科技已经实现了创业初期制定的两个大目标:提供一站式的平台替代混合架构和处理多种数据模型,并朝着第三个目标继续前进,也就是让数据形成生态,用户在这个巨大的数据商城中实现服务共享。

因此,数据云出现了。

3 国外有Snowflake,国内有星环科技

2020 年 9 月,Snowflake 正式登陆纳斯达克,首日 IPO 筹资高达 33.6 亿美元,是有记录以来金额最大的软件 IPO。在 Oracle、Teredata、开源软件 Hadoop、云厂商 AWS、Google 等巨头林立的大数据市场,Snowflake 的脱颖而出引发了圈内的重要关注,而市场很快发现 Snowflake 得以成功的关键点之一是其打造的企业数据云平台。

在数据云的概念走入大众视野的两年前,星环科技已经发布了数据云的第一个版本,目标就是将数据、应用、分析等生态化,用一个平台解决所有问题,从技术角度来看,这也是未来的发展方向之一。那么,“数据云”到底应该如何理解呢?

虽然名字一样,但孙元浩认为国内外所构建的“数据云”不尽相同。从市场趋势来看,企业通常会把数据进行高度集中,这些数据不仅开放给某个团队,也会面向整个集团用户、分公司及供应商,客户起初可能会为了开发一个应用买一个大数据平台,但一段时间之后就会发现这种方式的单点创新不够,因为平台建设越来越多,所以大家逐渐过渡到了集中化建设,这种方式带来的问题是不同负载要求的计算资源和存储资源不同,因此需要独立扩展,拥有云计算弹性扩缩容的特点;软件栈可以保证层之间的解耦合,每层均独立扩展;由于使用对象较多需要保证资源之间的良好隔离,互不影响;数据生态化,应用开发需要数据支持,数据集中后,应用也会跟着过来。

星环数据云基于云原生、大数据和 AI 技术构建,通过统一的云操作系统层支持异构的 CPU 和操作系统,既可运行于私有云、公有云和混合云等各种 IaaS 之上,也可脱离开 IaaS,直接运行在物理机上,能够以多租户和服务的方式提供对数据库、数据仓库、数据湖、数据工程、数据科学家和数据应用开发等多种数据工作负载的支撑,同时提供低代码平台、DevOps、微服务治理等能力,加速企业数据和应用上云。

怎么上数据云?

在技术架构上,数据云与过去采用 Oracle 等数据库的方式还是不同的,原有方式的物力资源是固定的,个别客户此前将大数据平台搬到了私有云上面,这会对数据云的部署带来一定阻力,因为已经有了一部分原始投资,这类用户常见的部署方式是新建数据云平台,用来做公司和集团内部的数据共享,定位为服务平台的入口,相较于容器技术,虚拟化会造成百分之三十至百分之四十的性能损失。

当然,也有少数企业会选择直接基于系统进行建设,将分散在各地的数据进行大集中,这种方式带来的首要变化就是数据安全得到了加强,原来数据分散在各地,一旦发生数据泄露很难追溯。在《数据安全法》颁布实施之后,企业对数据安全尤为重视,数据云平台将数据进行集中管理,极大加强数据安全。

“数据安全可从技术和管理两个层面进行加强。从技术角度来看,星环科技的数据云平台增加了授权、访问控制、审计、数据追溯等功能,如对外开放数据可事先进行数据脱敏,加强隐私保护,在数据中添加噪音,使用隐私计算和同太加密等技术确保数据在密钥状态下被使用,这方面其实诞生了一系列新技术,包括联邦学习等。从管理角度来看,用户逐渐意识到需要建设一个专门的团队对数据进行管理,数据云平台是一个庞大的系统,不仅需要建设也需要运营。”

星环科技从 TDH 到数据云,大数据的整体趋势从Hadoop、Spark等大数据平台到基于云原生的数据云,越来越多的商业软件在大数据领域发挥着重要作用,开源领域却再难出现明星级的开源项目,这是为什么呢?

为什么越来越难看到大数据领域出现明星级开源项目?

大数据领域再无明星级开源项目出现究其原因是好项目需要的研发投入越来越大。

大数据领域发展到现在,除非新系统可以达到比现有方案快一个数量级以上才会吸引大家的注意,这就需要巨大的研发投入,很难靠个人或者单个团队来完成,这就造成了最近几年开源软件很难跟商业软件进行 PK,虽然也有类似 ClickHouse 这样引发了一阵关注的计算引擎出现,但其功能非常受限,稍微复杂的 OLAP 分析就会导致性能下降。

这给商业软件带来了机会,也在一定程度上让大众对这类基础设施的要求逐年升高。创业八年,星环科技如何完成自身的逐级突破呢?

4 基础软件创业 8 年,如何精准“踩点”?

2015 年,业界对 Hadoop 的局限性达成共识;2013 年,星环科技就已经开始布局自己的大数据平台 TDH。

2017 年,业界开始关注云原生;2015 年,星环科技就在鼓捣自己的 TDC 大数据云平台。

2017 年,AI 技术变得非常火热;2013 年,星环科技就推出了自己的数据开发与智能分析平台。

2020 年,业内因为 Snowflake 的上市而开始关注数据云;2018 年,星环科技推出了自己的数据云平台。

类似提前布局的案例在星环科技创业的八年中还有很多,孙元浩似乎并未特别注意这一点。

“之前经常有人开玩笑说星环科技融了那么多钱都花到哪里了,我们大部分都用在了技术研发上,我们的 TDH 平台八年实现了八个大版本的更新。我们本身是一家开发基础软件为生的公司,我们必须要有自己的独特性,不能抄袭,并需要在市场中具备竞争优势,虽然用户可能不会关心你具体的实现过程,但对我们而言,只有原创才可以形成差异化竞争优势,才能够更优雅得解决用户问题。”

如果一定要总结原因,孙元浩认为就是两点:市场需求和技术驱动。这两点大家都懂,做得好却不容易。技术上,星环科技一直在追求更优美的架构,更高的性能,从而推动了产品的逐年更新;市场上,无非是洞察客户需求,如果你收集到的客户需求足够多,就会很容易分辨出其中的共性需求和个性需求,从而更好地指导产品开发。

“这两者可能有联系,也可能没有。过往多年,我看到了很多商业上成功的案例,大多集中在商业模式创业上,这种方式还是可以带来收益的,但已经接近天花板,下一个阶段可能只有靠基础技术上的硬碰硬才能持续走下去,真正在商业上获得成功。”

“我相信国内的基础软件市场在未来 20 年一定会发生变化,国产软件一定可以异军突起,占据一定的市场空间”。

八年前就是抱着这样的信念,孙元浩带着几个人冲进了这片市场,因为对技术原创性的追求而不断革新自己的产品,技术上渐入佳境之后又开始投入基础软件人才培养的大军中。作为一家纯粹的基础软件领域的技术创业公司,星环科技的发展无疑是快速的,但面对镜头,孙元浩很实在地表示:“我们其实也有尝试失败的时候,只是你们没看到而已。正是经过了这些或失败或成功的尝试,我们对客户和市场才有了更深入的理解,同时保持对技术的敏感性,在市场和技术的双重驱动下,最终做出了原创的、创新性的开发”。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复