编者荐语:
关注“大话数智”,下载《数据智能知识地图》
以下文章来源于大话数智 ,作者张老师&黄老师
大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。
图算法技术的产业落地尚处于初期阶段,其中,图数据规模大,图算法复杂性高,在应用场景方面还在持续探索中,在基础设施方面则需要面临许多性能挑战,很多学术前沿技术则还未能大规模落地,甚至对一些概念,业界与学界并没有共识。
本文整理自DataFun对两位图算法专家的访谈,帮助读者理解图算法技术的应用现状、挑战。
在下文中,我们将依次按照图算法在数据、算法、应用、流程方面的落地情况,并在最后总结讨论未来趋势。
引言
DataFun社区|出品
数据智能专家访谈 第05期|来源
01
图数据
但据专家在实际研究工作中的观察,图机器学习在对图数据进行补全的时候,效果经常并不尽如人意,总会出现一些长尾的节点,这些节点即便在引入大量图数据之后,可连接的其它节点仍然很少,因此补全效果不佳。
▼
02
图算法
图算法的复杂性根本上还是源于图数据的复杂性,专家指出,图数据的一大特点在于动态性和异质性,这在业界也是比较常见的问题。
图数据包括动态图、超图、异质图等类型。在业界,动态图天然地存在,典型的包括日志数据,这类数据对于风控很有价值。关于超图的学术研究目前比较热门,但在业界的应用则很少。
动态图由于涉及持续更新,需要基础设施支持图数据的动态更新,这在落地中一般会成为难点。并且,更新的时效性有多个级别,比如秒级、分钟级、天级,不同级别的系统之间有很大差别。
相对地,异质图的应用技术则较为成熟,毕竟业界的大部分图数据都是异质图。而像有向图、无向图等在实际应用中,其实并没有逻辑上的不同。
由于图算法的复杂度比较高,落地成本比较大,需要注重成本和收益的平衡,这也是图算法在落地时的最核心的挑战,专家表示。
图算法的通用性也很重要,模型需要能够支撑数十至数百算法工程师来实现自己的算法,换句话说就是图算法的平台化、系统化应用。专家指出,而在平台化、系统化方面,目前在业界即使是大企业也只有部分在投入研发。
图算法主要包含两类,一类是PageRank、标签传播等传统方法,一类是GCN、GAT等图机器学习或图神经网络方法。
相对于图神经网络方法,传统方法更依赖于人工特征。特征分为节点级、链接级、图级,其中图级特征比如Graphlet内核、WL内核等由于计算复杂度比较高,一般应用比较受限。
相对地,节点级特征、链接级特征使用的比较多,链接级特征在推荐系统中尤其在召回阶段很常见,一般是基于距离的特征。节点级特征中使用的比较多的是节点度,而中心性特征一般而言是无法计算的,因为涉及到全图迭代,会使得计算很复杂,因而应用也受限。
图神经网络一般包括图注意力网络、图卷积网络、图循环神经网络等,目前业界使用最多的是图注意力网络,其次是图卷积网络。
3. 图学习范式
在图学习范式方面,业界主要关注点是图预训练模型的潜力,以及图表征学习的演进。相比之下,图的自动机器学习等目前应用则不多。
一位专家认为,图的预训练目前在业界处于早期发展阶段,最主要的挑战在于如何做到大规模、持续的训练,以及如何用不同的数据源训练一个大模型。
另一位专家则指出,对于风控、推荐等场景,并没有较好的图预训练应用的实例。
此外,甚至基于transformer的预训练模型在很多工业场景中能提供的增益也不多,“比如它可能在机器翻译中效果很好,但其实不会颠覆对话机器人的模式。”
而像推荐、风控等场景本身在不同机构、不同行业中差异很大,根本也是因为人类社会行为的复杂性,预训练很难将其泛化能力在这些场景中发挥效果。
预训练在生成类任务的效果确实不错,但如果没有达到商业标准,价值也是有限的。
图表征学习存在的挑战包括许多方面,比如长距离依赖、梯度消失、过平滑、全图迭代复杂性等问题。
图表征学习最常用的方法包括DeepWalk等,在推荐系统中常用于召回模块。
专家认为,这些模型实际上在工业界不会有很广的使用面。“因为它们有一些天然的缺陷,没有很好地把特征和结构(图的拓扑结构)融合起来,就是说只关心结构,不关心节点特征,这方面是一直到出现了图神经网络才得到了很好的解决。”
事实上,图神经网络通常也具备图表征学习的能力。
比如,图卷积神经网络方法不仅可以刻画图中的结构信息,还能对节点自身和局部邻居信息进行信息抽取和表征学习。
图算法在2014年开始大量和神经网络进行结合,然而其发展至今,比较重要的技术迭代只有两轮。
从2014年到2017年,比较热门的是网络嵌入研究,2017年到现在则是图神经网络,“但目前领域内仍然没有出现新的图表征学习范式。”
计算机视觉、自然语言处理等领域一般隔两三年就会有比较代表性的技术出现,比如ResNet、BERT等。
但图算法很多创新概念其实都源于CV或NLP,比如网络嵌入源于NLP中的word embedding,而图神经网络源于CV中的卷积神经网络,当然还包括预训练、注意力机制、对比学习等。
因此,图算法目前还有一个比较大的挑战,是缺少领域独特的基础创新工作。
▼
03
应用场景
图算法的应用目前还处于摸索阶段。找到合适的场景是图算法面临的一大挑战,比如,近期在生命科学领域中,图算法就找到了比较多适配的场景,因而发展很快。
针对这一点,专家表示,有些企业的一般做法是做有效性测试,也就是对学术文献中的模型进行小规模有效性测试,目前已有较成熟的实验系统,且成本不高。
▼
04
研发流程
图机器学习在特征工程上与其它领域的区别在于,要从图的角度考虑问题。
专家表示,对于非图数据,一般只需要考虑样本本身的特征。而对于图数据,还需要考虑样本本身以及节点邻居的特征,以及哪些邻居特征对于该节点是重要的。
也就是说,对于图数据而言,建模目标不能仅限于节点,而需要考虑延伸到邻居节点、链接、图等层面。
此外,基于节点建模和基于图建模的特征工程一般也是不一样的。
节点特征包括节点度、中心度等,其中节点度最常用,而中心度通常达到一定规模后无法计算,因为需要全图迭代。链接特征则在图推荐中比较常见。
2. 模型部署
图机器学习的基础设施的演进将是业界的长期问题,因为图数据库本身还是比较新的事物。至于找到合适的应用场景,终究还是一个阶段性的问题。
▼
05
前沿趋势
尽管图机器学习是AI学界中关注已久,但对于业界而言,它仍然是很新的方向。
比如,图可解释性、对抗鲁棒性等目前在工业界几乎没有应用。
专家表示,图机器学习的可解释性,通常用于用户产品和案例分析上,工业落地上用的少。目前一些企业尝试过类似于GradInput和Attention的一些方式,是比较延续机器学习可解释性的方法。
对于图机器学习的工业应用而言,对可解释性的理解其实和学界截然不同。“对于工业应用场景而言,可解释性的目的不是为了解释模型的工作原理,比如特征重要性、邻居节点重要性等,而是将模型产出解释为能让客户理解的结果。”
学界的可解释性方法对于业界应用通常难以得到实用的结果,一般需要进行后置加工,或者完全使用一套不同的方法,并且还没有成熟的方法论,需要根据具体问题具体决策。
图机器学习的对抗鲁棒性在学界尽管每年有很多相关很多论文,比如近五年可能有近100篇论文,但在工业界中目前还没有发挥作用。
在一项对抗鲁棒性研究中,一般会定义一种具体的对抗攻击方法,并研究其是否会使模型失效,以及防御方法。
但在工业系统中,图机器学习模型只是整个系统的一部分,系统是基于图机器学习模型和很多其它模型以及规则综合决策的。这些系统包含了很多商业机密,学界并不能获得足够的信息去正确地建模。工业系统很多时候也不至于因为一个图机器学习模型的失效而导致很大的错误。目前,也并没有实例证明工业界的图机器学习很容易受到攻击。
在业务场景方面,专家表示,风控、推荐等方向近年并没有特别颠覆性的技术创新或场景应用,并且图神经网络近期有被用于建模不同模态交互的趋势。
图机器学习目前最热门的前沿应用方向是组合优化、生命科学等。
在组合优化领域,专家认为比较值得关注的是DeepMind的Petar Veličković近期发表的工作,比如论文“Combinatorial optimization and reasoning with graph neural networks”指出,GNN具备一些归纳偏置,比如排列不变性和稀疏性等,使得它可以有效地编码组合和关系输入。
而在自然科学领域,比如对于蛋白质分子交互数据集,这些数据的自由度比较小,图预训练在这些领域其实更有潜力。
▼
06
尾声
归根结底,图算法目前遇到的落地困难主要在于图数据本身与传统数据有很大不同,并进而影响到算法研究、场景拓展、工程落地等方面。
但困难越大,价值也越大。
图算法因其基本属性,其潜力远比传统数据分析高得多,相信未来可期。
撰文:刘晓坤 DataFun
▌数据智能专家访谈
“数据智能专家访谈”是 DataFun 新推出的内容系列,本系列旨在访谈不同公司的核心技术人员,得到专家在不同领域的洞察,包括但不限于行业重点、热点、难点,增加读者对行业技术的了解。
▌大话数智
大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。
网友评论已有0条评论, 我也要评论