聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

图算法技术应用现状与挑战

2023-01-18 20:00 浏览: 292372 次 我要评论(0 条) 字号:

编者荐语:

关注“大话数智”,下载《数据智能知识地图》


图算法技术的产业落地尚处于初期阶段,其中,图数据规模大,图算法复杂性高,在应用场景方面还在持续探索中,在基础设施方面则需要面临许多性能挑战,很多学术前沿技术则还未能大规模落地,甚至对一些概念,业界与学界并没有共识。

本文整理自DataFun对两位图算法专家的访谈,帮助读者理解图算法技术的应用现状、挑战

在下文中,我们将依次按照图算法在数据、算法、应用、流程方面的落地情况,并在最后总结讨论未来趋势

引言


DataFun社区|出品

数据智能专家访谈 第05期|来源



01


图数据

 
相比传统的结构化数据类型,图数据属于半结构化数据,可以建模更丰富的信息。
但也因此,基于图数据的分析的一大难点就是,随着数据规模也就是点边关系增加,数据规模的增长快得多,至少是平方增长。针对图数据暴增的问题,一般可采用降维、并行、缓存等方法应对。
图数据的另一大应用挑战是稀疏性。专家对DataFun反馈道,在业界,图机器学习的挑战主要在于图数据的信息缺失。而就图机器学习本身的特性而言,它原本应该很擅长解决缺失信息补全的问题。

但据专家在实际研究工作中的观察,图机器学习在对图数据进行补全的时候,效果经常并不尽如人意,总会出现一些长尾的节点,这些节点即便在引入大量图数据之后,可连接的其它节点仍然很少,因此补全效果不佳。


02


图算法


1. 图类型

图算法的复杂性根本上还是源于图数据的复杂性,专家指出,图数据的一大特点在于动态性和异质性,这在业界也是比较常见的问题。

图数据包括动态图、超图、异质图等类型。在业界,动态图天然地存在,典型的包括日志数据,这类数据对于风控很有价值。关于超图的学术研究目前比较热门,但在业界的应用则很少。

动态图由于涉及持续更新,需要基础设施支持图数据的动态更新,这在落地中一般会成为难点。并且,更新的时效性有多个级别,比如秒级、分钟级、天级,不同级别的系统之间有很大差别。

相对地,异质图的应用技术则较为成熟,毕竟业界的大部分图数据都是异质图。而像有向图、无向图等在实际应用中,其实并没有逻辑上的不同。

2. 图模型

由于图算法的复杂度比较高,落地成本比较大,需要注重成本和收益的平衡这也是图算法在落地时的最核心的挑战,专家表示。

图算法的通用性也很重要,模型需要能够支撑数十至数百算法工程师来实现自己的算法,换句话说就是图算法的平台化、系统化应用。专家指出,而在平台化、系统化方面目前在业界即使是大企业也只有部分在投入研发

图算法主要包含两类,一类是PageRank、标签传播等传统方法,一类是GCN、GAT等图机器学习或图神经网络方法。

相对于图神经网络方法,传统方法更依赖于人工特征。特征分为节点级、链接级、图级,其中图级特征比如Graphlet内核、WL内核等由于计算复杂度比较高,一般应用比较受限。

相对地,节点级特征、链接级特征使用的比较多,链接级特征在推荐系统中尤其在召回阶段很常见,一般是基于距离的特征。节点级特征中使用的比较多的是节点度,而中心性特征一般而言是无法计算的,因为涉及到全图迭代,会使得计算很复杂,因而应用也受限。

图神经网络一般包括图注意力网络、图卷积网络、图循环神经网络等,目前业界使用最多的是图注意力网络,其次是图卷积网络

3. 图学习范式

在图学习范式方面,业界主要关注点是图预训练模型的潜力,以及图表征学习的演进。相比之下,图的自动机器学习等目前应用则不多。

一位专家认为,图的预训练目前在业界处于早期发展阶段,最主要的挑战在于如何做到大规模、持续的训练,以及如何用不同的数据源训练一个大模型。

另一位专家则指出,对于风控、推荐等场景,并没有较好的图预训练应用的实例

此外,甚至基于transformer的预训练模型在很多工业场景中能提供的增益也不多,“比如它可能在机器翻译中效果很好,但其实不会颠覆对话机器人的模式。”

而像推荐、风控等场景本身在不同机构、不同行业中差异很大,根本也是因为人类社会行为的复杂性,预训练很难将其泛化能力在这些场景中发挥效果。

预训练在生成类任务的效果确实不错,但如果没有达到商业标准,价值也是有限的。

图表征学习存在的挑战包括许多方面,比如长距离依赖、梯度消失、过平滑、全图迭代复杂性等问题。

图表征学习最常用的方法包括DeepWalk等,在推荐系统中常用于召回模块。

专家认为,这些模型实际上在工业界不会有很广的使用面。“因为它们有一些天然的缺陷,没有很好地把特征和结构(图的拓扑结构)融合起来,就是说只关心结构,不关心节点特征,这方面是一直到出现了图神经网络才得到了很好的解决。”

事实上,图神经网络通常也具备图表征学习的能力。

比如,图卷积神经网络方法不仅可以刻画图中的结构信息,还能对节点自身和局部邻居信息进行信息抽取和表征学习。

图算法在2014年开始大量和神经网络进行结合,然而其发展至今,比较重要的技术迭代只有两轮。

从2014年到2017年,比较热门的是网络嵌入研究,2017年到现在则是图神经网络,“但目前领域内仍然没有出现新的图表征学习范式。”

计算机视觉、自然语言处理等领域一般隔两三年就会有比较代表性的技术出现,比如ResNet、BERT等。

但图算法很多创新概念其实都源于CV或NLP,比如网络嵌入源于NLP中的word embedding,而图神经网络源于CV中的卷积神经网络,当然还包括预训练、注意力机制、对比学习等。

因此,图算法目前还有一个比较大的挑战,是缺少领域独特的基础创新工作。


03


应用场景



图算法的应用目前还处于摸索阶段。找到合适的场景是图算法面临的一大挑战,比如,近期在生命科学领域中,图算法就找到了比较多适配的场景,因而发展很快。

如果按基础的图任务进行分类,比如节点分类、链接预测、图分类、图生成等,在工业应用中有90%以上的图算法都可以归约为节点分类、链接预测两大类,并且技术上已经比较成熟,图分类则在生命科学中比较常见。
在业务场景层面,据DataFun了解,互联网大企业主要将其应用到推荐系统、风控场景中,不同企业也各有侧重。
专家认为,图算法主要可以应用到推荐系统的召回模型中,并且基于表征学习的推荐系统在技术上也已经比较成熟。
在推荐系统的数据中,用户和物品之间的交互关系包含多种类型,比如点击、购买、分享、收藏等,因此在推荐系统中对GNN一般都采用异质GNN的建模方式。
推荐系统面临的一大痛点是数据稀疏性和交互随机性。针对推荐系统数据稀疏的问题,解决方案一般是引入用户社交和物品关系的知识图谱进行补充,这也是图算法可以很好地发挥作用的原因之一。
而另一位专家则认为,推荐系统是否有必要采用图算法是有待考察的。推荐系统的常用技术是序列建模,在一些电商、内容类应用中,用户行为序列数据,与推荐结果的目标是高度相关的。 
在风控系统中,因为经常需要对点对点的交易关系数据进行建模,图算法就天然地很适配这些场景。
图算法和黑产的特点很契合,黑产一般是团伙作案。在图算法中,图数据的特征一般比统计特征更加丰富,从单点比较难判断黑产行为,但从多个节点的集体特征则容易推断。
传统图算法在很多工业场景中特别是风控或许作用或许将越来越小,因为风控本质是一种博弈场景,传统图算法的策略是确定性的,数学定义严格,因此反而很容易被黑产攻克,而图神经网络是一种概率推断方法。
专家补充道,无论什么样的应用场景,最重要的是两方面。一方面是将原来信息不足的节点补充更多信息,另一方面是考虑问题建模的复杂性与性能、成本之间的权衡
比如对于交易级别的风控,传统的做法是只对交易主动方、被动方和交易做特征,另外一种思路是不只单纯分析单笔交易,还需要考虑交易前后的事件,通过将交易图扩大,在局部子图或结合某些异质性信息进行分析,结果通常会更好。
“因为一个会做非正常交易的人,一般在之前的行为中就能识别出不一样的特征,因此从更加全局的视角建模会更好。这会带来很本质的提升,性能提升幅度很大。这一点适用于所有场景。”

针对这一点,专家表示,有些企业的一般做法是做有效性测试,也就是对学术文献中的模型进行小规模有效性测试,目前已有较成熟的实验系统,且成本不高。


04


研发流程


机器学习模型的研发落地流程一般包括问题建模、数据探索、编程环境、资源配置、特征工程、模型训练、模型融合、模型部署、模型运维等阶段,这对于图机器学习也适用。而图机器学习的落地主要难点在特征工程和模型部署两个阶段。
1. 特征工程

图机器学习在特征工程上与其它领域的区别在于,要从图的角度考虑问题。

专家表示,对于非图数据,一般只需要考虑样本本身的特征。而对于图数据,还需要考虑样本本身以及节点邻居的特征,以及哪些邻居特征对于该节点是重要的。

也就是说,对于图数据而言,建模目标不能仅限于节点而需要考虑延伸到邻居节点、链接、图等层面

此外,基于节点建模和基于图建模的特征工程一般也是不一样的。

节点特征包括节点度、中心度等,其中节点度最常用,而中心度通常达到一定规模后无法计算,因为需要全图迭代。链接特征则在图推荐中比较常见。

2. 模型部署

因为图数据量规模大、图机器学习的复杂性高,而图技术相关的基础设施比如图数据库等仍在成长阶段,因此图机器学习的部署仍然是比较大的挑战。
专家表示,图数据的邻居查询、图机器学习的分布式训练等是目前最核心的挑战
在模型部署阶段,一般和其它机器学习模型的部署有所不同,需要考虑图数据的存储、图数据的快速查询甚至实时查询等问题,而图快速查询近期就延伸出图数据库、带图语义的高速缓存等比较火热的概念。

图机器学习的基础设施的演进将是业界的长期问题,因为图数据库本身还是比较新的事物。至于找到合适的应用场景,终究还是一个阶段性的问题。


05


前沿趋势


尽管图机器学习是AI学界中关注已久,但对于业界而言,它仍然是很新的方向。

比如,图可解释性、对抗鲁棒性等目前在工业界几乎没有应用。

专家表示,图机器学习的可解释性,通常用于用户产品和案例分析上,工业落地上用的少目前一些企业尝试过类似于GradInput和Attention的一些方式,是比较延续机器学习可解释性的方法。

对于图机器学习的工业应用而言,对可解释性的理解其实和学界截然不同。“对于工业应用场景而言,可解释性的目的不是为了解释模型的工作原理,比如特征重要性、邻居节点重要性等,而是将模型产出解释为能让客户理解的结果。”

学界的可解释性方法对于业界应用通常难以得到实用的结果,一般需要进行后置加工,或者完全使用一套不同的方法,并且还没有成熟的方法论,需要根据具体问题具体决策。

图机器学习的对抗鲁棒性在学界尽管每年有很多相关很多论文,比如近五年可能有近100篇论文,但在工业界中目前还没有发挥作用。

在一项对抗鲁棒性研究中,一般会定义一种具体的对抗攻击方法,并研究其是否会使模型失效,以及防御方法。

但在工业系统中,图机器学习模型只是整个系统的一部分,系统是基于图机器学习模型和很多其它模型以及规则综合决策的。这些系统包含了很多商业机密,学界并不能获得足够的信息去正确地建模。工业系统很多时候也不至于因为一个图机器学习模型的失效而导致很大的错误。目前,也并没有实例证明工业界的图机器学习很容易受到攻击。

在业务场景方面,专家表示,风控、推荐等方向近年并没有特别颠覆性的技术创新或场景应用,并且图神经网络近期有被用于建模不同模态交互的趋势。

图机器学习目前最热门的前沿应用方向是组合优化、生命科学等。

在组合优化领域,专家认为比较值得关注的是DeepMind的Petar Veličković近期发表的工作,比如论文“Combinatorial optimization and reasoning with graph neural networks”指出,GNN具备一些归纳偏置,比如排列不变性和稀疏性等,使得它可以有效地编码组合和关系输入。

而在自然科学领域,比如对于蛋白质分子交互数据集,这些数据的自由度比较小,图预训练在这些领域其实更有潜力。

另外,几何深度学习近几年比较火热,但实际上这个方向并不是很新的概念。几何深度学习关注的并不是社会行为相关的问题,比如推荐、风控,而更偏向自然科学问题,比如生命科学中的蛋白质分子结构对称性,物理学中的平移等变性等等,因为它在理论上更关注等变性、不变性等概念,这在自然科学的研究对象中更好定义和衡量。


06


尾声


归根结底,图算法目前遇到的落地困难主要在于图数据本身与传统数据有很大不同,并进而影响到算法研究、场景拓展、工程落地等方面。

但困难越大,价值也越大。

图算法因其基本属性,其潜力远比传统数据分析高得多,相信未来可期。

- End -
访谈人:张老师&黄老师
与谈人:刘晓坤 DataFun

撰文:刘晓坤 DataFun


▌数据智能专家访谈

“数据智能专家访谈”是 DataFun 新推出的内容系列,本系列旨在访谈不同公司的核心技术人员,得到专家在不同领域的洞察,包括但不限于行业重点、热点、难点,增加读者对行业技术的了解。

▌大话数智

大话数智,是DataFun策划的智库类公众号,包括但不限于知识地图、深度访谈、直播、课程等学习资料,旨在为广大数据智能从业者、数据智能团队提供一个日常学习成长的平台,促进先进的数据智能技术的传播与广泛落地。



网友评论已有0条评论, 我也要评论

发表评论

*

* (保密)

Ctrl+Enter 快捷回复