发布网友 发布时间:2022-04-22 08:35
共5个回答
热心网友 时间:2022-06-18 18:27
近年来,全球大数据进入加速发展时期,数据量呈现指数级爆发式增长,而这些大量数据中不同个体间交互产生的数据以图的形式表现,如何高效地处理这些图数据成为了业界及其关心的问题。很过用普通关系数据无法跑出来的结果,用图数据进行关联分析会显得异常高效。
提到处理图数据,我们首先想到NetworkX,这是网络计算上常用的Python包,可提供灵活的图构建、分析功能。但是我们使用NetworkX跑大规模图数据时,不仅经常碰到内存不足的问题,而且分析速度很慢,究其原因,是NetworkX只支持单机运行。通过网上搜索,新发现了一个名为GraphScope的系统不仅号称兼容NetworkX的API,而且支持分布式部署运行,性能更优。针对GraphScope和NetworkX的处理能力,我们参考图计算中常用的测试框架LDBC,通过一组实验来对比下二者的性能。
一、实验介绍
为了比较两者的计算效率,先用阿里云拉起了配置为8核CPU,32GB内存的四台ECS,设计了三组比较实验,分别是NetworkX单机下的计算性能,GraphScope单机多worker的计算性能以及GraphScope分布式多机多worer的计算性能。
数据上,我们选取了SNAP开源的图数据集*,来自 LDBC数据集的datagen-7_5-fb,datagen-7_7-zf和datagen-8_0-fb作为实验数据,以下是数据集的基本信息:
· Twitter: 81,307个顶点,1,768,135条边
· Datagen-7_5-fb: 633,432个顶点,34,185,747条边,稠密图
· Datagen-7_7-zf: 13,180,508个顶点,32,791,267条边,稀疏图
· Datagen-8_0-fb: 1,706,561个顶点,107,507,376条边,这个数据集主要测试两个系统可处理的图规模能力
实验设计上我选择常用的SSSP、BFS、PageRank、WCC算法,以及较高复杂度的All Pair shortest Path length算法,以载图时间,内存占用和计算时间这三个指标为依据,对两个系统进行计算性能的比较。
NetworkX是一个单机系统,在实验中只考虑NetworkX在单机环境下的运行时间;GraphScope支持分布式运行,故进行两个配置,一个是单机4worker,另外一个配置是4台机器,每台机器4个worker。
二、实验结果
首先,GraphScope的载图速度比NetworkX显著提升。
在前三个图数据集中,无论是GraphScope的单机多worker模式,还是GraphScope的分布式模式,载图速度都比NetworkX快:
GraphScope单机模式载图速度平均比NetworkX快5倍,最高纪录——在datagen-7_5-fb上比NetworkX快了6倍。
分布式模式下GraphScope的载图时间比NetworkX平均快了27倍,最高纪录——在datagen-7_7-zf数据集上比NetworkX快了63倍。
在datagen-8_0-fb数据集上,NetworkX因内存溢出无法载图,GraphScope单机多worker和GraphScope分布式载图时间分别为142秒和13.6秒。
————————————————
版权声明:本文为CSDN博主「6979阿强」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/tanekf6979/article/details/120067176
热心网友 时间:2022-06-18 18:28
NetworkX是单机系统,主要做图分析。GraphScope是由阿里巴巴达摩院智能计算实验室研发的图计算平台,是全球首个一站式超大规模分布式图计算平台,并且还入选了中 国科学技术协会“科创中 国”平台。Graphscope的代码在github.com/alibaba/graphscope上开源。
热心网友 时间:2022-06-18 18:28
说到图计算,我们首先想到NetworkX,我们使用它跑大规模数据时,经常会碰到内存不足以及分析速度慢,因为Networkx只支持单机运行,而GraphScope不仅兼容NetworkX的API,而且支持分布式部署运行,性能更优。
图计算系统分为两个流派: general purpose和graph-specific代表图计算系统分别为GraphX和Gemini, GraphScope。在计算时间上,GraphScope和Gemini的计算效率远超GraphX。
热心网友 时间:2022-06-18 18:29
说到图计算,我们首先想到NetworkX,我们使用它跑大规模数据时,经常会碰到内存不足以及分析速度慢,因为Networkx只支持单机运行,而GraphScope不仅兼容NetworkX的API,而且支持分布式部署运行,性能更优。
图计算系统分为两个流派: general purpose和graph-specific代表图计算系统分别为GraphX和Gemini, GraphScope。在计算时间上,GraphScope和Gemini的计算效率远超GraphX。行业内著名的图计算框架包括NetworkX、GraphX、CuGraph和GraphScope等。
GraphScope 是阿里巴巴达摩院智能计算实验室研发并开源的,依托于阿里海量数据和丰富场景,是全球首个一站式超大规模分布式图计算平台。
热心网友 时间:2022-06-18 18:29
11月9日,阿里巴巴宣布将开源一站式超大规模分布式图计算平台GraphScope。GraphScope项目组告诉DeepTech,12月将开源1.0版本,希望在易编程、高性能和一站式三个方面,解决全球图计算领域主要研发瓶颈。
阿里巴巴以自有超大规模商业场景,和达摩院智能计算研究为基础,自研了交互式图查询引擎、高性能图分析引擎和图深度学习引擎及相关开发者生态工具和集成。各个引擎的核心能力由GraphScope整合。
同日,中国科协、中国科学院、中国工程院主办的世界科技与发展论坛上,GraphScope被列为重要科技发布之一。正在进行的双11中,以GraphScope为底层框架的图计算网络,也正在搜索推荐、智能风控等核心场景发挥作用。
今年疫情期间,基于GraphScope的大规模因果图推理,还帮助自动识别和预测了影响航线价格浮动及机场中转变化的关键因素,克服了传统深度学习的黑盒缺点,让AI知其然、更知其所以然。
GraphScope项目总负责人、阿里巴巴集团资深副总裁周靖人认为,图结构数据是各种实体关联关系的一种自然表达,只有高效理解这些实体概念之间的广泛联系,才能让数字智能技术进一步赋能实体产业。
图计算仍然面临三大挑战
1735年瑞士数学家莱昂哈德·欧拉面对的柯尼斯堡七桥问题,可能是最早的图计算命题。而现代图计算问题则复杂数千倍,图计算性能近年来已经进步的数10倍,但仍然存在三个大规模应用挑战:一是相关领域问题复杂,计算模式多样,大量解决方案碎片化;二是学习难度大,对于非专业编程人士门槛很高;三是跨域数据量大、计算效率仍然偏低。
传统的机器学习计算框架在解决时间序列数据、非结构化数据(如视频)已经比较高效。但对于相对比较稀疏、高维度的关联数据,则需要图计算性能、架构和平台的持续进步。
若把中国484.65万公里的公路组成一个巨大的迷宫,运用GraphScope可在一毫秒内跑完所有的岔路。
“GraphScope提供了一站式的友好的编程环境 ,它不仅支持多种核心的图计算范式和它们之间高效的数据交换,提供了面向Python接口的单机抽象,从而屏蔽了大规模分布式计算的系统复杂性。”阿里巴巴资深专家、GraphScope团队成员钱正平告诉DeepTech。
通俗来说,图是一个由点和边构成的数学模型,能够非常容易地表达实体和数据之间的复杂关联。与阿里巴巴诸多技术开源项目类似,GraphScope来源于阿里巴巴集团内丰富的图场景与真实应用对于大规模图计算提出的需求。比如电商的知识图谱构建、风险控制、阿里云网络安全、商品的搜索推荐和广告等。正在进行的双11中,图计算也在商品推荐、智能物流和网络安全等方面发挥着重要作用。
“图模型可以很自然表达这些领域中数据间的复杂关联与结构特征。利用这些特征往往可以增强大数据分析的效果,为用户提供更精准和可靠的信息。”钱正平告诉DeepTech。
三大引擎支撑GraphScope
DeepTech独家获得资料显示,GraphScope开源项目的核心引擎主要有三驾马车:实时交互式图查询引擎、高性能图分析引擎、可扩展的图深度学习引擎。
1)交互式图查询引擎:实时图计算赋能行业革新
“深入理解图数据”是在多样化场景中有效利用图计算,挖掘深层洞察和创造新数据价值的必要前提。为此,商业用户及领域专家往往需要在交互式环境中,高效的探索和展现图数据。
GraphScope利用了高层声明式图查询语言—Gremlin,让领域专家和非计算机专业用户都可以简洁的表达复杂图遍历模式。同时,还提供了“业界第一个自动并行化Gremlin执行引擎”,让大规模、分布式环境中对图的复杂遍历所涉及的内存管理与动态策略优化等系统难题得以向用户隐藏。
GraphScope能够降低使用门槛,促使图计算人人可用,这方面具体体现在能够促进与更多行业领域专家的深度合作,让他们能够其领域知识跟图计算本身系统能力结合起来,在更多行业实现技术革新。
钱正平告诉DeepTech:“在海量数据的计算上,相比已有图上的交互式分析工具,我们希望GraphScope能提供至少一个数量级的性能(即查询延时)优势,让很多大规模的应用从不可能变成可能,而这种性能的量变能够触发业务效果的质变。”
2)高性能图分析引擎:让大规模图计算人人可用
除了交互式的图计算场景,图分析也是大数据图计算的重要一环。现实世界中的各种实体间关系、线上线下的各种交互场景,如社交媒体网络,化学结构,蛋白质相互作用网络、知识图谱、交通网络、通信网络、供应链与交易网络等,都广泛用到了大规模图分析。
GraphScope团队研发了一个基于不动点计算的大规模分布式图计算引擎。它扩展自局部计算-增量计算的不动点计算理论。在分布式环境中,各计算节点在初始轮根据自身持有的数据进行局部计算,之后通过几轮信息交换,每一轮都将来自别的计算节点信息作为更新,触发增量计算,一直到系统稳定时计算结束。该过程经过严谨的理论证明,保证在前提条件满足下,该分析引擎具有终止性和准确性。
该引擎支持了阿里巴巴内部20多种业务,相对原有方案体现了十分显著的性能提升效果,在一些业务上获得2-3个数量级的性能提升。此外,该分析引擎还支撑了双十一智能风控、新春五福红包发放等重点场景,经受了海量数据和瞬时峰值的实战考验。
3)高性能、可扩展的图深度学习
图引擎的应用已经延伸到了人工智能领域,融合了图计算和深度学习的图神经网络(GNN)更是成为了当下AI领域中非常热门的子领域,被研究者给予了很高的期待。图结构可以表达人类知识体系和现实生产生活中的复杂关系,从而在一切皆向量的深度学习中融入了知识和结构,使得深度学习由感知学习迈向认知学习。
GNN算法从开发到工业化落地,仍然处在快速发展和迭代的阶段。应用场景的拓宽、算法理论的变化、编程范式的变化都可能带来平台的变化甚至*。
GraphScope通过整合上述三个核心组件,提供了一站式图计算的处理能力。同时,GraphScope通过生态丰富、语义灵活的Python编程接口,将多样化的图操作无缝集成。通过开发者本地的一个Python脚本,就可以实现对集群中海量图数据的Gremlin交互查询、图分析算法调用和进行图神经网络训练等等。此外,GraphScope还利用阿里已经开源的Vineyard项目,实现了上述操作之间高效的全内存中间结果数据交换,进一度提高应用流水线端到端的效率。
在世界科技与发展论坛上,阿里巴巴认为,随着GraphScope开源多个提升智能技术底层能力的突破,未来可对标以TensorFlow和Hadoop为代表的人工智能底层计算架构,助益全球数字经济加快发展。
钱正平预计,“GraphScope与TensorFlow等框架,在系统上会有一个协同关系,即将深度学习和传统的图模型做更紧密的结合,取得更好的效果。”