数据库 2023-07-01

数据库计算引擎：高效数据处理的新选择 (数据库计算引擎)

随着数据量不断增加，传统的数据库技术已经无法满足日益增长的数据处理需求。同时，传统的数据库技术在处理更为复杂的数据类型和数据结构时也会面临很多挑战。为了解决这些问题，新兴技术——数据库计算引擎应运而生。本文将介绍数据库计算引擎的工作原理、特点以及在实际应用中的优势。

工作原理

传统的数据库技术主要是将数据存储在硬盘上，并通过各种查询语句来访问数据。而数据库计算引擎则采用了一种相反的方式，直接在内存中对数据进行操作，从而避免了硬盘的IO瓶颈。同时，它还采用了并行处理技术，将一个查询任务分成多个小任务并行处理，大大提高了计算效率。

特点

1. 高效的数据处理能力

数据库计算引擎采用了高速内存计算和并行处理技术，可以在短时间内对大量数据进行处理。相比于传统的硬盘存储方式，计算引擎采用了更快的存储方式来处理数据。

2. 强大的数据分析能力

计算引擎提供了丰富的查询和分析功能，可以快速地处理各种数据类型和数据结构，如海量的文本、图像、视频等数据。

3. 可扩展性强

计算引擎具有良好的可扩展性，可以通过增加计算节点、调整硬件设备等方式来提高计算能力和存储能力。并且还支持各种数据源，如Hadoop等，从而实现大规模数据的处理和存储。

应用优势

1. 金融行业

在金融行业，数据库计算引擎通常用于处理大规模数据和实时数据。它可以对海量的交易数据进行高速查询和分析，以便及时发现和解决问题。

2. 电商行业

在电商行业中，数据库计算引擎可用于处理用户行为数据、商品信息数据等。它可以根据用户的实时行为数据及时推送商品，以提高销售转化率。

3. 生命科学行业

在生命科学领域，大量的基因数据、蛋白质数据等需要进行分析和处理。数据库计算引擎可以快速处理这些复杂的数据类型，从而加速研究进程，提高研究效率。

数据库计算引擎作为一种新的数据处理技术，具有高效的数据处理能力、强大的数据分析能力和良好的可扩展性。在金融、电商、生命科学等行业中，都有大量的数据需求。通过引入数据库计算引擎，可以提高数据处理和存储的效率，进而提高企业的核心竞争力。

相关问题拓展阅读：

图计算引擎Neo4j和Graphscope有什么区别？

图计算引擎Neo4j和Graphscope有什么区别？

近年来，全球大数据进入加速发展时期，数据量呈现指数级爆发式增长，而这些大量数据中不同个体间交互产生的数据以图的形式表现，如何高效地处理这些图数据成为了业界及其关心的问题。很过用普通关系数据无法跑出来的结果，用图数据进行关联分析会显得异常高效。

提到处理图数据，我们首先想到NetworkX，这是网络计算上常用的Python包，可提供灵活的图构建、分析功能。但是我们使用NetworkX跑大规模图数据时，不仅经常碰到内存不足的问题，而且分析速度很慢，究其原因，是NetworkX只支持单机运行。通过网上搜索，新发现了一个名为GraphScope的系统不仅号称兼容NetworkX的API，而且支持分布式部署运行，性能更优。针对GraphScope和NetworkX的处理能力，我们参考图计算中常用的测试框架LDBC，通过一组实验来对比下二者的性能。

一、实验介绍

为了比较两者的计算效率，先用阿里云拉起了配置为8核CPU，32GB内存的四台ECS，设计了三组比较实验，分别是NetworkX单机下的计算性能，GraphScope单机多worker的计算性能以及GraphScope分布式多机多worer的计算性能。

数据上，我们选取了SNAP开源的图数据集twitter，来自 LDBC数据集的datagen-7_5-fb,datagen-7_7-zf和datagen-8_0-fb作为实验数据，以下是数据集的基本信息：

· Twitter: 81,307个顶点，1,768,135条边

· Datagen-7_5-fb： 633,432个顶点，34,185,747条边，稠密图

· Datagen-7_7-zf： 13,180,508个顶点，32,791,267条边，稀疏图

· Datagen-8_0-fb： 1,706,561个顶点，107,507,376条边，这个数据集主要测试两个系统可处理的图规模能力

实验设计上我选择常用的SSSP、BFS、PageRank、WCC算法，以及较高复杂度的All Pair shortest Path length算法，以载图时间，内存占用和计算时间这三个指标为依据，对两个系统进行计算性能的比较。

NetworkX是一个单机系统，在实验中只考虑NetworkX在单机环境下的运行时间；GraphScope支持分布式运行，故进行两个配置，一个是单机4worker，另外一个配置是4台机器，每台机器4个worker。

二、实验结果

首先，GraphScope的载图速度比NetworkX显著提升。

在前三个图数据集中，无论是GraphScope的单机多worker模式，还是GraphScope的分布式模式，载图速度都比NetworkX快：

GraphScope单机模式载图速度平均比NetworkX快5倍，更高纪录——在datagen-7_5-fb上比NetworkX快了6倍。

分布式模式下GraphScope的载图时间比NetworkX平均快了27倍，更高纪录——在datagen-7_7-zf数据集上比NetworkX快了63倍。

在datagen-8_0-fb数据集上，NetworkX因内存溢出无法载图，GraphScope单机多worker和GraphScope分布式载图时间分别为142秒和13.6秒。

表一：载图时间对比

载图时间

NetworkX

GraphScope单机

GraphScope分布式

twitter

11.2

3.1

1.8

datagen-7_5-fb

256

45.6

36.6

datagen-7_7-zf

316

71.3

datagen-8_0-fb

OOM

142

13.6

其次，GraphScope的内存使用效率比NetworkX显著提升。

在datagen-8_0-fb数据集上，NetworkX在32G的内存上无法载完图，而GraphScope仅需要24G的内存即可载入在datagen-8_0-fb数据集。

表二：内存占用对比

内存占用

NetworkX

GraphScope

datagen-7_5-fb

14G

datagen-7_7-zf

28G

18G

datagen-8_0-fb

OOM

24G

再次，GraphScope的计算速度比NetworkX显著提升。

SSSP算法上，GraphScope单机多worker模式平均要比NetworkX快22倍，最快在datagen-7_7-zf数据集上快了32倍。GraphScope分布式模式下平均要比NetworkX快103倍，最快datagen-7_5-fb数据集上快了182倍。

表三： SSSP计算时间对比（单位：秒）

SSSP

NetworkX

GraphScope单机

GraphScope分布式

twitter

2.45

1.32

0.28

datagen-7_5-fb

37.9

1.21

0.31

datagen-7_7-zf

5.84

0.18

0.03

datagen-8_0-fb

OOM

2.76

0.82

BFS算法上，GraphScope单机多worker模式平均要比NetworkX快13倍，最快datagen-7_5-fb数据集上快了22倍。GraphScope分布式模式下平均要比NetworkX快16倍，最快在datagen-7_5-fb数据集上快了28倍。

表四： BFS计算时间对比（单位：秒）

BFS

NetworkX

GraphScope单机

GraphScope分布式

twitter

1.53

0.16

0.17

datagen-7_5-fb

44.68

2.52

1.56

datagen-7_7-zf

7.98

0.75

0.72

datagen-8_0-fb

OOM

11.02

5.73

PageRank算法上，GraphScope单机多worker模式平均要比NetworkX快62倍，最快twitter数据集上快了80倍。GraphScope分布式模式下平均要比NetworkX快65倍，最快在twitter数据集上快了71倍。

另外，PageRank计算过程中，NetworkX在datagen-7_7-zf上内存溢出，没有完成计算，GraphScope单机多worker模式和分布式模式计算时间分别为25秒和22秒；

表五：PageRank计算时间对比（单位：秒）

PageRank

NetworkX

GraphScope单机

GraphScope分布式

twitter

24.01

0.37

0.33

datagen-7_5-fb

300

6.73

5.17

datagen-7_7-zf

OOM

19.31

7.79

datagen-8_0-fb

OOM

24.96

21.88

WCC算法上，GraphScope单机多worker模式平均要比NetworkX快44倍，最快在datagen-7_7-zf数据集上快了104倍。GraphScope分布式模式下平均要比NetworkX快76倍，最快datagen-7_5-fb数据集上快了194倍。

表六： WCC计算时间对比（单位：秒）

WCC

NetworkX

GraphScope单机

GraphScope分布式

twitter

0.6392

0.0296

0.0233

datagen-7_5-fb

26.03

0.25

0.13

datagen-7_7-zf

83.19

14.57

12.98

datagen-8_0-fb

OOM

0.34

0.4991

在复杂度极高的All pair shortest path length算法上，NetworkX在twitter图上即内存溢出，无法计算。GraphScope在分布式模式下完成了twitter图的All pair shortest path length计算，耗时76分钟。

表七： All Pair Shortest Path Length（单位：秒）

APSP

NetworkX

GraphScope单机

GraphScope分布式

twitter

OOM

4575.87

三、总结

从实验结果可以看到，在同等条件下，无论在载图时间、内存占用和计算时间上，GraphScope都要大大优于NetworkX，性能优化可以达到几十倍甚至上百倍。

6979阿强

关注

@网络算法工具 networkX igraph 的性能问题

alston_ethannical的博客

@网络算法工具 networkX igraph 的性能问题问题的提出当我用 50万数据去跑 networkX 开发出来的算法时，遇到了一个计算性能的问题,这个问题时很慢。寻找答案发现 networkX再性能方面比较差。当节点上万，边上十万的时候，新能慢的问题就会显现出来为了解决图算法问题，该怎么办呢遇到问题，首先定义问题的边界。也就是先找到限制问题的条件。然后缩小问题范围。我要解决的问题是：在解决图算法相关的问题时，如何能够快速计算出结果。但是目前的算法时用networks实现的。问题的根源是

开源！一文了解阿里一站式图计算平台GraphScope

阿里云开发者

2767

简介：随着大数据的爆发，图数据的应用规模不断增长，现有的图计算系统仍然存在一定的局限。阿里巴巴拥有全球更大的商品知识图谱，在丰富的图场景和真实应用的驱动下，阿里巴巴达摩院智能计算实验室研发并开源了全球首个一站式超大规模分布式图计算平台GraphScope，并入选中国科学技术协会“科创中国”平台。本文详解图计算的原理和应用及GraphScope的架构设计。一什么是图计算图数据对一组对象（顶点）及其关系（边）进行建模，可以直观、自然地表示现实世界中各种实体对象以及它们之间的关系。在大数据场景下，社交网络、交

一文了解阿里一站式图计算平台GraphScope_阿里云云栖号

10-2

GraphScope 提供了各类常用的分析算法,包括连通性计算类、社区发现类和 PageRank、中心度等数值计算类的算法,后续会不断扩展算法包,在超大规模图上提供与 NetworkX 算法库兼容的分析能力。此外也提供了丰富的图学习算法包,内置支持 Graph…

5大典型模型测试单机训练速度超对标框架,飞桨如何做到…

10-28

导读:飞桨(PaddlePaddle)致力于让深度学习技术的创新与应用更简单。在单机训练速度方面,通过高并行、低开销的异步执行策略和高效率的核心算子,优化静态图训练性能,在Paddle Fluid v1.5.0的基准测试中,在7个典型模型上进行了测试(图像领域…

强化学习经典算法笔记(六)：深度Q值网络 Deep Q Network

hhy_csdn的博客

9093

前期回顾强化学习经典算法笔记(零)：贝尔曼方程的推导强化学习经典算法笔记(一)：价值迭代算法Value Iteration 强化学习经典算法笔记(二)：策略迭代算法Policy Iteration 强化学习经典算法笔记(三)：蒙特卡罗方法Monte Calo Method 强化学习经典算法笔记(四)：时间差分算法Temporal Difference（Q-Learning算法）强化学习经典算…

GraphX和GraphFrame connectedComponent计算性能对比

高臭臭的博客

3046

测试文件：用Graph rmatGraph00 去重后个点，个边运行环境：三台服务器，246 GB，core 71. 测试三个运行例子1：Graph connectedComponents 2：GraphFrame connectedComponents 3：GraphFrame connectedComponents setAlgor

…network、伪代码、算法理解、代码实现、tensorboard…

11-3

定义一个q_network函数来构建Q network,输入游戏状态Q network并得到对所有动作的Q值。网络构成给为三个带有池化的卷积层和一个全连接层。 tf.reset_default_graph()defq_network(X,name_scope):# Initialize layersinitializer=tf….

【读书笔记】【机器学习实战】第十一章：训练深度神经网络

MJ_Lee的博客

612

阅读书籍为《Hands-On Machine Learning with Scikit-Learn & TensorFlow》王静源等翻译的中文译版《机器学习实战，基于 Scikit-Learn 和 TensorFlow》,本文中所有图片均来自于书籍相关部分截图。本章介绍了DNN训练过程中三个常见问题，并依次给出解决方案。章节的最后还给出当不知道如何DNN训练时一些属性可以选的比较好的…

Networkx 计算网络效率

tengqingyong的博客

5860

本人在计算网络效率的时候遇到了一个问题 networkx 提供了最短路径函数shortest_path及shorest_path_length 我在计算网络效率构造了一个无向图，但是我在计算点与点之间的最短路径长度时总是提示我说点不存在图中，我在上面使用nx.average_shortest_path_length(UG)的时候可以得到网络平均最短路径长度；这个说明我的点都…

Pandas/networkx图分析简单入门

weixin_的博客

516

对于图论而言，大家或多或少有些了解，数学专业或计算机相关专业的读者可能对其更加清楚。图论中的图像是由若干给定的点及连接两点的线所构成的图形，这样的图像通常用来描述某些事物之间的某种特定关系，用点代表事物，用两点之间的连接线表示二者具有的某种关系，在互联网与通信行业中应用广泛。图论分析（Graph ysis）并不是数据科学领域中的新分…

networkx–四种网络模型

weixin_的博客

380

　　NetworkX提供了4种常见网络的建模方法，分别是：规则图，ER随机图，WS小世界网络和BA无标度网络。一. 规则图　　规则图差不多是最没有复杂性的一类图，random_graphs.random_regular_graph(d, n)方法可以生成一个含有n个节点，每个节点有d个邻居节点的规则图。　　下面一段示例代码，生成了包含20个节点、每个节点有3个邻居的规则…

igraph/networkx学习笔记之…

nuoline的专栏

1万+

原文地址：—— 数据结构”>igraph/networkx学习笔记之一 —— 数据结构作者：zhengw789 首先，基本上所有的graph library都有其局限性，不同的数据结构有优点的同时必然有缺点，图算法对数据结构的依赖性构成另一个原因。所以如果是想用一个工具包解决所有的问题显然是一种奢望，很多时候甚至必须要从头写自己的代码。但是阅读igraph和networkx这样成型了的函数库对熟悉

python下的复杂网络编程包networkx的使用（摘抄）

weixin_的博客

2335

原文：

复杂网络分析库NetworkX学习笔记（1）：入门 NetworkX是一个用Python语言开发的图论与复杂网络建模工具，内置了常用的图与复杂网…

更快更简单|飞桨PaddlePaddle单机训练速度优化更佳实践

PaddlePaddle

1672

导读：飞桨（PaddlePaddle）致力于让深度学习技术的创新与应用更简单。在单机训练速度方面，通过高并行、低开销的异步执行策略和高效率的核心算子，优化静态图训练性能，…

GraphX与GraphLab、Pregel的对比

yang灬仔

588

分布式批同步BSP Pregel、GraphLab、GraphX都是基于BSP（Bulk Synchronous Parallel）模式，即整体同步并行。一次计算过程由一系列全局超步组成，每一个超步由并发计算、通信和同步三个步骤组成。从垂直上看,一个程序由一系列串行的超步组成。从水平上看，在一个超步中，所有的进程并行执行局部计算。BSP更大的好处是编程简单，但在某些情况下BSP运算的性能非常差，…

TensorFlow学习记录：VGGNet卷积神经网络模型

weixin_的博客

308

1.VGGNet模型结构简介 VGGNet是由牛津大学计算机视觉几何组（Visual Geomety Group,VGG）和Google Deepmind公司的研究员合作研发的深度卷积神经网络，VGG的成员Karen Simonyan和Andrew Zisserman在2023年撰写的论文《Very Deep Convolutional Networks for Large-Scale Image…

11月编程语言排行冠军揭晓，稳

图计算引擎Neo4j和Graphscope有什么区别？

相关推荐