学习CGFT课程,首先就是需要考生对CGFT相关知识点的掌握。今天,融跃小编为广大考生分享一下什么是流计算和图计算。

流计算:

流数据也是大数据分析中的重要数据类型,流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此,必须采用实时计算的方式给出秒级响应。

流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。目前业内已涌现出许多的流计算框架与平台。

特许全球金融科技师CGFT一级

di一类是商业级的流计算平台,包括IBM InfoSphereStreams和IBMStreamBase等,第二类是开源流计算框架,包括Twitter Storm、Yahoo! S4 ( Simple Scalable Streaming System )等,第三类是公司为支持自身业务开发的流汁算框架,如Facebook使用Puma和HBase相结合来处理实时数据,百度开发了通用实时流数据计算系统DStream,淘宝开发了通用流数据实时计算系统-----银河流数据处理平台。

图计算:

在大数据时代,许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途

径、交通琪故对路网的影响等,此外,许多非图结构的大数据,也常常会被转换为图模型后再进行处理分析。

MapReduce作为单输人、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,往往显得力不从心,不适合用来解决大规模图计算问题。因此,针对大型图的计算,需要采用图计算模式,目前已经出现了不少相关图计算产品。

Pregel是一种基丁BSP ( Bulk Synchronous Parallel)模型实现的并行图处理系统。为了解决大型图的分布式计算问题,Pregd搭建了一套可扩展的、有容错机制的平台,该平台提供了一套灵活的API,可以描述各种各样的图计算。

Pregel主要用于图遍历、短路径、PageRank计算等。其他代表性的图计算产品还包括Facebook针对Pregel的开源实现Giraph、Spark下的GraphX、图数据处理系统PowerGraph等。