大数据架构有哪些?应该如何理解?

2020-12-02科技782

BI系统,大概的架构图如下:

核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。

以Hadoop体系为首的大数据分析平台:Hadoop体系的生态圈也不断的变大,目前围绕Hadoop体系的大数据架构大概有以下几种:

传统大数据架构

其定位是为了解决传统BI的问题,简单说,数据分析的业务没有发生任何变化,依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

适用场景:

数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

适用场景:

预警,监控,对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

适用场景:

同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

适用场景:

和Lambda类似,改架构是针对Lambda的优化。

Unifield架构

Unifield架构更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

适用场景:

有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

相关:

舆情大数据系统架构设计与实现:https://www.toutiao.com/i6537119210336682510/

大数据架构的分析应用:https://www.toutiao.com/i6613946595891216910/

相关文章

万达又卖掉37家万达百货,苏宁接盘,王健林现在还这么缺钱吗?

从2017年6月王健林和融创孙宏斌、富力的那笔600多亿元的大甩卖(主要是卖掉万达的文旅资产)开始,万达就开始了卖卖卖的模式,直至今日还没有完全停下来。 变卖资产,说明万达仍然有资金方面的强烈需求。万达究竟有多少负债?这一点万达一直讳莫如深,外界从不知道详细数据。而之前有很多媒体报道万达负债高达40...

酒店巨头华住陷“丑闻”,1.3亿人开房记录疑似被网上售卖,你怎么看?

如果一旦查出属实,那么可能这次数据泄露算是国内目前严重的一次信息泄露事件。 某网站中文论坛中出现一个帖子,声称售卖华住旗下所有酒店数据,汉庭酒店、美爵、禧玥、漫心、全季、宜必思、海友等多家酒店都包含在内。根据帖子内容,售卖的数据分为三个部分:华住官网注册资料,包括姓名、手机号、邮箱、身份证号、登录密...

创建限制更新数据的触发器,限制将SC表中不及格学生的成绩改为及格(可以帮我解释一下以下代码吗?)?

给你加了注释createtriggertri_grade--创建一个叫tri_grade的触发器onscforupdate--在sc表上update时触发asifupdate(grade)--如果修改的是grade字段ifexists(select*frominsertedjoindeleted--...

Cpu架构有几种?

CPU架构从大的层面分两类——CISC、RISC。CISC就是复杂指令集计算机,目前专指 x86 和 x86-64 两类,其中 x86 又叫 IA32,即 Intel Architecture 32(Intel32位架构),不管是Intel生产的 x86 CPU,还是AMD或者VIA生产的,都是 I...

“秒杀”是如何实现的?

秒杀系统难做,是因为库存有限,很多人会在集中的时间内读写有限的数据,在短时间内,系统会面临成千上万倍的流量进入。那么如何能做好秒杀系统呢?我认为核心思想有这么两点: 将请求尽量的在上游环节就拦截住(不要轻易到数据库这一级) 充分利用缓存 那么这两点如何实现呢,下面详细说说: 最上层是客户端层,常见的...

张近东大手笔收购万达百货后,他是否又要增发再融资了呢?

老王真厉害,2017年那么大的风波都能成功转型!成功上岸!整个大陆也找不出几个人!万达卖的都是一些不赚钱或者无关紧要的业务!真正的核心万达广场还是牢牢的攥在手心!而且万达以后走轻资产了,主要以平台,服务为主了,彻底告别房地产行业了,2018年末数据统计,万达广场已经是全国前十房地产当中负债率最低的集...

有多少个明星是狮子座?

空口白言总觉得有些无力,还是先来一组不科学的数据图吧??? 绿色代表歌手?,蓝色代表负面新闻出现印象较深刻的 ?以下数据截图全是手动录入的,生日依据来自百度百科。不出错的话基本上就是这样。列出的都是一些当前我们比较熟悉的娱乐圈明星 ------------------ 仔细观察一下狮子座的明星你就会...

美国非农数据利好美元,但是利空美债,贵金属怎么走?

首先提问里面有一个误区,非农数据自然是利好美元的,同时利空美债。但是这里利空美债的是价格而不是收益率,事实上非农数据的好转意味着美国经济开始进入明确的复苏,因此作为避险资产的美国国债价格自然下行,收益率因此上行。 所以如果单纯的说非农数据的影响的话,那么如果数据良好,利好美元,利空国债,自然对黄金等...

相互保分摊越来越多,大家觉得还有必要加入下去么?里面的钱到底如何了?

先来说说一些数据,全国每天确诊癌症约万例,全国人口14亿,加入相互保7000万人,换算下来,这七千万人,每天约有500人确诊。相互保半月一次,那就是7500人。因为加入相互保人群年轻生病几率小,刨去一半,还有3750人,再刨去病情轻,或者不符合如实告知等要求的,再减一半,还有约1800人。而现阶段支...

手机每天都会收到下图的短信,还屏蔽不了,打电话给客服也没用,怎么办?

感谢您的阅读!手机也经常收到一些莫名其妙的彩信,让人烦不胜烦。 在解决这个问题之前,我们先了解一次词语:彩信。这是我们早年间很流行的一种信息形式,它支持多媒体功能,可以发送声音、图像、数据等等。那,为什么屡禁不止呢?有一些SP(移动数据业务服务提供商)等利用一些漏洞可以发彩信不要钱,也有一些人通过发...

100兆网络下载速度4619kb/s正常吗?

首先了解位(bit),字节(byte)的含义与关系! 1byte=8bit,1byte约一个英文字母或半个汉字,再看看单位换算: 1KB=1024B,1MB=1024KB 100Mb/8bit=12.5Mbps 表示12.5M/s,也就是数据传输速度为12.5Mbyte每秒! 当然,这只是理论传输速...

【办公应用】如何用Excel透视表分析数据间的差异?

分析数据间的差异,方法有很多,可以用定位法、高级筛选、公式、条件格式、合并计算等。 透视表,自然也行。 使用透视表,分析数据间的差异在透视表的“值显示方式”中,就有“差异”和“差异百分比”两个项目,可以直接分析数据间的差异,如下步骤: 在数据区域上插入透视表 调整布局,将需要分析差异的数据字段拖拽到...