数据仓库的基本架构及架构图介绍

数据仓库简介 数据仓库,英文名称为datawarehouse,可简写为dw或dwh。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的用途 1.整合公司所有业务数据,建立统一的数据中心
2.产生业务报表,用于作出决策
3.为网站运营提供运营上的数据支持
4.可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
5.分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
6.开发数据产品,直接或间接地为公司盈利
数据仓库分层的原因 1通过数据预处理提高效率,因为预处理,所以会存在冗余数据
2如果不分层而业务系统的业务规则发生变化,就会影响整个数据清洗过程,工作量巨大
3通过分层管理来实现分步完成工作,这样每一层的处理逻辑就简单了
标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)
ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。
pdw:数据仓库层,它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都遵循数据库第三范式,数据粒度和ods的粒度相同,它会保存bi系统中所有历史数据
mid:数据集市层,它是面向主题组织数据的,通常是星状和雪花状数据,从数据粒度将,它是轻度汇总级别的数据,已经不存在明细的数据了,从广度来说,它包含了所有业务数量。从分析角度讲,大概就是近几年
app:应用层,数据粒度高度汇总,倒不一定涵盖所有业务数据,只是mid层数据的一个子集。
数据仓库的架构图介绍
1、数据采集 数据采集层的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些etl操作。
数据源种类可以有多种:
日志:所占份额最大,存储在备份服务器上
业务数据库:如mysql、oracle
来自http/ftp的数据:合作伙伴提供的接口
其他数据源:如excel等需要手工录入的数据
2、数据存储与分析 hdfs是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。
离线数据分析与计算,也就是对实时性要求不高的部分,hive是不错的选择。
使用hadoop框架自然而然也提供了mapreduce接口,如果真的很乐意开发java,或者对sql不熟,那么也可以使用mapreduce来做分析与计算。
spark性能比mapreduce好很多,同时使用sparksql操作hive。
3、数据共享 前面使用hive、mr、spark、sparksql分析和计算的结果,还是在hdfs上,但大多业务和应用不可能直接从hdfs上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据。
这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和nosql数据库。
4、数据应用 报表:报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层。
接口:接口的数据都是直接查询数据共享层即可得到。
即席查询:即席查询通常是现有的报表和数据共享层的数据并不能满足需求,需要从数据存储层直接查询。一般都是通过直接操作sql得到。
理想的数据仓库架构
增加了以下内容:
数据采集:采用flume收集日志,采用sqoop将rdbms以及nosql中的数据同步到hdfs上
消息系统:可以加入kafka防止数据丢失
实时计算:实时计算使用sparkstreaming消费kafka中收集的日志数据,实时计算结果大多保存在redis中
机器学习:使用了sparkmllib提供的机器学习算法
多维分析olap:使用kylin作为olap引擎
数据可视化:提供可视化前端页面,方便运营等非开发人员直接查询

重庆渝中区引进Adobe Certified Professional 影视培训和认证中心
如何解决国内小区电动车充电桩数量和分布问题?
OPPO Find X2无线充电设置界面截图曝光 支持无线反向充电且功率达30W
基于Intel PXA270的移动天文观测系统的设计
织物透湿量测试仪的技术指标以及特征是怎样的
数据仓库的基本架构及架构图介绍
中国移动正式发布了2019年至2020年抗DDOS攻击设备采购招标公告
如何处理服务存在内存泄漏问题?
Vivo Y51A的功能和价格似乎很有竞争力
鹏博士利用办公物联网助力企业实现智慧办公
交流电和直流电的传输过程是怎样的
遥控玩具越野车DIY图解
高通指控苹果偷窃芯片机密,用于改进英特尔的芯片性能
华为网络技术专家阐述了当前数据网络的问题和创新需求
西门子Sinumerik 828紧凑型数控系统亮相 助力标准型数控市场数字化建设
2017旗舰机哪款最值得推荐
基于GPS的电压互感器二次线路压降自动跟踪补偿装置的设计与实现
泛林发布半导体刻蚀技术解决方案
此iBag非iPad,剁手智能手袋替你管好钱包
Xilinx 7系列FPGA Multiboot介绍