数据仓库
参考资料:
https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E4%BB%93%E5%BA%93
一般缩写成DW,数据仓库是一个面向主题的,集成的,相对稳定的,反应历史变化的数据集合,支持管理决策。
数据仓库就是一个存放数据的仓库,里面存放了各种各样的数据,而这些数据需要按照一些结构,规则来组织和存放。
数据库与数据仓库
数据库:平时用到的关系型数据库(MySQL,Oracle,PostgreSQL…)还有一部分是非关系型数据库,主要存放业务数据。
而和数据仓库的区别主要在于下面这两点。
-OLTP transaction 联机事务处理—主要是业务数据,需要考虑高并发,考虑事务
-OLAP analytical 联机分析处理—主要是面向分析,会产生大量的查询,一般很少涉及增删改查
数据仓库的建立步骤
收集和分析业务需求
建立数据模型和数据仓库的物理设计
定义数据源
选择数据仓库技术和平台
从操作型数据库中抽取,净化,和转换数据到数据仓库
选择访问和报表工具
选择数据库连接软件
选择数据分析和数据展示软件
更新数据仓库
数据仓库和数据集市
有关决策支持型数据库的数据集市是面向企业中的某个部门或是项目小组的。
数据集市的建造是建立数据仓库全过程中的一步。
首先,一个储存企业全部信息的数据仓库被创建,其中,数据均具备有组织的、一致的、不变的格式。
数据集市随后被创立,其目的是为不同部门提供他们所需要的那部分信息。数据仓库聚集了所有详细的信息,而数据集市中的数据则是针对用户们的特定需求总结而出的。
而另外一些专家则认为数据集市的建立并不需要首先建立一个数据仓库。在这个模型中,数据直接由事务型数据库转入数据集市中。一个公司可能建立有多个数据集市,而彼此之间毫无联系。(这种不在建立数据仓库的基础上创建数据集市的方式会更便宜、更快速,因为它的规模更加易于管理。)
第二种观点的缺陷在于无法实现最初创建数据仓库的最主要的目的——将企业所有的数据统一为一致的格式。现有的事务处理系统的数据往往是不一致、冗余的。如果首先建立起一个全公司范围的数据仓库,组织就能够获得一个统一关于企业的活动和客户的知识库。如果先建立起一个个独立的数据集市,那么数据仓库的诸多优势都能够得以实现,但是企业远远无法做到对数据的一致的储存。