艾伦·西蒙

很久以前,你是否在五​​毛钱或购物在服装零售商抓住糖果,店主被跟踪的你是什么样的采购。事实上,他们在追踪什么大家都在采购和进货基于哪些物品比别人快卖什么做出明智的决策。该数据维护是在日志完成用钢笔和一些心算,然后存储在一个文件柜。

如今,网上购物,社交媒体网络和店内甚至数字支付选择,见解客户的习惯已经长大远远超出了曾经管理的店内购物。带着估计2.24亿网上购物者仅在美国,存储和使所有的数据的意义是不小的任务。不仅公司需要存储数据,但它也需要从中提取相关信息。幸运的是,我们有像数据仓库,以帮助技术应对挑战。

在这篇文章中,我给你一个什么样的数据仓库,它是如何工作的,以及它背后的关键技术的概述。这是所有的信息,我从我30多年的经验,在数据仓库和我的课程借鉴,数据仓库基础入门,在那里我涵盖了建筑,三维设计的最佳实践,并在组织中实现数据仓库交换所需的数据。

让我们开始与数据仓库的基础知识。

数据仓库基础入门

最后更新2020年3月

畅销书
  • 68个讲座
  • 初学者水平
4.5 (1132)

最佳实践和概念的架构和三维设计|作者:Alan西蒙

探索课程

数据仓库是什么?

数据仓库是数据聚集成一个存储的地方 - 至少,在逻辑上,并且通常,物理上。当我们从多个源应用程序和操作系统整合数据,大多是从我们企业内部,也来自外部数据提供商,我们可以得到关于我们的业务很多有价值的见解。

包含公司日常事务记录的关系数据库中的信息通常是存储在仓库中的数据类型。然后,对这个中央存储库中的数据进行重组,以支持报告、商业智能(BI)和分析——所有数据驱动决策所需的工具,以保持公司的竞争力。

数据仓库诞生于20世纪80年代末和90年代初,基于几种不同的分析数据管理理论。IBM的研究人员巴里·德夫林和保罗·墨菲被认为是先人们创造在80年代后期“业务数据仓库”。然后,在分布式数据库管理系统前期的努力失败了,比尔·因蒙定义为保持了整个90年代到21世纪数据仓库的规则。与此同时,拉尔夫·金博尔也对纪律作出了重大贡献,特别是在通过三维建模数据仓库的设计。数据仓库的概念,后来发展成为我们今天所看到的 - 已成长与计算机发展的一个复杂的系统。

数据仓库与数据库

让我们澄清一个常见的混淆点:数据仓库与数据库不同。简单地说,数据库记录数据,而数据仓库最好被看作是分析历史数据和它所收集的交换数据的环境。

数据仓库通常是建立在数据库之上。该数据库是平台,而数据仓库的使用。更多的数据源目前,比较复杂的数据仓库将成为。

目前最流行的一些数据仓库供应商包括Amazon Redshift、谷歌BigQuery、Snowflake、Oracle和IBM Db2 warehouse等。

什么是数据仓库的好处是什么?

数据仓库报价见解是什么公司的数据可能意味着,使数据驱动的决策。对于一个广阔例如,主管和经理看信息从他们的数据仓库,以了解他们的业务是如何做什么,如果有的话,趋势正在出现。然后,他们在某种程度上,这将导致战略变化解释数据。这些变化可以提供竞争优势,提高企业的寿命。

从更狭义的意义上说,这些数据驱动的见解和由此产生的决策涵盖了我们企业的广度,从销售到市场营销到财务,从制造到供应链到人力资源和人事。此外,这些数据驱动的见解可以以地理方式结合起来——例如,对一家公司所有北美业务的发现,或对其所有欧洲业务的发现。这些见解可以在企业层面产生,也可以在组织层面产生。从本质上讲,数据仓库负责收集和组织数据,而商业智能的兄弟学科负责交付洞察力。

数据仓库使用BI工具进行分析的意义,并制定战略基于其过去和当前状态,以提高企业未来的有效途径。

数据湖与数据仓库

与数据仓库经常听到一个术语数据湖。这是两种不同类型的数据存储用途,但两者之间的界限正变得越来越模糊。

数据仓库主要构建在关系数据库管理系统(dbms)之上,如Microsoft SQL Server、Oracle或IBM DB2。数据仓库通常只包括结构化数据,如数字、字符串、日期等。

一个数据湖带来任何类型的数据 - 是否结构的,非结构化的或半结构化的 - 一起从许多不同的来源和应用程序支持的分析。从本质上讲,数据通过湖应用和平台的障碍,有助于打破,并提供一站式的购物数据。数据湖泊用于管理非常大的数据量,快速的摄入量和数据的更新,以及 - 如上所述 - “数据综艺”通过处理结构化,半结构化和非结构化数据。他们建立在大数据环境中,如Hadoop的或AWS(亚马逊Web服务)的数据平台,比如S3,红移,极光和其他AWS数据平台之上。

在某些方面,数据湖可以被看作是一个继任者的数据仓库。大多数机构仍然有从数据仓库来他们的数据分析的基础上,但他们使用它旁边人工智能,机器学习,并通过数据驱动湖等先进的分析。

理想情况下,企业应该有自己的数据仓库和数据湖泊环境之间的良好架构的整合,以避免两者之间不必要的碎片。

什么是一些数据仓库技术?

数据仓库可以被认为是一个子学科的集合,每个子学科都是一组专门的技术,包括:

ETL - 抽取,转换,加载

当数据从源移动到数据仓库时,会出现一组流程,称为提取、转换和加载(ETL)。这三个流程协同工作,对传入数据进行格式化和规范化,以便正确地将其加载到仓库中。

提取流程从原始数据源导入数据,并尽可能快地将该数据输入到数据仓库环境中。对传入数据进行最小的更改;其想法是能够在有限的时间内摄入潜在的大量数据。

接下来是转型相。这是阶段即整理并通过使数值和结构相符将数据转换成一个统一模式。数据质量保证和认证,通过固定的已知错误或以其他方式试图阻止正在进入哪些用户可以访问错误的数据出现的改革的一部分。

一旦数据被均匀地,格式化的加载阶段就开始了。这包括采取这一暂时在提取阶段保存的数据,并把它永久地到目标数据库。

负载阶段是最后阶段,虽然整个ETL过程重复 - 并经常反复 - 数据仓库保持最新。数据的一个重要方面检索以数据仓库为三维建模,这使得它更容易和更快的检索数据。

三维建模

的技术三维建模与BI的数据仓库的兄弟纪律贴紧,并帮助我们构建数据事实(基本上,测量)尺寸(基本上,我们如何切片,切块,和过滤这些事实)。

数据的多维建模本身就是数据仓库的一个子学科。为了返回准确的信息,数据仓库必须通过定期添加来自源系统的新内容和更新内容来保持最新。一些额外的或修改的内容以新的事实的形式出现,比如新的销售,或退货和退款。或者在其他领域,事实可能是大学学期末的成绩。其他额外的或修改过的内容是针对维度的:全新的产品、新雇佣的教员,或关于第一次下订单的客户的人口统计信息。

即使在维度建模中,我们也可以将数据库表构造成不同的结构模式取决于数据团队的架构方法。无论采用哪种方式,数据库规则都可以控制如何在数据仓库中构建数据库表,以及如何将这些表相互关联。

星型和雪花模式

架构是数据仓库架构的一部分,它们在数据的整理与分析的作用。数据仓库经常使用两种模式,星型模式和雪花模式的。

星型模式有一个称为事实表的中央表,并且从数据的表,其它维度表干具有相关联的数据。尺寸表不相互​​结合 - 只对事实表 - 这样,它的星形。这是在一个数据仓库架构的最简单的形式,它是用来查询大型数据集。

雪花模式正如它的名字所暗示的,它的形状是雪花状的。与星型模式一样,雪花模式仍然有一个主事实表,但是它有来自其他维度表的维度表。

商业智能工具通常提供对数据仓库的设计指导,星型或雪花型架构模型是否应该使用。一些BI工具与星型模式更好的工作,而另一些则对雪花模式进行了优化。无论哪种模式实施后,星型和雪花模式被设计为支持我们的数据的多维分析。

为什么要使用数据仓库?

数据工程师和人民谁与海量数据处理的类似职位往往会发现数据仓库的有用工具。希望有一个更简单的方法来访问大量数据的组织也可能更喜欢工作,数据仓库,而不是数据的湖泊。

专业人员使用数据仓库的方式有很多种。一些数据仓库专家只关注数据仓库本身,比如仓库的维度建模或ETL开发。bob外围官网另一些人只处理经典的、基于关系的数据仓库,而另一些人则处理数据仓库使用的决策科学方面(BI、数据可视化和其他分析形式)。

通知数据驱动的业务决策的能力需要一个团队,在数据仓库论证的技能。拥有这些技能的专业人士看到他们的知识一贯的高需求为企业全面了解这两个新的发展,以及现有数据仓库的日常维护和增强数据能力的重要性。bob外围官网

数据仓库如何实现更好的决策

总体而言,数据仓库是什么会为你的公司做什么?它会让精简一次耗时的过程,将数据备份意识,经营业绩,使员工能够使用数据更好地阐明见解您的业务效率和竞争力。

随着公司的数据整合,它变得更容易,一致和高品质,所有这些都迫切需要经营业务,强大的决策蓬勃发展。你花不必重复采集,整合,清理,并从不同的源组织数据,更多的时间,你可以花的故障排除方法来移动你的公司前进和改善你做什么的时间更少。

法师需要规划,构建技术,并与我的课程设计数据仓库数据仓库基础入门-你将改变你的组织组织数据的方式,这将是建立可靠数据洞察力的重要一步。

页面最后更新:2020年6月