跳转到内容

盘点 (资料)

本页使用了标题或全文手工转换
维基百科,自由的百科全书

盘点区接地区, 是资料处理过程在萃取/转置/加载(ETL)的中介存储区。此一资料盘点区是位于资料(多个)来源和(多个)目标之间, 通常会是数据仓库, 资料超市, 或其他的资料存储库。[1]

资料盘点区在本质上通常是暂存的, 其内容在执行 ETL 处理前, 或成功完成 ETL 处理后立即会被清除。而盘点区的架构被设计着重于延长保有资料的时间处理归档, 或排调试误。

实现[编辑]

盘点区能有的实现方式是用一般数据库的资料表, 存储在文件系统中以文字展开的文件(或XML文件)或专属格式的二进制文件。[2] 盘点区架构复杂的范围, 从目标数据库的一组单纯关系资料表, 到独立的数据库实例或文件系统。[3] 尽管来源系统和目标系统支持的 ETL 处理, 通常是一般数据库, 但位于资料来源和目标之间的盘点区也不尽然是一般数据库。[4]

功能[编辑]

盘点区能够安排提供很多好处, 但其主要动机是用来增加 ETL 处理的效率, 确保资料完整及支持资料操作的质量。盘点区的功能包含下列各项:

整并[编辑]

盘点区担任的主要功能之一, 就是集成多个来源系统的资料。执行此一功能时, 盘点区就如同是一个大型的‘桶’可暂时放置从多个来源系统的资料, 便于未来的处理。常见的是在盘点区标记资料, 利用额外诠释资料指示原版的来源, 和时间戳记指示资料何时被放置到盘点区。

一致[编辑]

一致化数据包含跨多个来源系统的参考资料标准化, 以及检核来自不同来源的纪录和资料成分间的关系。[2] 在盘点区资料的一致化, 是功能上的密切相关也是支持‘主资料管理’(Master Data Management)的能力。[5]

减少争夺[编辑]

盘点区和所支持的 ETL 处理, 其设计目标通常要能在来源系统做资源上竞争的最小化。一次性从来源拷贝需要的资料到盘点区, 常会较逐笔检索个别纪录(或小组群)要有效率。之前在技术上优势的做法, 是诸如资料流技术, 透过减少需要中断来降低负担和重新连接到来源系统, 并优化在多人使用来源系统的并发锁定管理。然而以复制来源的资料, 接着在盘点区等待执行的集中处理与转换的 ETL 方式, 可获得比并发相关处理更好的控制。

独立调度/多目标[编辑]

盘点区能在特定时间内安排好资料供给, 该资料是迳给多个目标。某些状况下, 资料可在不同时间拉入盘点区存放, 以便一次进行全部处理。举例来说, 此类状况有可能发生企业处理进行在跨时区的每个夜晚。其他情况也可能有资料被带入盘点区以便在特定时间处理; 或在盘点区推送资料到多个目标系统。例如, 每日营运资料会被推送到作业数据存储(Operational Data Store, ODS), 而相同资料也被送到以每月聚集形式的数据仓库。

变更侦测[编辑]

盘点区支持根据目标系统的有效变更侦测。此功能在来源系统不支持可靠形式的变更侦测, 像是系统强制时间戳记, 变更追踪, 或者变更资料捕捉(Change Data Capture, CDC)时, 特别有用。

清理资料[编辑]

资料清理包含从来源系统中识别和移除(或更新)无效的资料。利用盘点区, ETL 处理可用来实现企业逻辑去辨别与处理 "无效的" 资料。无效资料的定义通常是业务规则与技术限制的组合。技术性约束可能外加于盘点区的结构 (诸如一般数据库中表格约束), 以强制资料的有效性规则。[2]

汇集重算[编辑]

复杂业务逻辑的汇集,复杂计算与应用的重算可在盘点区进行, 以支持高回应服务级别协议(Service Level Agreements, SLAs), 用于目标系统的汇总报表。[3]


资料归档/问题排除[编辑]

资料归档能在盘点区进行或支持。这种情境下, 在加载过程中, 盘点区可用来维护历史纪录, 或推送资料到目标下的归档结构。此外, 资料也能维护在盘点区保存更长的时间, 以利支持 ETL 处理的技术问题排除 ....[3]


参考文献[编辑]

  1. ^ Oracle 9i Data Warehousing Guide, Data Warehousing Concepts页面存档备份,存于互联网档案馆), Oracle Corp.
  2. ^ 2.0 2.1 2.2 Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals, p. 137-138, Paulraj Ponniah, 2001.
  3. ^ 3.0 3.1 3.2 BI Experts: Big Data and Your Data Warehouse's Data Staging Area页面存档备份,存于互联网档案馆), The Data Warehousing Institute, Phillip Russom, 2012.
  4. ^ Is Data Staging Relational? 互联网档案馆存档,存档日期2013-12-26., Ralph Kimball, 1998.
  5. ^ Master Data Management in Practice: Achieving True Customer MDM, Dalton Cervo and Mark Allen, 2011.