当前位置:首页 > 资讯 > 正文

现代数据集成解决方案与数据虚拟化技术

现代企业管理的各种数据在数量、种类及速度上呈现空前爆炸式增长,云和大数据系统等新兴技术带来大量迥然不同的数据,更让这一问题雪上加霜。非但如此,不同数据源还分别存储在功能各异的孤岛中,与其他数据源分割而治。如今,即便是数据湖也会包含众多数据孤岛。


现代数据集成解决方案与数据虚拟化技术  第1张


现代数据集成解决方案与数据虚拟化技术

业务利益相关者需要即时获取最新信息以做出实时决策,但当所需信息分散在多个来源中时,这项任务便颇具挑战。同样地,只有将关键来源的数据汇总到统一来源,云优先、应用现代化、大数据分析等多项举措才能继续开展。遗憾的是,事实证明传统数据集成技术资源密集、十分耗时且成本高昂。

传统数据集成技术

大多的数据集成方法都涉及提取、转换、加载 (ETL) 流程或是密切相关的过程。ETL 流程最早启用要追溯到 20 世纪 70 年代,历经数年发展逐渐趋于成熟和多样化,但顾名思义,仍然不外乎三个基本步骤:

1.

首先,从来源中提取数据。

2.

其次,将提取的数据转换为最终目标所需的格式和结构。

3.

最后,将转换完毕的数据加载至最终目标内,无论是操作型数据存储、数据集市还是数据仓库。


现代数据集成解决方案与数据虚拟化技术  第2张


ETL 流程并非一体适用的解决方案。针对每项流程都要仔细编写脚本并进行测试,以适应每个单独来源和最终目标系统的独特要求。

部分流程会在最后一步执行转换,相应得变为“ELT 流程”,但基本概念并无二致:完成脚本编写并对流程进行测试后,这些流程会从一个或多个来源复制大量数据,并通过排定的批处理过程在单一整合式系统中复制这些数据,期间会应用所有必要的转换。

ETL 流程拥有众多明显优势,因此至今仍在广泛运用:

这些流程在批量转移数据时效率出众、效果出色。

该技术已获得既有供应商的充分了解和广泛支持。

ETL 工具具备可完全支持大批量或成批次数据移动的多项功能。

大多数组织均有能力在内部实施 ETL 流程。

然而近年来,由于数据环境日益复杂,加之从整合式数据中获取可操作智能的需求愈加迫切,各组织逐渐认识到ETL 流程也存在一定程度的劣势:

转移数据并非总是最优解,因为这样一来需要维护新的存储库,既耗费资源又成本高昂。

大型组织每晚可能要运行数千项 ETL 流程,而用来确保同步的脚本很难根据需要进行修改。

由于 ETL 流程按照计划批次交付数据,最终用户在数据交付期间需要等待。分批交付速度因配置和计划而异,但再快也不可能按需即刻交付。因此,不少 ETL 流程都设定为次日交付。

ETL 流程无法处理当今的数据量和复杂的数据类型,例如每分钟事务数据或来自机器传感器的波动性读数。

数据虚拟化技术

数据虚拟化作为一种数据集成策略,所用方法全然不同:数据虚拟化并非物理上将数据移至新的整合位置,而是提供整合式数据的实时视图,源数据则保留在原处。

先进的数据虚拟化解决方案还会更进一步:建立企业数据访问层,提供对组织所有关键数据源的通用访问。在需要访问数据时,业务用户可以查询数据虚拟化层,该层继而从相应数据源获取数据。数据访问组件归数据虚拟化层负责,因此这些用户不必受困于访问的复杂性,例如数据存储位置或数据格式。根据数据虚拟化层的实施方式,业务用户只需提出问题并获取答案,将底层复杂性交给数据虚拟化层处理即可。

 

现代数据集成解决方案与数据虚拟化技术  第3张


大多数情况下,这些无缝的“自助式”场景不会涉及业务用户直接查询数据虚拟化层的情况;相反,其最可能与应用程序、Web 门户或以用户为中心的其他界面交互,继而从数据虚拟化层获取所需数据。基本架构为数据虚拟化层位于中间,所有数据源和所有数据使用者(无论个人还是应用程序)分居两端,如下图所示:

 

现代数据集成解决方案与数据虚拟化技术  第4张


由于数据虚拟化不复制任何数据,故而数据虚拟化层本身不包含任何数据,相反地,仅会包含访问各种来源所需的元数据。数据虚拟化层“轻量化”且易于实施,除此之外还拥有诸多优势。比如,该架构意味着

企业范围的访问控制可轻松应用于数据虚拟化层,而非逐一应用至每个源系统。它还提供让开发人员用来连接 API 的中心位置,兼顾结构化程度各异的数据源。

因此,数据虚拟化是一种现代数据集成策略。它在转换和质量控制功能方面与传统数据集成解决方案大同小异,但能以更低的成本提供实时数据集成,并且速度更快,敏捷性也更高。它可以取代传统数据集成流程及其关联的数据集市和数据仓库,也可简单地对其进行强化以扩展功能。

作为抽象层和数据服务层,数据虚拟化可以轻松驾驭原始和派生数据源、ETL 流程、企业服务总线 (ESB) 及其他中间件、应用程序和设备(无论本地部署还是基于云端),进而在业务技术和信息层之间提供灵活性。

显而易见,与基于复制的传统数据集成方法相比,数据虚拟化拥有明显优势:

能够无缝联合两个或更多个不同数据源(使其外观独立而功能统一),

包括结构化和非结构化数据源的组合。

可以支持智能实时查询优化、缓存、内存处理等增值功能,以及基于来源限制因素、应用程序需求或网络感知的自定义优化策略。

通过 API,任何主要、派生、集成或虚拟数据源的访问皆可在几分钟内以受控方式完成,使用的格式或协议有别于原始形式。

所有数据均可通过单一虚拟层访问,能够快速公开冗余、一致性和数据质量问题,并支持应用通用的端到端治理和安全性控制机制。

数据虚拟化亦有一项劣势:不同于 ETL 流程,它无法支持一些应用场景可能需要的大批量或成批次数据移动。不过,如上所述,数据虚拟化完全可与 ETL 流程并驾齐驱。

 

现代数据集成解决方案与数据虚拟化技术  第5张


数据虚拟化产品从“功能”到“企业平台”的五层结构

随着数据虚拟化解决方案逐渐普及,其部分功能已纳入其他产品当中,有时也用作附加模块或功能。因此,有必要将附加组件或内置数据虚拟化产品与能够建立上文所述企业数据访问层的成熟企业数据虚拟化平台区分开来。

数据混合功能:

数据混合功能。通常包含在商业智能 (BI) 工具中。数据混合可以结合多个来源共同向 BI 工具提供数据,不过输出内容的使用权限仅限于该工具,任何其他外部应用程序均无法访问。

数据服务模块:

数据服务模块。通常由数据集成套件或数据仓库供应商提供,需要额外付费。这些模块提供强大的数据建模和转换功能,但其查询优化、缓存、虚拟安全层、对非结构化来源的支持以及整体性

能往往较弱。原因是这些模块通常设计为原型 ETL 流程或主数据管理 (MDM) 工具。

“SQL化”产品:

化”产品。这一新兴类别在大数据和 Hadoop 供应商中尤为多见。这些产品可对底层大数据技术进行虚拟化,使其能与关系数据源和平面文件相结合,以便使用标准 SQL 进行查询。这可在大数据堆栈方面发挥效用,但也只能止步于此。

云数据服务:

云数据服务。通常部署在云端,并具有与 SaaS 和云应用程序、云数据库及 Microsoft Excel 等少数桌面和本地部署工具的预封装集成。不过,与真正的数据虚拟化产品不同,这些产品具有分层视图并可委托执行查询,可以跨云来源公开标准化 API,以便在中等规模项目中轻松进行数据交换。涉及大数据分析、大型企业系统、大型机、大型数据库、平面文件和非结构化数据的项目不在此类服务范围以内。

数据虚拟化平台

:数据虚拟化平台。这类平台从头开始构建,旨在通过统一的虚拟数据层以多对多方式为企业提供数据虚拟化功能。数据虚拟化平台专为跨各种应用场景(与来源和使用者无关)的敏捷性和速度而设计,优于其他中间件解决方案并能与之协作。

数据虚拟化技术及产品的业务价值

1)维护成本低于传统集成工具。维护成本低于传统集成工具。 

多次物理复制、移动和存储数据所需费用高昂,数据虚拟化可创建虚拟数据层,省去复制或存储成本。

2)以更快的方式管理数据。以更快的方式管理数据。  

不必等待数小时甚至数天,数据虚拟化能够实时提供结果。

3)与传统数据仓库相辅相成。

数据虚拟化可与现有数据仓库解决方案并行部署。

4)最大限度提升性能。最大限度提升性能。 

数据传输开始之前的延迟往往会拖慢性能。数据虚拟化可直连来源实时提供可操作洞察。

5)实现自助式商业智能。实现自助式商业智能。  

多次物理复制、移动和存储数据所需费用高昂,数据虚拟化可创建虚拟数据层,省去复制或存储成本。

6)可实现安全的数据治理。可实现安全的数据治理。  

数据虚拟化能针对企业中的各类信息和元数据建立集中访问点,从而实现安全管理、数据治理和性能监控。

7)远超数据联合范畴。远超数据联合范畴。  

数据虚拟化集数据联合技术十年发展之大成,与数据联合可谓“和而不同”,数据虚拟化涵盖性能优化以及自助式搜索和发现的高级功能。

8)比传统方法更敏捷。比传统方法更敏捷。  

借助数据虚拟化可实现无缝原型设计,并能够在执行战略测试之后在企业层面推广实施。

 

现代数据集成解决方案与数据虚拟化技术  第6张


张青锋,StarNET(辰星网科)CTO及联合创始人。毕业于新加坡国立大学;曾在Oracle, Sybase, StarNET等公司长期从事解决方案架构、技术咨询、产品研发等工作;在大数据/数据湖、数据虚拟化、图数据库/知识图谱等领域具有多年技术架构及产品研发经验。