數據提取、轉換與加載(ETL,Extract-Transform-Load)工具能夠使組織內的不同數據更易于訪問、更有意義、也更能被其他數據系統所使用。通常情況下,面對由此產生的自寫代碼、自建系統的相關成本和復雜性時,企業會直接去選擇購置ETL工具。
Information Builders的iWay集成套件具有將應用程序與數據相集成的功能。客戶可以使用它們來管理結構化、與非結構化的信息。該套件包括有iWay數據遷移器、iWay服務管理器和iWay通用適配器框架。
Pitney Bowes能夠提供大量針對數據集成的工具和解決方案。其Sagent Data Flow是一款靈活的整合引擎,它能夠采集不同來源的數據,并提供一套全面的數據轉換工具,以增強其核心的業務價值。
以前被稱為Business Objects Data Integrator的SAP業務對象數據服務(BODS)是一款可被用于數據集成、質量控制、分析和處理的ETL工具。它能夠幫助您將可信的數據整合并轉換到各個數據倉庫的系統之中, 以產生分析報告。
Sun的ETL與數據集成工具是大型Java復合應用程序平臺套件(CAPS)中的一部分。它是Oracle公司的一款標準化企業服務總體套件(Enterprise Service Bus software suite)。Java CAPS的組件能夠整合現有應用程序,并能在面向服務的架構環境中提供新的業務服務。
Sybase ETL Development是一款用于創建和設計數據轉換項目與作業的GUI工具。該工具提供了一個完整的模擬與調試環境,旨在加速ETL轉換流程的開發。Sybase ETL Development包含有一臺用于控制實際處理流程的ETL開發服務器,它能夠連接到各個數據庫,并執行相關過程。
數據批處理與轉換工具很難實現跨平臺的數據源采集,特別是在涉及到變更數據捕獲(CDC,Change Data Capture)的情況時。當上傳批量數據出現問題時,您需要跟蹤問題、排除故障并盡快重新提交作業。而這種批量處理方式是非常致命的,因為如果在數據倉庫中存在著超過24小時的、被API調用與分配的數據;或者需要同時備份傳入的數據,那么這些CDC信息就可能因此而丟失或被覆蓋,從而造成巨大的問題。
隨著對實時數據訪問需求的出現,諸如Kafka之類的最新模型,都能夠實現基于數據流的處理和分布式的消息隊列。以Alooma為代表的公司,通過新的技術提供了基于SaaS平臺和本地的解決方案。面對數據流,最新的ETL平臺能夠在完成加載的數據倉庫內部,進行不同級別的轉換,并通過Python、Java等代碼以實現完全控制。
Alooma是一個為云服務構建的企業數據管道(data pipeline)平臺。Alooma能夠提供一種現代的、可擴展的、基于云端的ETL解決方案,它可以實時地將來自任何數據源的數據匯集到任何一個數據倉庫之中。