Startseite »

Impressum

Software > Software-Nachrichten > Big-Data-Integration
Big-Data-Integration

Das Wachstum des Data Warehouse bewältigen

Presseartikel eingestellt am 07.11.2023 zur Software CoSort

07.11.2023 Babenhausen - Die meisten heute üblichen ETL- und ELT-Tools sowie Datenbanken können große Datenmengen nicht effizient transformieren, jedenfalls nicht ohne Mehraufwand.

Die meisten heute üblichen ETL- und ELT-Tools sowie Datenbanken können große Datenmengen nicht effizient transformieren, jedenfalls nicht ohne 

  • eine teure Parallelverarbeitungs-Edition 
  • Entnahme von Datenbank- oder Systemressourcen von Dritten
  • eine komplexe, schwer zu wartende Hadoop- oder Spark-Umgebung
  • eine 6- oder gar 7-stellige Investition in Hardware-Appliances oder Server-Upgrades oder
  • das Problem auf eine noch teurere Datenbank zu übertragen.

Grund dafür sind die komplexen Sortier-, Joint- und Aggregations-Jobs, die sonst zu lange dauern. Auch nachfolgende Aufgaben, wie etwa das Laden, Analysieren oder BI-Displays, leiden dadurch. Und all diese E-, T- und L-Schritte – kurz für Extraktion-, Transformation- und Laden – werden typischerweise in separaten Schritten und I/O-Durchgängen, mit unterschiedlichen Tools oder auch ständig wechselnden Cloud-Konfigurationen durchgeführt.

Den Turbo einschalten

Wer bereits ETL- oder ELT-Tools verwendet, kann als Turbo für diese Schritte die Extraktions- und Transformationsprogramme von IRI direkt einbinden – wie etwa FACT (Fast Extract) für den parallelen Datenbank-Unload, CoSort für Big Data Sortierung und Manipulation oder die umfassende ETL- und Datenmanagement-Plattform Voracity – die innerhalb anderer ETL-Tools ausgeführt werden können und auf unterschiedlichster Hardware laufen.

Sortier-, Joint- und Aggregations-Transformationen in Tools wie Informatica, Datastage, Talend, Pentaho, ODI und anderen können ebenso optimiert werden. Viele Datentransformation- und Datenintegrations-Aufträge können auch direkt in Hadoop ausgeführt werden und können dann aus anderen Tools auf API- oder Skript-Ebene aufgerufen werden, z.B. aus Kalido, ETI, Natural der Software AG, SAS oder Terastream.

So lassen sich die vorhandenen Metadaten und Workflows einfach weiter nutzen; die IRI-Software wird dabei direkt von einem der bereits vorhandenen Tools aufgerufen, um die Verarbeitungsgeschwindigkeit zu erhöhen und/oder beim Entladen oder bei Datentransformationen Operationen zu nutzen wie Sortierungen, Joins, Aggregate, Lookups, Perl-kompatible reguläre Ausdrücke, Datentyp- und Dateiformatkonvertierungen, Feld-/Spaltenverschlüsselung und Maskierung, Detail-, Delta- (Changed Data Capture, CDC) und Summenberichte, Pivoting von Zeilen und Spalten oder Generierung von Testdaten.

Die IRI-Jobs lassen sich per Kommando an das Betriebssystem als Batch-Job starten – oder auch per ETL-Tool-Befehl über API oder Eclipse GUI aufrufen, um dann die Daten bei Bedarf über Dateien, Pipelines oder Prozeduren hin und her fließen zu lassen. In der GUI-Umgebung der Workbench lassen sich die einzelnen Job-Spezifikationen oder aber auch komplette ELT- und ELT-Workflows erstellen, die dann mit den gewünschten Quellen und Zielen verbunden werden. Dabei unterstützen die IRI-Tools über 150 verschiedene Quellen und Ziele, lokal oder in der Cloud. 

Counter

Industrie.de Infoservice
Vielen Dank für Ihre Bestellung!
Sie erhalten in Kürze eine Bestätigung per E-Mail.
Von Ihnen ausgesucht:
Weitere Informationen gewünscht?
Einfach neue Dokumente auswählen
und zuletzt Adresse eingeben.
Wie funktioniert der Industrie.de Infoservice?
Zur Hilfeseite »
Ihre Adresse:














Die Konradin Verlag Robert Kohlhammer GmbH erhebt, verarbeitet und nutzt die Daten, die der Nutzer bei der Registrierung zum Industrie.de Infoservice freiwillig zur Verfügung stellt, zum Zwecke der Erfüllung dieses Nutzungsverhältnisses. Der Nutzer erhält damit Zugang zu den Dokumenten des Industrie.de Infoservice.
AGB
datenschutz-online@konradin.de