Pentaho data integration (PDI) - narzędzie Kettle ETL

Środowisko Kettle (K.E.T.T.L.E to skrót od Kettle ETTL Environment) w zostało przejęte przez grupę Pentaho i oficjalnie zmieniło nazwę na Pentaho Data Integration. Jednak nazwy Kettle i Pentaho Data Integration w dalszym ciągu funkcjonują zamiennie.
Kettle ETL jest wiodącym rozwiązaniem open source na rynku narzędzi wspierających proces ETL. Kettle jest klasyfikowany jako narzędzie ETL (model klasyczny - czyli extrakcja, transformacja, ładowanie), jednak koncepcja procesu została w tym przypadku nieznacznie zmodyfikowana, jako że Kettle jest zbudowany z czterech komponentów, tworząc skrót ETTL:

  • Extraction - ekstrakcja danych z źródłowych baz danych
  • Transport danych
  • Transformacja danych
  • Loading - ładowanie danych do hurtowni danych

    Pentaho Data Integration jest zostawem narzędzi i aplikacji pozwalających na przetwarzanie i strojenie danych pochodzących z różnych źródeł.

    Narzędzia ETL są najczęściej wykorzystywane w środowiskach hurtowni danych, jednak PDI może mieć również inne zastosowania, jak np:
  • Migracja danych pomiędzy aplikacjami, bazami danych i plikami tekstowymi
  • Czyszczenie danych i zarządzanie jakością danych
  • Integracja pomiędzy aplikacjami korzystającymi z różnych baz danych, formatów plików i standardów

    PDI jest łatwy w użyciu dzięki udostępnieniu graficznego środowiska dla dewelopera, który nie musi znać języków programowania do tworzenia przepływów (jakkolwiek znajomość języków skryptowych może okazać się pomocna).
    Dużą zaletą PDI jest również fakt, że aplikacja ta może być używana całkowicie niezależnie od platformy Pentaho BI. PDI obsługuje szeroką gamę formatów wejściowych i wyjściowych, w tym: pliki tekstowe, arkusze kalkulacyjne oraz ogromną gamę zarówno komercyjnych jak i darmowych silników baz danych.

    Głównymi komponentami Pentaho Data Integration są:
  • Spoon - (z ang. łyżka) to narzędzie graficzne pozwalające na bardzo łatwe tworzenie transformacji ETL. Narzędzie to dostarcza typowych funkcji modelowania przepływu danych, takich jak odczyt, walidacja, strojenie, transformacja, zapis i wspiera komunikację z szeroką gamą baz danych. Transformacje stworzone w narzędziu Spoon mogą być uruchamiane bezpośrednio z interfejsu użytkownika lub za pomocą aplikacji Pan (w tym z harmonogramu systemowego).
  • Pan - (z ang. rondel) jest narzędziem uruchamianym z linii komend służącym do uruchamiania transformacji danych zaprojektowanych w Spoon i zapisanych w repozytorium lub w pliku XML. Z reguły transformacje uruchamiane są z harmonogramu systemowego w regularnych odstępach czasowych.
  • Kitchen - (z ang. kuchnia) aplikacja umożliwiająca uruchamianie jobów utworzonych s Spoon w tzw. trybie batch. Zwykle joby uruchamiane są według ustalonego harmonogramu
  • Carte - Carte Server jest prostym serwerem webowym, która pozwala uruchamiać monitorować i zatrzymywać transformacje i joby zdalnie.

    Poniżej znajduje się lista wybranych baz danych wspieranych przez Pentaho Data Integration:
    - Każde poprawnie skonfigurowane źródło ODBC w Windows (poprzez ODBC-JDBC bridge)
    - Oracle
    - MySQL
    - AS/400
    - MS Access
    - MS SQL Server
    - IBM DB2
    - PostgreSQL
    - Intersystems Caché
    - Informix
    - Sybase
    - dBase
    - Firebird SQL
    - MaxDB (SAP DB)
    - Hypersonic
    - CA Ingress
    - SAP R/3 System (z wykorzystaniem plugina ProSAPCONN)
    - Big Data (dystrybucje Hadoop z Cloudera, Hortonworks, MapR i Intel).
    - Pluginy do baz NoSQL takich jak Cassandra i MongoDB
    - Salesforce.com (SFDC) CRM - VectorWise, Netezza, InfoBright

    Więcej informacji o Pentaho można znaleźć na stronach ETL-Tools.Info: Pentaho ETL Tutorial w języku angielskim

    Szkolenia Pentaho Data Integration

    Szkolenia Pentaho Data Integration Open Source dla początkujących i dla zaawansowanych użytkowników, prowadzone w formie warsztatów i dostosowane do potrzeb klienta.