Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 1
Contenido ¿Qué es Kettle? ¿Para qué sirve? Principales características Instalación Ejemplos de uso - DEMO Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 2
¿Qué es Kettle? Herramienta de ETL (extracción, transformación y carga) Open Source. Creado por Matt Casters - @mattcasters Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI). Desarrollado integramente en Java. Licencia GNU LGPL. Última versión estable 4.1.0 (30-11-2010). Versión en desarrollo 4.2.0-RC1 (01-07-2011). Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 3
¿Para qué sirve? Integración de datos Carga de datawarehouses y datamarts Limpieza de datos (data cleansing) Análisis y perfilado de datos (data profiling) Migración de datos entre Bases de datos Exportar datos de Bases de datos a archivos planos Etc, etc ... Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 4
Principales características GUI muy avanzada. Soporte para gran cantidad de fuentes de información. Basado en dos tipos de objetos diferentes: Transformaciones Trabajos Las T&T utilizan un lenguaje descriptivo (XML). Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T. Permite extender las funcionalidad mediante el desarrollo de Plugins propios. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 5
GUI muy avanzada Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 6
Fuentes de información Bases de datos (+40): - PostgreSQL - MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Excel Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 7
Transformaciones Orientación a los Datos. Representa una tarea ETL. Es una colección de “pasos”. Cada paso es una operación particular sobre datos. Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos. Los “pasos” trabajan de manera simultánea y asincrónica. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 8
Trabajos Orientación a la Tarea y a los Datos. Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente. La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 9
Herramientas y utilidades para crear, administrar y ejecutar T&T Spoon: IDE gráfico para crear T&T. Kitchen: herramienta de línea de comandos para ejecutar Trabajos. Pan: herramienta de línea de comandos para ejecutar Transformaciones. Carte: servidor liviano para ejecutar T&T en host remotos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 10
Instalación Pre-requisitos - JRE (o JDK) 5.x o superior. Descarga - http://sourceforge.net/projects/pentaho/files/ - Carpeta “Data Integration” - Versión 4.1.0 – 106.5 MB - Versión 4.2.0-RC1 – 225.3 MB Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 11
Después de descomprimir el archivo - Ejecutar spoon.sh (Linux) o spoon.bat (Windows) Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 12
Pantalla de Bienvenida Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 13
Ejemplos de uso - DEMO 01 - leer un archivo txt. Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 14
Libros - Información Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978-1-84951-524-5 Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart Foro SIU Comunidad: http://comunidad.siu.edu.ar/index.php?board=49.0 --------------------------------------------------------------------------------------------------------------- Sitio de PDI - Kettle: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 15
¿Preguntas? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 16
Muchas Gracias!!! Más información: www.siu.edu.ar dw@siu.edu.ar Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR 17