Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Manipulación de datos con Kettle
Ing. Marcos Pierri SIU-Datawarehouse Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
2
Contenido ¿Qué es Kettle? ¿Para qué sirve? Principales características
Instalación Ejemplos de uso - DEMO Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
3
¿Qué es Kettle? Herramienta de ETL (extracción, transformación y carga) Open Source. Creado por Matt Casters Adquirido por Pentaho en Actualmente se llama Pentaho Data Integration (PDI). Desarrollado integramente en Java. Licencia GNU LGPL. Última versión estable ( ). Versión en desarrollo RC1 ( ). Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
4
¿Para qué sirve? Integración de datos
Carga de datawarehouses y datamarts Limpieza de datos (data cleansing) Análisis y perfilado de datos (data profiling) Migración de datos entre Bases de datos Exportar datos de Bases de datos a archivos planos Etc, etc ... Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
5
Principales características
GUI muy avanzada. Soporte para gran cantidad de fuentes de información. Basado en dos tipos de objetos diferentes: Transformaciones Trabajos Las T&T utilizan un lenguaje descriptivo (XML). Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T. Permite extender las funcionalidad mediante el desarrollo de Plugins propios. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
6
GUI muy avanzada Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
7
Fuentes de información
Bases de datos (+40): - PostgreSQL - MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Excel Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
8
Transformaciones Orientación a los Datos. Representa una tarea ETL.
Es una colección de “pasos”. Cada paso es una operación particular sobre datos. Los “pasos” se conectan entre sí a través de “saltos”, que indica cual será el flujo de los datos. Los “pasos” trabajan de manera simultánea y asincrónica. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
9
Trabajos Orientación a la Tarea y a los Datos.
Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente. La ejecución de cada “Entrada de Trabajo” presenta una salida de status, que puede ser analizada para la realización de diferentes acciones. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
10
Herramientas y utilidades para crear, administrar y ejecutar T&T
Spoon: IDE gráfico para crear T&T. Kitchen: herramienta de línea de comandos para ejecutar Trabajos. Pan: herramienta de línea de comandos para ejecutar Transformaciones. Carte: servidor liviano para ejecutar T&T en host remotos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
11
Instalación Pre-requisitos - JRE (o JDK) 5.x o superior. Descarga
- - Carpeta “Data Integration” - Versión – MB - Versión RC1 – MB Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
12
Después de descomprimir el archivo
- Ejecutar spoon.sh (Linux) o spoon.bat (Windows) Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
13
Pantalla de Bienvenida
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
14
Ejemplos de uso - DEMO 01 - leer un archivo txt.
Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. ( 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando s con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
15
Libros - Información Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN: Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN: Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN: Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: Wiki SIU Pentaho: Foro SIU Comunidad: Sitio de PDI - Kettle: Foros Pentaho: Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
16
¿Preguntas? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
17
Muchas Gracias!!! Más información: www.siu.edu.ar dw@siu.edu.ar
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.