TIBERIUS Predictive Modelling Software Introducción a los Sistemas Inteligentes Gabriel Cartuccia Rodrigo Varela 2005-12-31 01/11/2010
Agenda Introducción a la herramienta Qué problemas resuelve Fuentes de datos soportadas Exportación de los resultados Funcionamiento Parametrización de input y output Configuración y entrenamiento del modelo Resultados Predicciones Importancia de las variables Histogramas Gráficos de dispersión Demo Conclusiones
Introducción a la herramienta Es una herramienta para el modelado y visualización de datos Ganadora de varios certámenes internacionales como la herramienta más precisa (NCDM Analytic Challenge 2008, BI CUP 2006, entre otros) Corre en plataforma Windows 30 días de prueba con limitaciones en la cantidad de datos de entrada, después debe pagarse una licencia Existe una licencia estudiantil (¡nosotros conseguimos una!) Múltiples técnicas de modelado (redes neuronales, árboles de decisión, entre otras) Construcción gráfica de los modelos Resultados presentados en tablas y gráficos (2D y 3D) Sitio web: http://www.tiberius.biz
Qué problemas resuelve Tiberius es ideal para: Modelado de respuesta de clientes Modelado de valores de divisas (tipos de cambio) Predicción de riesgo crediticio Modelado de procesos industriales En general, cualquier problema que requiera construir un modelo predictivo Tiberius incluye: Redes neuronales Árboles de decisión Curvas de regresión Categorizador de variables Visualización de datos en 3D Herramientas para monitorear los modelos Recodificación de datos Procesos batch Entre otras características...
Fuentes de datos soportadas Tiberius puede abrir nativamente los siguientes archivos: Microsoft Excel (.xls) Microsoft Access (.mdb) dBase (.dbf) Archivos de texto separados por tabulaciones (.tab) Archivos de texto separados por comas (.csv) Instalando los drivers de bases de datos apropiados: IBM SPSS - Statistical Package for the Social Sciences (.sav) Cualquier base de datos compatible con ODBC: Oracle SQL Server MySQL Teradata SAS
Exportación de los resultados Tiberius Weight File (.twf) Microsoft Excel Open XML Macro-Enabled Spreadsheet (.xlsm) Visual Basic Project (.vbp) HTML (.html) Archivos de texto plano (.txt)
Funcionamiento
Parametrización de input y output Se elige la fuente de datos y se definen las variables de input y de output deseadas.
Configuración y entrenamiento del modelo Para el caso de problemas de clasificación, se configura la red neuronal y se la entrena con el set de datos dado en el paso anterior.
Funcionamiento Resultados
Resultados – Predicciones Una vez construido el modelo, la herramienta utiliza los resultados obtenidos a partir de los datos de entrenamiento para predecir la clase de los datos de prueba.
Resultados – Importancia de las variables Una vez que el modelo ha sido construido, es útil determinar qué atributos de entrada son los más relevantes.
Resultados – Histogramas Histogramas (separados por clase) de los datos en bruto, los resultados finales del modelo y los errores del mismo. Estos histogramas muestran gráfica- mente por qué ciertas variables son importantes y por qué otras no.
Resultados – Gráficos de dispersión Se muestran los datos en bruto del conjunto de entrada.
Veamos a la herramienta en acción mediante un ejemplo de clasificación Demo Veamos a la herramienta en acción mediante un ejemplo de clasificación de flores usando redes neuronales
Conclusiones Ventajas: Facilidad de uso Soporta múltiples formatos de datos de entrada, incluyendo los datos almacenados por los principales motores de bases de datos del mercado Modelado visual Resultados mostrados gráficamente Desventajas: Es software comercial, si no se compra una licencia hay un límite en la cantidad de datos de entrada
¡Muchas gracias! Gabriel Cartuccia Rodrigo Varela