DATA MINING y el Posgrado en Explotación de datos y descubrimiento del conocimiento Ana S. Haedo Departamento de Computación F.C.E.y N. UBA Redbio Rosario Abril 2009
El análisis de datos se ha tornado dominante en el siglo 21. Es un Problema y una Solución
Problema: grandes volúmenes de datos Ventajas : La posibilidad de describir la realidad y formular teorías .
Hasta ahora se empleaba la metodología estadística para extraer información útil. Hoy Data Mining recurre al poder de la tecnología informática para analizar las gigantescas bases de datos que presentan los problemas multidisciplinarios Nos sumergimos en las datos buscando conocimiento pues el volumen de las bases excede los terabytes
Estadística Le da sentido a los datos Tiene problemas en el manejo de grandes volúmenes de datos
Hoy hay disponibilidad de tres tecnologías: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
NUEVAS HERRAMIENTAS Métodos Algorítmicos Métodos iterativos Clasificación Automática Selección Paso a Paso Máxima Verosimilitud Métodos Descriptivos Multidimensionales
Nuevos Dominios de Aplicación Análisis de Imágenes Análisis de Señales Análisis de Procesos Análisis de datos textuales
SITUACIÓN Más datos colectados Más datos almacenados Más datos accesibles Más datos distribuidos
HARDWARE Las bases deben almacenarse y ser fácilmente accesibles para su explotación. Eso requiere mucho espacio en disco y memoria RAM
Almacenamiento de grandes bases de datos Data Mining Es parte de un proceso conocido como "descubrimiento de conocimiento a partir de datos"(KDD:Knowledge Discovery in Databases).
¿Qué es Data Mining ? Proceso de extracción de información válida , útil desconocida y comprensible de una gran base de datos sin conocimiento previo, para obtener patrones y/o relaciones sistemáticas entre variables.
¿Qué es Data Mining ? Campo interdisciplinario que reune técnicas de Aprendizaje Automático Reconocimiento de Patrones, Estadística , Bases de Datos y Visualización para el análisis de los datos orientado al descubrimiento
Data Mining Mayor dimensionalidad del problema. Las técnicas de data mining permiten encontrar relaciones inéditas y continuar el análisis sobre las variables más interesantes.
SOFTWARE IBM Intelligent Miner. ISL Decision Systems, INC Clementine (SPSS). SAS Corporation, “SAS Enterprise Miner”. Silicon Graphics: “MineSet”. Salford Systems. Statistica Miner. SPAD N (Numérico) T (Textual – Datos Simbólicos) SODAS Los vendedores tanto de software como de hardware tratan de capitalizar el boom de DM y el mercado comienza a saturarse. Paquetes cuyo costo oscila entre u$ 50.000 y u$ 100.000 y mucho entrenamiento. Ademas de estos paquetes generales hay otros más específicos.
Los pasos para un proceso de KDD Base de datos Selección de datos Procesamiento Transformación Data Mining: (características, análisis de informaciones extraídas, asimilación, interpretaciones).
MÉTODOS ESTADÍSTICOS Análisis factorial Análisis de Agrupamiento Componentes principales Análisis factorial Análisis de Agrupamiento Análisis discriminante Regresión Logística
OTROS MÉTODOS Redes neuronales. Árboles de decisión. Reglas de Asociación. Modelos Gráficos. Algoritmos genéticos. Sistemas de lógica difusa. Máquinas de Soporte vectorial
TEXT MINING Identificar los términos y conceptos más frecuentemente usados en una base de datos de textos (documentos), descubrir asociaciones entre ellos.
Data Mining y Análisis estadístico El análisis estadístico: procedimiento hipotético-deductivo, técnicas confirmatorias. DM es un proceso inductivo, que utiliza técnicas generalmente exploratorias. DM se utilizará cuando no tenemos supuestos de partida y pretendemos buscar algún conocimiento nuevo.
Data Mining y Análisis Estadístico Las soluciones que aporta Data Mining están basadas en la implementación, mediante la programación de interfases de uso general y algoritmos propios y disponibles para todos, que permiten una exploración y organización eficiente de los datos apoyan la identificación de patrones, relaciones y anomalías de interés potencial para quienes deben tomar decisiones.
APLICACIONES Text Mining Web Mining Detección de fraudes Bioinformática
Actualizar Nuevas Herramientas Nuevos Productos Nuevos Dominios de Aplicación Mejorar Herramientas Existentes
Maestría en Explotación de Datos y Descubrimiento del Conocimiento Carrera de especialización 1 Año Maestría 1 Año adicional
Organización Proyecto conjunto de las Facultades de Ciencias Exactas y Naturales y Facultad de Ingenierìa de la UBA
Objetivos Formación Carrera de Especialización y Maestría Investigación : Proyectos Consultoría: Cooperación y complementación
Organización Director, Co-Director, Vice- Director Comité Asesor Soporte Técnico Soporte Administrativo Sede Administrativa Facultad Ciencias Exactas y Naturales ,Pabellón II Sede Académica FCEyN. Pabellón I Facultad de Ingeniería (Paseo Colón)
Titulos Especialista una vez aprobadas las seis asignaturas del primer año. Magister aprobadas las seis asignaturas de segundo año y la defensa de una Tesis
Admisión Pueden Ingresar Graduados de la UBA con titulo de grado de carreras de cuatro años de duración y graduados de otras instituciones con títulos equivalentes, Graduados de carreras de duración menor luego de aprobar prerrequisitos o cursos de nivelación Importante :Vocación interdisciplinaria de la Maestría.
Dictado Presencial Clases Teórico-Prácticas Asistencia no- obligatoria Apoyo mediante la Web y prácticas de Laboratorio Alumnos regulares y vocacionales
Algunos números Alumnos inscriptos 2004 30 2005 31 2006 36 2007 36 2005 31 2006 36 2007 36 2008 40 Primeras Jornada en 2006 150 Segundas Jornadas en 2007 190 Terceras Jornadas en 2008 220
Algunos Datos Soporte de Laboratorio Servidor HP ML 350 Apoyo de empresas de software
Desarrollo de una metodología de extracción de conocimientos a partir de micromatrices de DNA basada en ontologías genéticas Tesis presentada para optar al Título de Magister Autor: Lic. en Sist. Armando Taié Director: Dra. Ana Silvia Haedo Co-Directores: Dra. Norma Paniego Dr. Marcelo Soria Buenos aires, Diciembre de 2008