Metodologías para Minería de Datos

Slides:



Advertisements
Presentaciones similares
Unida III Software para la administración de proyectos
Advertisements

Ciclo de Vida de Desarrollo de los Sistemas de Información
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Relaciones y diferencias entre minería de datos y estadística
Venta al detalle en comercio electrónico
Introducción a la minería de datos
Instituto Profesional AIEP Marketing Estratégico
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
ANÁLISIS DE REQUERIMIENTOS
CRISP-DM (
Evaluaciones de Sistemas de Administración de la Seguridad SMSA
¿ PREGUNTAS DE NUESTRO TEMARIO ?. 1.- ¿ ES NECESARIO ESTAR CERTIFICADO EN ALGUNA NORMA O MODELO ?
DISEÑO ORIENTADO AL OBJETO
MaNuaL APQP CAPITULO 1 EQUIPO # 1 Lucero Honorina Alderete Loera
Ing. Esp. Ricardo Cujar. El computador: es una máquina que permite hacer tareas aritmético y lógicas de una manera fácil, consta de software y hardware.
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
AUDITORIA DE LA ADMINISTRACIÓN DE RECURSOS HUMANOS
UNIDAD I MODELOS Y TOMA DE DECISIONES
Yeimi Constanza Patiño
INTRODUCCIÓN A LA ADMINISTRACIÓN
Mayo de 2009Dos Ideas - La visión de Sistemas desde el Desarrollo Introducción a Base de Datos Conceptos básicos.
Desarrollo Orientado a Objetos con UML
INTRODUCCIÓN A DINÁMICA DE SISTEMAS. QUE ES DINÁMICA DE SISTEMAS ? Es una metodología para el estudio y manejo de sistemas complejos, tal como los que.
Trabajo de Investigación
INTELIGENCIA DE NEGOCIOS
SEGURIDAD INFORMÁTICA
INTRODUCCIÓN A LA SIMULACIÓN DE EVENTOS DISCRETOS
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Business Intelligence y Data Mining
Las etapas de un proyecto
Inspecciones de Software
Ciclo de Vida del Software Paradigmas de Desarrollo
Ingeniería de Requisitos
Metodología Para la Implementación de Redes de Comunicación Carlos A. Villaronga P. Copyright
ISF5501 Ingeniería de Software
Mantenimiento del Software
DISEÑO DEL TERRITORIO DE VENTAS
La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Plan: Recursos, prioridades, disponibilidades, estructura de tareas
Situación Problema Etapa 1 Juan Antonio del Valle F.
COLEGIO NACIONAL DE EDUCACIÓN PROFESIONAL TÉCNICA SANTIAGO TILAPA N0 126   CALIDAD TOTAL   PROFESOR: MARCO ANTONIO GUERRERO CLEMENTE PROYECTO: PRINCIPIOS.
1 TEMA 1: NECESIDAD DE LA INFORMACIÓN PARA LA TOMA DE DECISIONES EN LA EMPRESA Las bases de datos ocupan un lugar determinante en cualquier área. No sólo.
ERICK CISNEROS SAAVEDRA GABRIELA REGULES GUTIÉRREZ Datamining.
Diseño de Software y su Proceso
DOCUMENTACIÓN DEL SISTEMA DE GESTIÓN DE LA CALIDAD
Trainning DFD.
Ing. Fredys Simanca Herrera.  Es muy habitual encontrarse con que más de un 30% de la información contenida en los sistemas operaciones o es incorrecta.
Ing. Noretsys Rodríguez. Definición de Conceptos  Falla: Ocurre cuando un programa no se comporta de manera adecuada. Es una propiedad estadística de.
Ciclo de Vida del Software Paradigmas de Desarrollo
INGENIERÍA DEL SOFTWARE GESTIÓN DE PROYECTOS
Diseño de un data warehouse
Alexander Aristizabal Ángelo flores herrera
Diseño de Sistemas.
Ciclo de vida de un sistema
Tema: Diseño de investigación de mercados
TIPOS DE PRUEBAS DEL SOFTWARE
Líneas de Acción (Estrategias) Introducción al Plan de Comunicación
Diagrama de Transición de Estado
Introducción El Testing es una actividad compleja por múltiples motivos. Las aplicaciones de software en sí son cada vez más flexibles, con diversos propósitos,
Simón Esneider Herrera Álvarez Media Técnica Casd 10-2
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.

Taller de investigación 1
INDUSTRIAS DEL PETROLEO, PETROQUÍMICAS Y DEL GAS NATURAL ASEGURAMIENTO DE LA PRODUCCIÓN Y ADMINISTRACIÓN DE LA CONFIABILIDAD ISO/CD Date: 2005 –
TEMA II EL PROCESO DE LA PLANEACION. 1.Pasos en el proceso de planeación.
Propósito Introducción Actividad de Consolidación Actividad de Consolidación Fuentes consultadas Fuentes consultadas Ciclo de Vida del Software Ciclo.
Fundamentos de Auditoria PRIMERA NORMA DE AUDITORIA RELATIVA AL TRABAJO.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
Transcripción de la presentación:

Metodologías para Minería de Datos Tema 4 Dr. Francisco J. Mata

Temario Introducción Metodología CRISP Metodología de Berry y Linoff Metodología SEMMA Dr. Francisco J. Mata

Introducción Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro Una metodología está basada en mejores prácticas Dr. Francisco J. Mata

Metodologías de minería de datos Tratan de evitar dos resultados indeseables en el proceso de aprendizaje Aprender cosas que no son ciertas Aprender cosas que aunque ciertas no son útiles Dr. Francisco J. Mata

Aprender cosas que no son ciertas Más peligroso que aprender cosas que no son útiles Decisiones importantes pueden estar basadas en información o conocimiento incorrecto Dr. Francisco J. Mata

Problemas que llevan a conclusiones falsas Patrones en los datos pueden no representar reglas El modelo desarrollado puede no reflejar la población relevante Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata

Patrones en los datos pueden no reflejar reglas Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos aunque no existan Ejemplos de patrones Alternancia de día y noche Estaciones Horas y días de programas en la TV Dr. Francisco J. Mata

Patrones en los datos pueden no reflejar reglas El desafío de la minería de datos es encontrar patrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más puestos en el Congreso durante las elecciones de medio periodo Razones políticas Cuando la Liga Americana gana la Serie Mundial, los Republicanos ganan la Casa Blanca No hay razón aparente En las elecciones presidenciales, el hombre más alto gana Desde 1945 Carter versus Ford Gore versus Bush Dr. Francisco J. Mata

El modelo desarrollado puede no reflejar la población relevante Para hacer alguna predicción se crea un modelo de la situación Este modelo se desarrolla a partir de una muestra de la población Muestras sesgadas Dr. Francisco J. Mata

Los datos pueden estar en un nivel equivocado de detalle ¿Cayeron las ventas en octubre? Dr. Francisco J. Mata

Aprender cosas que aunque ciertas no son útiles Aprender cosas que ya son conocidas Aprender cosas que no pueden ser utilizadas Dr. Francisco J. Mata

Aprender cosas que ya son conocidas Muchos de los patrones en los datos representan cosas que ya conocemos Personas retiradas no responden a ofertas para planes de retiro Personas que viven donde no hay torres de celular tienden a no comprar téléfonos celulares Dr. Francisco J. Mata

Aprender cosas que ya son conocidas Aprender cosas que ya conocemos tiene sin embargo un propósito útil Demuestra que la minería de datos está funcionando y que los datos son razonablemente precisos Dr. Francisco J. Mata

Aprender cosas que no pueden ser utilizadas La minería de datos puede descubrir relaciones que son tanto ciertas como desconocidas per difíciles de utilizar Problemas regulatorios Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a los clientes No se puede cambiar el ambiente en que se opera Un producto puede ser más apropiado para ciertos climas que otros pero no se puede cambiar el clima Un servicio puede ser peor en ciertas condiciones topografía pero no se puede cambiar estas condiciones Dr. Francisco J. Mata

CRISP-DM Cross Industry Standard Process for Data Mining Desarrollada en 1996 por Daimler Benz (ahora Daimler Chrysler) ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) NCR creador de Teradata (software para bodega de datos) Independiente de la herramientas de minería de datos utilizados Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf) Dr. Francisco J. Mata

Divisiones de CRISP-DM Dr. Francisco J. Mata

Fases de CRISP-DM Dr. Francisco J. Mata

Fases de CRISP-DM Entendimiento del negocio Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos Dr. Francisco J. Mata

Fases de CRISP-DM Entendimiento de los datos Recolección inicial de datos Continúa con actividades para Familiarizarse con los datos Identificar problemas con la calidad de los datos Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis Dr. Francisco J. Mata

Fases de CRISP-DM Preparación de datos Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido Incluyen extracción, transformación y carga (ETL) Dr. Francisco J. Mata

Fases de CRISP-DM Modelado Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos Dr. Francisco J. Mata

Fases de CRISP-DM Modelado Dr. Francisco J. Mata

Fases de CRISP-DM Evaluación Determina si el modelo construido satisface los objetivos del negocio ¿Existen aspectos del negocio que no hayan sido considerados suficientemente? Evaluar resultados Resultados=Modelos+Descrubimientos Dr. Francisco J. Mata

Fases de CRISP-DM Aplicación del modelo o sus resultados Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa Dr. Francisco J. Mata

Tareas genéricas Dr. Francisco J. Mata

Tareas genéricas y salidas para entender el negocio Dr. Francisco J. Mata

Tareas genéricas y salidas para entender los datos Dr. Francisco J. Mata

Tareas genéricas y salidas para preparación de datos Dr. Francisco J. Mata

Tareas genéricas y salidas para modelado Dr. Francisco J. Mata

Tareas genéricas y salidas para evaluación Dr. Francisco J. Mata

Tareas genéricas y salidas para aplicación del modelo o sus resultados Dr. Francisco J. Mata

Fases, tareas, salidas, actividades Guía del usuario para CRISP-DM (página 35) Dr. Francisco J. Mata

Metodología de Berry y Linoff Dr. Francisco J. Mata

Metodología SEMMA Desarrollada por SAS Sample: Muestreo Explore: Exploración Modify: Modificar Model: Modelaje Assess: Evaluar Apoyada por el Enterprise Data Miner Dr. Francisco J. Mata

Comparación metodologías Entendimiento del negocio Traducir probl. negocio en probl. minería Entendimiento de los datos Muestro Exploración Seleccionar datos Arreglar problema datos Transformar datos Preparación de datos Modificación Construir modelo Evaluar modelo Modelaje Modelaje Evaluación Evaluación (objetivos del negocio) SEMMA Puesta en operación Puesta en operación Evaluar resultados CRISP Berry y Linoff Dr. Francisco J. Mata