Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.

Slides:



Advertisements
Presentaciones similares
Metodologías para Minería de Datos
Advertisements

IdalbertoChiavenato (2001), dice que “El objetivo de la administración de recursos humanos es el planear, organizar, desarrollar, coordinar y controlar”.
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
Curso de Economía Internacional Docente Camilo Jiménez M.A.
UNIVERSIDAD DE PANAMA CENTRO REGIONAL UNIVERSITARIO DE PANAMA OESTE FACULTAD DE INFORMATICA ELECTRONICA Y COMUNICACIÓN ESCUELA DE INGENIERIA DE INFORMATICA.
Ingeniería del Software Diseñó de Software Universidad de los Andes Demián Gutierrez Abril 2009.
Método es el modo de hacer las cosas Metodología es el conjunto de procedimientos basados en principios lógicos, utilizados para alcanzar una gama de objetivos.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Evaluación de la Red de OSC del GEF
Metodología de la investigación
Metodología de Implementación de Sistemas ERP
ESTADO DE FLUJOS DE EFECTIVO Prof. Minerva Tejera C.
Ciclo de vida del producto y decisiones de selección del proceso
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
APRENDIZAJE BASADO EN PROYECTOS
Inteligencia de Negocios Business Intelligence (BI)
NORMAS INTERNACIONALES DE AUDITORIA
PRINCIPIOS DE LA GESTIÓN DE CALIDAD TOTAL
INTRODUCCIÓN AL ESTUDIO DE LA ESTADÍSTICA
APRENDIZAJE BASADO EN PROYECTOS
Caracterización de los Procesos de Negocio
TRABAJO DE TITULACIÓN “MANEJO BASICO DE INDICADORES DE PARTICIPACION CIUDADANA UTILIZANDO ALGORITMOS Y TECNICAS DE MINERIA DE DATOS COMO APOYO EN LA GESTION.
Jhonier machado William Marín Jessica Muñoz Viví Londoño
VI Congreso Iberoamericano de Docencia Universitaria
UNIVERSIDAD NACIONAL DE LOJA Área de la Educación, el Arte y la Comunicación Informática Educativa IV INGENIERIA DE SOFTWARE Taller de Análisis y Diseño.
UNIVERSIDAD AUTONOMA REGIONAL DE LOS ANDES SISTEMAS MERCANTILES INGENIERÍA DE SOFTWARE FUNDAMENTOS FILOSÓFICOS, EPISTEMOLÓGICOS JEFFERSON ISMAEL MASHIANT.
TECNICAS DE CONTROL INTEGRANTES: Angie Paola Bautista Ana Yara
NIA 310 NIA 315 NIA 320 NIA 400.
LINEAS DE ESPERA.
Zaruma Party App para la gestión turística y gastronómica inteligente.
ALGORITMOS es un conjunto preescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos.
TRANSFORMACIÓN METODOLÓGICA
Metodología de la programación
Algoritmo Capitulo Cinco.
LAS 14 ESPECIALIDADES DE RRHH UN METODO PRÁCTICO PARA GESTIONAR EL TALENTO Son los modelos de negocio y las estrategias que son las que dependen en tener.
Ingeniería del Software
Dra. Beatriz Soledad Octubre, 2017
Modelo de interacción de usuario.  El Desarrollo basado en modelos de la interfaz de usuario, en inglés Model-based User Interface Development (MB-UID),
TIPOS DE INVESTIGACIÓN De: Bolívar V Jorge A CI:
Conocimiento de la nueva moneda virtual Bitcoin entre los estudiantes de Ciencias Administrativas de la Universidad Interamericana de Panamá. Integrantes:
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos.
Guía para la elaboración de un anteproyecto de investigación
Ciclo de vida del Software
GESTION POR PROCESOS.
I N S T R U C O A L D I S E Ñ O MODELO ADDIE.
Investigación educativa Integrantes Condori Alicia García patricia Pinell Gabriela Romero paúl Aguilar jhonny.
DEFINICION POR VARIOS AUTORES ANDER- EGG, 1992 p rocedimiento reflexivo, sistemático, controlado y crítico que tiene por finalidad descubrir o interpretar.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Planeamiento: un plan incremental para que la ingeniería web produzca resultados. La ingeniería web es un área que abarca procesos, técnicas y modelos.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
La planeación y la organización de los procesos técnicos.
La metodología CRISP-DM
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
Autor: Henry Coral Director: Rodrigo Fonseca 2017
Tema.
Proyecto "Las mascotas" Informática 6° Básico.
Objetivos de aprendizaje Tema 5.- Admón de CXC
INGENIERIA EN SISTEMAS COMPUTACIONALES MATERIA: GESTION DE PROYECTOS DE SOFTWARE UNIDAD I. INTRODUCCION A LA GESTION DE PROYECTOS MC. RICHARD ANGEL BENITEZ.
Lingüística computacional
CAPACITACIÓN DE PERSONAL. Detectar necesidades de Capacitación Personas Tareas Organizacional.
Actividad 3: Ejecutar procesos de recolección de datos, organización y análisis de los datos recolectados para la identificación de la línea de base de.
IEEE Estándar para documentación de pruebas de software
 Es básicamente un proceso automático en el que se combinan descubrimiento y análisis.  El proceso consiste en extraer patrones en forma de reglas o.
1 SISTEMAS II CICLO DE VIDA. 2 Sistemas II. CICLO DE VIDA DE Los Sistemas de Información “ Es un proceso por el cual los analistas de sistemas, los ingenieros.
Ingeniería del Conocimiento
Desarrollo de Sistemas de Información Contable - Sis USB 1 METODOLOGIAS DE DESARROLLO DE SOFTWARE.
Inteligencia Artificial Capítulo I
Desarrollo de Sistemas de Información Contable - Sis USB 1 METODOLOGIAS DE DESARROLLO DE SOFTWARE.
TEMA: Funciones, Roles y Procesos Docente: Jesús Ulloa Ninahuamán.
Transcripción de la presentación:

Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4

Temario ► Introducción ► Metodología CRISP ► Metodología de Berry y Linoff ► Metodología SEMMA Dr. Francisco J. Mata2

Introducción ► Minería de datos es una forma de aprender del pasado para hacer mejores decisiones en el futuro ► Una metodología está basada en mejores prácticas Dr. Francisco J. Mata3

Metodologías de minería de datos ► Tratan de evitar dos resultados indeseables en el proceso de aprendizaje  Aprender cosas que no son ciertas  Aprender cosas que aunque ciertas no son útiles Dr. Francisco J. Mata4

Aprender cosas que no son ciertas ► Más peligroso que aprender cosas que no son útiles  Decisiones importantes pueden estar basadas en información o conocimiento incorrecto Dr. Francisco J. Mata5

Problemas que llevan a conclusiones falsas ► Patrones en los datos pueden no representar reglas ► El modelo desarrollado puede no reflejar la población relevante ► Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata6

Patrones en los datos pueden no reflejar reglas ► Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos aunque no existan  Ejemplos de patrones ► Alternancia de día y noche ► Estaciones ► Horas y días de programas en la TV Dr. Francisco J. Mata7

Patrones en los datos pueden no reflejar reglas ► El desafío de la minería de datos es encontrar patrones que tengan valor predictivo  El partido que no tiene la presidencia tiende a ganar más puestos en el Congreso durante las elecciones de medio periodo ► Razones políticas  Cuando la Liga Americana gana la Serie Mundial, los Republicanos ganan la Casa Blanca ► No hay razón aparente  En las elecciones presidenciales, el hombre más alto gana ► Desde 1945  Carter versus Ford  Gore versus Bush Dr. Francisco J. Mata8

El modelo desarrollado puede no reflejar la población relevante ► Para hacer alguna predicción se crea un modelo de la situación ► Este modelo se desarrolla a partir de una muestra de la población  Muestras sesgadas Dr. Francisco J. Mata9

Los datos pueden estar en un nivel equivocado de detalle Dr. Francisco J. Mata10 ¿Cayeron las ventas en octubre?

Aprender cosas que aunque ciertas no son útiles ► Aprender cosas que ya son conocidas ► Aprender cosas que no pueden ser utilizadas Dr. Francisco J. Mata11

Aprender cosas que ya son conocidas ► Muchos de los patrones en los datos representan cosas que ya conocemos  Personas retiradas no responden a ofertas para planes de retiro  Personas que viven donde no hay torres de celular tienden a no comprar téléfonos celulares Dr. Francisco J. Mata12

Aprender cosas que ya son conocidas ► Aprender cosas que ya conocemos tiene sin embargo un propósito útil  Demuestra que la minería de datos está funcionando y que los datos son razonablemente precisos Dr. Francisco J. Mata13

Aprender cosas que no pueden ser utilizadas ► La minería de datos puede descubrir relaciones que son tanto ciertas como desconocidas per difíciles de utilizar  Problemas regulatorios ► Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a los clientes  No se puede cambiar el ambiente en que se opera ► Un producto puede ser más apropiado para ciertos climas que otros pero no se puede cambiar el clima ► Un servicio puede ser peor en ciertas condiciones topografía pero no se puede cambiar estas condiciones Dr. Francisco J. Mata14

Dr. Francisco J. Mata15 CRISP-DM ► Cross Industry Standard Process for Data Mining  Desarrollada en 1996 por ► Daimler Benz (ahora Daimler Chrysler) ► ISL (ahora parte de SPSS), que lanzara en 1994 Clementine (software para minería de datos) ► NCR creador de Teradata (software para bodega de datos)  Independiente de la herramientas de minería de datos utilizados  Guía CRISP-DM Versión 1.0 ( dm.org/CRISPWP-0800.pdf) dm.org/CRISPWP-0800.pdfhttp:// dm.org/CRISPWP-0800.pdf

Dr. Francisco J. Mata16 Divisiones de CRISP-DM

Dr. Francisco J. Mata17 Fases de CRISP-DM

Dr. Francisco J. Mata18 Fases de CRISP-DM ► Entendimiento del negocio  Comprender los objetivos y requerimientos del proyecto desde la perspectiva del negocio  Este conocimiento es luego convertido en la definición de un problema de minería de datos y un plan preliminar es desarrollado para alcanzar estos objetivos

Dr. Francisco J. Mata19 Fases de CRISP-DM ► Entendimiento de los datos  Recolección inicial de datos  Continúa con actividades para ► Familiarizarse con los datos ► Identificar problemas con la calidad de los datos ► Descubrir percepciones de su naturaleza interna o detectar subconjuntos interesantes para formar hipótesis

Dr. Francisco J. Mata20 Fases de CRISP-DM ► Preparación de datos  Actividades para construir el conjunto de datos final, el cual será utilizado como entrada a las herramientas de modelaje  Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecido ► Incluyen extracción, transformación y carga (ETL)

Dr. Francisco J. Mata21 Fases de CRISP-DM ► Modelado  Varias técnicas de modelado son seleccionadas y aplicadas y sus parámetros calibrados a valores óptimos ► Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problema  Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datos

Fases de CRISP-DM Modelado Dr. Francisco J. Mata22

Dr. Francisco J. Mata23 Fases de CRISP-DM ► Evaluación  Determina si el modelo construido satisface los objetivos del negocio ► ► ¿Existen aspectos del negocio que no hayan sido considerados suficientemente?   Evaluar resultados ► ► Resultados=Modelos+Descrubimientos

Dr. Francisco J. Mata24 Fases de CRISP-DM ► Aplicación del modelo o sus resultados  Tan simple como generar un reporte o tan complejo como implementar un proceso continuo de minería de datos a través de la empresa

Dr. Francisco J. Mata25 Tareas genéricas

Dr. Francisco J. Mata26 Tareas genéricas y salidas para entender el negocio

Dr. Francisco J. Mata27 Tareas genéricas y salidas para entender los datos

Dr. Francisco J. Mata28 Tareas genéricas y salidas para preparación de datos

Dr. Francisco J. Mata29 Tareas genéricas y salidas para modelado

Dr. Francisco J. Mata30 Tareas genéricas y salidas para evaluación

Dr. Francisco J. Mata31 Tareas genéricas y salidas para aplicación del modelo o sus resultados

Dr. Francisco J. Mata32 Fases, tareas, salidas, actividades ► Guía del usuario para CRISP-DM (página 35)