FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

Slides:



Advertisements
Presentaciones similares
DSITRIBUCION T DE STUDENT.
Advertisements

ANÁLISIS DE CONGLOMERADOS
U UNIVERSIDAD DE QUINTANA ROO
DATA MINING MINERIA DE DATOS Gersom Costas.
Estadística Unidad III
Cluster.
Métodos Cuantitativos Aplicados a Los Negocios.
Master en Recursos Humanos
“Estadística Descriptiva”
K-NN: K vecinos más cercanos
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
FRANCISCO JAVIER RODRÍGUEZ
ANALISIS DE CONGLOMERADOS
Universidad Autónoma San Francisco
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
RECONOCIMIENTO DE OBJETOS
Clustering (Agrupamiento)
ANÁLISIS DISCRIMINANTE
Curso de Estadística Básica
ESTADISTICA PARA RELACIONES LABORALES
Medidas de Dispersión Estadística E.S.O.
Estrategias de comprensión lectora
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
RECONOCIMIETO DE PATRONES
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Distribución de los datos
Aprendizaje Automático en Bioinformática
Estadística aplicada al análisis financiero
ANÁLISIS DE CONGLOMERADOS
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Mt. Martín Moreyra Navarrete.
3. Funciones discriminantes para la f.d.p normal.
HABILIDAD COGNITIVA CLASIFICAR.
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
ESTADÍSTICA DESCRIPTIVA
Investigación Experimental
Análisis de Agrupamientos y Componentes Principales
ESTADÍSTICA 4° MEDIO
MÉTODO DE PIXELES DE BORDE
Seminario de TesisUnidad I. Marco Metodológico“Estadística Descriptiva” Dr. Javier Moreno Tapia.
Est 15 Desviación estandar
Datos: Estadística.
ESTADÍSTICAS DESCRIPTIVA
Coeficiente de Variación
Clasificación Guía Ramírez Sandra Paola.
EMA-602 Tema IX: Análisis de datos/Reporte Investigación
MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.
¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.
Método para evaluar valores y cualidades
UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS
ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS
Clasificación visual con fotos aéreas
Medidas de Dispersión.
Métodos Cuantitativos
ANALISIS DE VARIABLES CUANTITATIVAS EN EL PROCESO DE INVESTIGACIÓN
Estadística Reporte Ejecutivo
Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Unidad 4 Análisis de los Datos.
Muestreo Probabilístico
INFERENCIA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
Por: Agustín Audor Julian Tole
Procesamiento de imágenes digitales para generar mapas temáticos.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
Estadística descriptiva
Medidas de tendencia central
Transcripción de la presentación:

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACION  IMPORTANCIA  PROPÓSITO  METODOLOGÍAS  TIPOS DE CLASIFICACIÓN

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 IMPORTANCIA CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL EN UN AMPLIO ESPECTRO DE DISCIPLINAS CIENTÍFICAS QUE SE EXTIENDE DE LAS CIENCIAS BÁSICAS A LA INGENIERÍA OTRAS DENOMINACIONES:  TAXONOMÍA  ANÁLISIS DE CONGLOMERADOS  RECONOCIMIENTO DE PATRONES

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 PROPÓSITO HACER UNA PARTICIÓN DE UN CONJUNTO DE OBJETOS EN CLASES O CATEGORÍAS ÉSTAS SE CONSTRUYEN DE MODO QUE UN OBJETO EN UNA CLASE DADA ES SIMILAR A CUALQUIER OTRO DE SU MISMA CLASE, Y OBJETOS EN DISTINTAS CLASES TIENDEN A SER DIFERENTES.

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CADA OBJETO ES OBSERVADO MEDIANTE UN CONJUNTO DE VARIABLES CUANTITATIVAS QUE REFLEJAN SUS CUALIDADES FUNDAMENTALES. OBSERVACIÓN: CONJUNTO DE VALORES DE p VARIABLES ASOCIADO A CADA OBJETO. CLASIFICAR: AGRUPAR UN CONJUNTO DE n OBSERVACIONES, CUYAS CARACTERÍSTICAS ESTÁN DADAS POR p VARIABLES, BASÁNDOSE EN LAS SEMEJANZAS QUE EXISTAN ENTRE SÍ.

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 METODOLOGÍAS  ANÁLISIS ESTADÍSTICO MULTIVARIADO ANÁLISIS CLUSTER ANÁLISIS DISCRIMINANTE  CARACTERÍSTICAS NÚCLEO DE LOS PROCESOS CLASIFICATORIOS DESARROLLADO EN LA PRIMERA MITAD DE ESTE SIGLO SE IMPLEMENTAN EFICIENTES ALGORITMOS EN LAS ÚLTIMAS DÉCADAS DEBIDO AL DESARRO- LLO DEL COMPUTADOR

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 COMPUTACIÓN EMERGENTE –REDES NEURONALES PERCEPTRÓN MULTICAPA MAPAS AUTO-ORGANIZATIVOS – LÓGICA DIFUSA CARACTERÍSTICAS MUY EFICIENTES ANTE DATA COMPLEJA NO EXIGEN CONOCIMIENTO PREVIO DEL TIPO DE DISTRIBUCIÓN

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DIVISIÓN FUNDAMENTAL DE LOS MÉTODOS DE CLASIFICACIÓN CLASIFICACIÓN SUPERVISADA SE CONOCE LA CLASE A LA CUAL PERTENECE CADA PATRÓN DE LA MUESTRA CLASIFICACIÓN NO SUPERVISADA LA MUESTRA ES NO CONTROLADA, NO EXISTE UNA CLASIFICACIÓN PREVIA DE LAS OBSERVACIONES

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA DEFINICIÓN: AGRUPAR UN CONJUNTO DE n OBJETOS, DEFINIDOS POR p VARIABLES, EN c CLASES, DONDE EN CADA CLASE LOS ELEMENTOS POSEAN CARACTERÍSTICAS AFINES Y SEAN MÁS SIMILARES ENTRE SÍ QUE RESPECTO A ELEMENTOS PERTENECIENTES A OTRAS CLASES

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 PROPÓSITOS GRAFICAR GRUPOS AFINES, COMO ES EL CASO DE LOS DENDROGRAMAS DE LAS TAXONOMÍAS. CLASIFICAR, SIMPLEMENTE, INFORMACIÓN ABUNDANTE Y COMPLEJA HALLAR EL NÚMERO C DE CLASES ADECUADO ENCONTRAR SUBCLASES DENTRO DE CLASES NATURALES INTERPRETAR LOS PATRONES ANALIZANDO LAS CAUSAS INTRÍNSECAS DE LA FORMACIÓN DE LOS MISMOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 APLICACIONES Mercadeo Resultados de búsquedas Web Segmentación de imágenes Sistemas de recomendación

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 OBJETIVOS DUALES EN LA OBTENCIÓN DE UNA CLASIFICACIÓN ÓPTIMA MINIMIZAR LAS DESVIACIONES ENTRE LAS OBSERVACIONES QUE PERTENECEN AL MISMO GRUPO MAXIMIZAR LAS DISTANCIAS ENTRE LOS CENTROS DE LOS GRUPOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DISPERSIÓN DE UNA CLASE DEFINICIÓN: SE LLAMARÁ S WJ, DISPERSIÓN EN LA CLASE J, A LA SUMA DE LAS DISTANCIAS AL CUADRADO DE CADA OBSERVACIÓN X i AL CENTRO m j DE LA CLASE (J) QUE LA CONTIENE mjmj

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CRITERIO DE OPTIMIZACIÓN MINIMIZAR LA SUMA DE LAS DISPERSIONES DE LAS CLASES :

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DISPERSIÓN TOTAL: m INDICADOR, R 2 MIDE LA BONDAD DE LA CLASIFICACIÓN

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 ¿CUÁNTAS PARTICIONES SON POSIBLES? EL NÚMERO DE PARTICIONES DE UN CONJUNTO DE n ELEMENTOS EN c CLASES ESTÁ DADO POR LOS NÚMEROS DE STIRLING DE SEGUNDA CLASE : NC PARTICIONES POR EJEMPLO: ES IMPRÁCTICO HALLAR EL ÓPTIMO CALCULANDO EXHAUSTIVAMENTE EL VALOR DE P W PARA CADA PARTICIÓN

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 MÉTODOS DE CLASIFICACIÓN NO SUPERVISADA ANÁLISIS DE CONGLOMERADOS –BASADOS EN CENTROIDES –JERÁRQUICOS –BASADOS EN DISTRIBUCIONES –BASADOS EN DENSIDAD MAPAS AUTO-ORGANIZATIVOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 MÉTODOS DIRECTOS CARACTERÍSTICAS:  CALCULAN LAS DISTANCIAS DE LAS OBSERVACIONES A POSIBLES CENTROS DE LAS CLASES, PARA LUEGO MODIFICAR ESTOS ÚLTIMOS SIGUIENDO EL CRITERIO DE OPTIMIZACIÓN  NO HACEN USO DE LAS DISTANCIAS ENTRE LOS ELEMENTOS  EL NÚMERO DE CLASES SE FIJA DE ANTEMANO  PRINCIPALMENTE USADO CUANDO N ES GRANDE (N >5000, POR EJEMPLO)

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 ALGORITMO ITERATIVO DE EVOLUCIÓN DE LOS CENTROS “K-MEANS” ETAPAS: UBICACIÓN DE LOS CENTROS INICIALES DE LAS CLASES ASIGNACIÓN DE LAS OBSERVACIONES A LA CLASE MÁS CERCANA DETERMINACIÓN DE LOS NUEVOS CENTROS DE LAS CLASES VERIFICAR SI SE CUMPLE ALGUNO DE LOS CRITERIOS DE FINALIZACIÓN DEL ALGORITMO

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DETERMINACIÓN DEL NÚMERO DE CLASES CENTROS FINALES

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 K-means

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 K-mean en una imagen

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DETERMINACIÓN DEL NÚMERO ÓPTIMO DE CLASES R ÓPTIMO NO SE OBTIENE UN BENEFICIO SIGNIFICATIVO POR DESGLOSAR EN MAS DE 4 CLASES

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 MÉTODOS JERÁRQUICOS PROPÓSITO: DADO UN CONJUNTO INICIAL DONDE CADA ELEMENTO ES UNA CLASE, CREAR UN ARBOL JERÁRQUICO AGRUPANDO EN CADA ETAPA LAS DOS CLASES UBICADAS A MÍNIMA DISTANCIA, ÉSTA INDICA LA ALTURA SOBRE EL ÁRBOL A B C D E ALTURA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CARACTERÍSTICAS  CLASIFICAN A PARTIR DE LA MATRIZ DE DISTANCIA ENTRE LAS OBSERVACIONES  NO SE FIJA EL NÚMERO DE CLASES  SE DETERMINA EL NÚMERO ÓPTIMO DE CLASES A PARTIR DEL ÁRBOL JERÁRQUICO  APROPIADOS SÓLO SI EL TAMAÑO DEL CONJUNTO ES PEQUEÑO, EN CUYO CASO SON MÁS EFICICIENTES QUE LOS MÉTODOS DIRECTOS

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DISTANCIAS A DISTINGUIR ENTRE ELEMENTOS EUCLÍDEA ESTANDAR MAHALANOBIS MANHATTAN COSENO ENTRE CLASES DISTANCIA MÍNIMA DISTANCIA MÁXIMA DISTANCIA PROMEDIO DISTANCIA PROTOTIPO (CENTROIDE) MÍNIMA VARIANZA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 DISTANCIA DE VUELOS ENTRE CIUDADES CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000