Maestría en Ciencias de la Computación

Slides:



Advertisements
Presentaciones similares
DATA MINING MINERIA DE DATOS Gersom Costas.
Advertisements

Clustering (Agrupamiento)
Sesión 2: Métodos Probabilísticos Básicos
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
Introducción Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
Introducción a la estadística. ¿Qué es la estadística? La Estadística es la parte de las Matemáticas que se encarga del estudio de una determinada característica.
Diseños de investigación.  Arnau (1995a) define el diseño de investigación como un plan estructurado de acción que, en función de unos objetivos básicos,
PPTCEG049EM32-A16V1 Distribución normal EM-32. Recordemos… -¿Cómo se calcula el valor esperado para una determinada variable aleatoria? -¿Cómo es posible.
PPTCES047MT22-A16V1 Clase Medidas de dispersión y muestreo MT-22.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
San Pedro Sac. San Marcos Guatemala.
ÉSTADÍSTICAS DESCRIPTIVAS ORGANIZACIÓN DE DATOS
3° Medio – Departamento de Matemática Prof. Lucy Vera V.
Análisis de resultados Evaluación diagnóstica en línea
Apuntes de Matemáticas 3º ESO
Instituto Nacional de Estadística y Geografía
Semejanza. semejanza Semejanza y equivalencia 3 Semejanza y equivalencia Construcción de una figura directamente semejante a otra conociendo la razón.
NIF A-3 Esta Norma tiene como objetivo identificar las necesidades de los usuarios y establecer   con base a las mismas, los objetivos de los estados.
METODOS PARA ANALISIS DE TALUDES
Introducción La optimización trata de buscar el punto óptimo de una función objetivo cumpliendo con una serie de restricciones. El proceso de optimización.
“POLIMORFISMO PARAMETRICO”
5ta clase de excel Planilla de calculo.
tema2 Igualdad, semejanza y escala
INTRODUCCIÓN AL ESTUDIO DE LA ESTADÍSTICA
TEMA 6 Introducción a la Estadística
Movimiento.
Inteligencia Computacional
Fuente:
UNIVERSIDAD ICEP INTELIGENCIA ARTIFICIAL INGENIERÍA EN SISTEMAS COMPUTACIONALES Martes, 24 de Octubre de 2017 REPRESENTACIÓN DEL CONOCIMIENTO Y RAZONAMIENTO.
Tema 6. Conceptos básicos de programación (Clase 2)
Metodología de la Investigación
UNIDAD 2: Geometría LICEO VILLA MACUL ACADEMIA
Tutorial Holdings Management (Administración de Colecciones)
ESTADÍSTICA DESCRIPTIVA
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
CAMBIOS Y SECUENCIAS MUCHOS OBJETOS, SUCESOS Y PROCESOS QUE OBSERVAMOS CAMBIAN O EVOLUCIONAN EN EL TRANSCURSO DEL TIEMPO. PARA COMPRENDER LOS CAMBIOS HAY.
PREDICCIÓN Y ESTIMACIÓN
LINEAS DE ESPERA.
Elementos de análisis espacial…2
REGRESÍON LINEAL SIMPLE
Estadística Conceptos Básicos L.A. y M.C.E. Emma Linda Diez Knoth.
PLAN DE MUESTREO.
Climogramas: elaboración e interpretación
UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos.
HERRAMIENTAS DE PROGRAMACIÓN
Páginas Web Bradford VTS para la Práctica General Recursos on line
Climogramas: elaboración e interpretación
Investigación de mercados
Selección de la muestra
MÉTODO CIENTÍFICO.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
DISEÑO DEL SOFTWARE EDUCATIVO
Optimización de Procesos.
TEMA.
BIOESTADÍSTICA Contenido  Medidas de tendencia central para datos no tabulados y tabulados.  Medidas de variabilidad. 1 DOCENTE: DIANNA PAUTA MARTILLO.
Maestría en Ciencias de la Computación
Sistemas y Comunicaciones
Lingüística computacional
Apuntes de Matemáticas 3º ESO
APO JOHANNA GUACHÚN JENNY QUILLIGANA CARLA. INVESTIGACIÓN DESCRIPTIVA TIPO DE INVESTIGACIÓN QUE DESCRIBE DE MODO SISTEMÁTICO LAS CARACTERÍSTICAS DE UNA.
 Es básicamente un proceso automático en el que se combinan descubrimiento y análisis.  El proceso consiste en extraer patrones en forma de reglas o.
DIAGRAMAS ESTADISTICOS LIC. JOHANA CAROLINA RIVERA ARDILA DOCENTE DEL ÁREA DE ESTADÍSTICA GRADO NOVENO 2019.
Texturizado.
INTRODUCCIÓN A UML.  QUE ES UML?  PARA QUE SE UTILIZA  COMPONENTES  DIAGRAMAS.
Transcripción de la presentación:

Maestría en Ciencias de la Computación Centro Universitario Valle de México Maestría en Ciencias de la Computación Minería de Datos Agrupamiento Dra. Maricela Quintana López Elaborado por: Febrero 2017

Unidad de competencia III: Proceso de Análisis No Supervisado Objetivo: Presentar los algoritmos de análisis de datos no supervisado, específicamente de agrupamiento (clustering) Conocimientos: Algoritmo k-medias para agrupamiento.

Minería de Datos La minería de datos se utiliza para diferentes tipos de tareas, entre estas: Clasificación Predicción Reglas de Asociación Agrupamiento

Agrupamiento Dependiendo de la meta que se persigue en la minería de datos, se requiere la aplicación de una técnica diferente. En el agrupamiento se requieren técnicas descriptivas, ya que lo que se busca es incrementar el entendimiento de lo que sucede en los datos y del mundo que reflejan.

Agrupamiento Las técnicas de agrupamiento se aplican cuando no hay propiamente una clase que predecir sino cuando las instancias se dividen en grupos de forma natural Es una técnica de minería de datos no dirigida. El agrupamiento requiere de técnicas diferentes a las de clasificación y asociación

Agrupamiento Se genera un diagrama que muestra cómo las instancias forman grupos. En el caso más simple, se asocia un número de grupo a cada instancia. Se colocan las instancias en dos dimensiones y se divide el espacio para mostrar cada grupo (cluster)

Agrupamiento Cuando la división forma una partición, los grupos son disjuntos

Agrupamiento Algunos algoritmos permiten que una instancia pertenezca a dos grupos (clusters) La representación se puede visualizar mediante diagramas de Venn a d k j g e h c b f i

Agrupamiento Otros algoritmos asocian a las instancias con los grupos de manera probabilística En este caso para cada instancia existe una probabilidad o grado de pertenencia a cada cluster. 0.4 0.1 0.5 0.1 0.8 0.1 0.3 0.3 0.4 0.1 0.1 0.8 0.4 0.2 0.4 0.1 0.4 0.5 0.7 0.2 0.1 0.5 0.4 0.1 1 2 3 a b c d e f g h ...

Agrupamiento Otros producen una estructura jerárquica de grupos. Los elementos unidos en niveles inferiores tienen una mayor cohesión que los de niveles superiores.

Agrupamiento Enfoques matemáticos Los métodos son Divisivos y Aglomerativos Se define alguna medida del valor de la partición del conjunto de grupos. La medida es almacenada para decidir al final del proceso cuál partición es la mejor.

Métodos Divisivos Inician considerando todas las instancias como parte de un gran grupo (cluster) . El cluster inicial se divide en dos o más clusters. Estos clusters se dividen sucesivamente Hasta que cada instancia tiene su propio cluster.

Métodos Aglomerativos Otros métodos son llamados aglomerativos. Iniciar con cada instancia en un grupo (cluster). Iterativamente se combinan los clusters Termina cuando sólo hay un cluster.

Algoritmos para Agrupamiento Los mapeos auto-organizables: forma especializada de red neuronal. K-Medias (K-Means): agrupamiento iterativo basado en distancias Agrupamiento incremental EM-Algorithm: Expectation Maximization

Agrupamiento iterativo basado en distancia K- Medias K-medias es uno de los algoritmos ampliamente utilizado en herramientas comerciales de minería de datos. K-medias trabaja mejor cuando la entrada de datos es numérica principalmente.

K-Medias Divide el conjunto de datos en un número predeterminado de grupos. Ese número es K, de aquí el nombre. La media es lo que los estadistas llaman promedio. En este caso la media se refiere a la ubicación promedio de los miembros de un grupo en particular

K-Medias ¿Ubicación? ¡Hablamos de Registros en una Base de Datos! La respuesta viene de la geometría: Para formar los grupos, cada instancia es asociada a un punto en el “espacio de instancias” Ese espacio tiene tantas dimensiones como atributos hay en las instancias.

K-Medias El valor de cada atributo es interpretado como una distancia a partir del origen y a lo largo del eje correspondiente. Para que la interpretación sea útil, los atributos deben ser convertidos a números y éstos deben normalizarse para que los cambios en las dimensiones sean comparables.

Algoritmo K-Medias Las instancias son asignadas a grupos a través de un proceso iterativo que inicia con grupos centrados en localidades aleatorias (centros del grupo) en el espacio de instancias Los centros se van moviendo hasta que realmente quedan ubicados en el centro de algún grupo.

Algoritmo K-Medias Se seleccionan K puntos al azar cómo centros de los grupos. Las instancias se asignan al centro del grupo más cercano considerando la distancia de Euclidiana.

Algoritmo K-Medias Se seleccionan K puntos y se asignan las instancias al centro del cluster más cercano

Límites Para dibujar los límites entre los grupos, basta con recordar que si se tienen 2 puntos X y Y, todos los puntos que están equidistantes desde X y Y, caen en la línea que está a la mitad del segmento que une a X y Y, y es perpendicular Así el punto del cuadro es asignado a el grupo controlado por el centroíde 2.

Ejemplo

Algoritmo K-Medias Después de calcular las distancias y asignar las distancias al grupo con el centro más cercano, se calcula la media de todas las instancias. Estas medias serán las coordenadas del nuevo centro y el proceso se repite. La iteración continúa hasta que los mismos puntos son asignados a cada grupo en rondas consecutivas. Cuando las instancias ya no cambian de grupo, significa que los centros se han estabilizado.

Ejemplo El parámetro K indica el número de grupos que se seleccionarán, en este caso K=3. Aleatoriamente se eligen 3 instancias para ser los primeros centroídes de los grupos

Se muestran los datos y los 3 centros Ejemplo Se muestran los datos y los 3 centros

Cálculo de distancias y asignación a un grupo

Cálculo de distancias y asignación a un grupo

Cálculo de las medias Medias

Se ajustan los centros

Ejercicio

Agrupamiento Si hay más de una dimensión, la distancia euclidiana se calcula de la misma forma: En el caso de la media, se calcula la media para cada dimensión.

Consecuencias Tipo de preguntas que se pueden responder Es una técnica de aprendizaje no dirigido, por lo que puede ser aplicada sin un conocimiento a priori de la estructura a ser descubierta. Dado que los grupos detectados automáticamente no tienen una interpretación natural distinta, es dificil poner los resultados en práctica.

Consecuencias Preparación de los datos Seleccionando diferentes medidas de distancias, el agrupamiento se puede aplicar a cualquier tipo de datos (distancia entre textos). Sin embargo, la más usada es la distancia Euclidiana.

Consecuencias Seleccionar el número adecuado para K Si el número no iguala a la estructura natural de los datos, los resultados no son buenos. Si no se tiene una razón a priori para elegir el número se debe probar con varios valores

Consecuencias Los mejores conjuntos de grupos, son aquellos en los que: la distancia entre los miembros del mismo grupos sea pequeña la distancia entre los miembros de grupos adyacentes sea grande

Interpretación ¡Cuando no se sabe lo que se está buscando, no se reconoce cuando se ha encontrado! Existen algunos enfoques para interpretar Construir un árbol de decisión para explicar cómo asignar las instancias al grupo correcto Visualización para ver como se afectan los grupo con los cambios

Referencias Witten I, & Frank E. Data Mining: Practical Machine Learning Tools and Technical with Java implementations. Morgan Kaufmann 2005. Orallo Hernández J; Ramírez Quintana M; Ferri Ramírez C. Introducción a la Minería de Datos. Pearson 2008.

Referencias Pawet Cichosz; Data Mining Algorithms explained using R. Wiley 2015. Richard J. Roiger and Michael W. Geatz. Data Mining: A tutorial – based primer. Addison Wesley 2003.

Guion Explicativo Este Material sirve para: Explicar en qué consiste el aprendizaje no supervisado, particularmente la tarea de agrupamiento. Se presentan el algoritmo K-Medias, desde la selección de los centros, el cálculo de distancias, y de las medias de los grupos. Las diapositivas deben verse en orden, y deben revisarse aproximadamente en 6 horas.