DATA MINING MINERIA DE DATOS Gersom Costas.

Slides:

Advertisements

Presentaciones similares

Data Mining Minería de Datos Universidad Tecnológica Metropolitana

Advertisements

Jacqueline Chávez Cuzcano

INTRODUCCION A TECNICAS DE MINERIA DE DATOS

Introducción a las Redes neuronales

Introducción a la minería de datos

Mapas Autoorganizados

6. Sistemas Autoorganizados

• SQL Server Analysis Services Data Mining

Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan

K-NN: K vecinos más cercanos

DATA MINING Bibliografía:

COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.

Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.

Máquinas con Vectores de Soporte - SVM

VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.

Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a

Inteligencia Artificial Adquisición automática del conocimiento

Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

Clustering (Agrupamiento)

REDES NEURONALES ARTIFICIALES

Seminario Científico Internacional 2008 de invierno (SCI 2008i) - Francisco García Fernández. Dr. Ingeniero de Montes - Luis García Esteban. Dr. Ingeniero.

INTELIGENCIA DE NEGOCIOS

Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: Minería.

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

Minería de Datos con Clementine

RECONOCIMIETO DE PATRONES

Representación del Conocimiento

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Introducción Calculabilidad clásica Computación celular

Aprendizaje Automático en Bioinformática

Estadística aplicada al análisis financiero

Redes Neuronales Monocapa

ANÁLISIS DE CONGLOMERADOS

Redes Neuronales Artificiales Autoorganizadas

Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Business Intelligence y Data Mining

Pronósticos Los pronósticos y la planeación de la capacidad de mantenimiento son dos funciones importantes para el diseño de un sistema de mantenimiento.

RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.

Red de Minería y Aprendizaje Grupo de Aprendizaje Automático Universidad de Oviedo en Gijón Selección de Atributos en Aprendizaje.

Redes Competitivas.

La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.

REDES NEURONALES.

Proceso KDD MSc. Carlos Alberto Cobos Lozada

1 Introducción a la Computación para Biólogos, Bioquímicos, Médicos, etc.

Redes Neuronales Artificiales 2 - Aprendizaje

Otoño  Cada vez es más frecuente el almacén de información en bases de datos como en:  Data Warehouse  Empresas de Marketing  Escuelas  Gobierno.

Aprendizaje No Supervisado y Redes de Kohonen

Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.

Clasificación visual con fotos aéreas

DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.

INTELIGENCIA ARTIFICIAL. Redes Neuronales Artificiales Mecanismos de aprendizaje ◦ Entrada x ◦ Salida y ◦ Peso w ◦ Transferencia ~

KDD y Técnicas de Minería de Datos en Weka

REDES NEURONALES TEORÍA MODERNA DE LA FIRMA 2010.

Aplicación JAVA implementando Arboles de Decisión

Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.

Unidad 4 Análisis de los Datos.

Ángel Berihuete Francisco Álvarez

Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.

ESTADÍSTICA DESCRIPTIVA

Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.

DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.

Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.

REDES NEURONALES ARTIFICIALES (SOM - Kohonen)

Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.

 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.

Transcripción de la presentación:

DATA MINING MINERIA DE DATOS Gersom Costas

INTRODUCCIÓN Recolección masiva de datos: aumento dimensionalidad y nº observaciones históricos imperfectos Análisis de datos es crucial para el negocio Toma decisiones rápidas Dificultad para aplicar técnicas tradicionales Solamente un 5 % de la información es analizada Potentes computadoras con multiprocesadores

DEFINICIONES KDD: Descubrimiento de conocimiento en las bases de datos (Knowledge Discovery in Databases), “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996 Data mining: Minería de datos “proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos” (Witten y Frank, 2000)

KDD Knowledge Discovery from Databases Proceso de KDD Datos iniciales Almacén de Datos (Data Warehouse) Datos seleccionados Patrones Conocimiento Selección, limpieza y transformación Integración y recopilación Evaluación e interpretación DATA MINING

Data Mining : confluencia de múltiples disciplinas Visualización Estadística Data Mining Aprendizaje automático Sistemas de información Otras disciplinas

Distribución de las materias (Cajal et al., 2001). Áreas de aplicación más frecuentes (Cajal et al., 2001).

Objetivos KDD VERIFICACIÓN DESCUBRIMIENTO DESCRIPCIÓN PREDICCIÓN SQL OLAP Análisis estadístico CLASIFICACIÓN TENDENCIA/ REGRESIÓN Visualización Agrupamiento Reglas de asociación Árboles de decisión Reglas asociación Redes neuronales Métodos bayesianos Árboles de regresión Redes neuronales Series temporales

CLASIFICACION ALGORITMOS 1. SUPERVISADOS: predicen el valor de un atributo de un conjunto de datos conocidos otros atributos. Clasificación: se asignan los registros de datos en categorías predefinidas Algoritmos genéticos. Técnicas de optimización que usan procesos como combinaciones genéticas, mutación y selección natural, Redes neuronales: modelos predecibles no lineales, aprenden a través del entrenamiento. Árboles de decisión: estructura en forma de árbol que representan conjunto de decisiones. Regresión o estimación: inducir a un modelo de predecir un valor de la clase. Usa árboles de regresión, regresión lineal, redes neuronales. 2. NO SUPERVISADOS: descubren patrones y tendencias en los datos sin tener ningún tipo de conocimiento previo acerca de cuales son los patrones buscados Clustering: agrupa los datos basándose en sus similitudes. Análisis de enlace: determina asociaciones entre registros de datos. Análisis de frecuencia: análisis de registros ordenados en el tiempo. Detecta secuencias

Algunas de las técnicas más comúnmente usadas en Data Mining son: Redes neuronales artificiales: modelos predecibles no-lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Incluyen : - Árboles de Clasificación - Árboles de Regresión Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. SVM (Support Vector Machine): técnica que clasificación que se aplica a problemas con dos clases. Regla de inducción: extracción de reglas if-then de datos basados en significado estadístico.

ÁRBOLES DE DECISION Árboles de decisión son particiones secuénciales de un conjunto de datos que maximizan las diferencias de la variable independiente Objetivo: Segmentar la población para encontrar grupos homogéneos según una cierta variable de respuesta. Esta técnica permite representar de forma gráfica una serie de reglas sobre la decisión que se debe tomar en la asignación de un determinado elemento a una clase o valor de salida. Los árboles difieren según: -Tipo de la variable de respuesta -Tipos de variables de segmentación -Árboles binarios o n-arios -Criterio de partición -Criterio de parada

Ej. Acontecimientos relativos al hundimiento del Titanic ÁRBOLES DE DECISION Los árboles de decisión suelen ser empleados en tareas de clasificación sobre variables de respuesta categóricas (árboles de clasificación), y también, aunque en menor medida, en tareas de predicción sobre variables de respuesta cuantitativas (árboles de regresión). Ej. Acontecimientos relativos al hundimiento del Titanic

Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m. REGLAS DE ASOCIACION Nos permite predecir patrones de comportamientos futuros sobre ocurrencias simultaneas de valores de variables. Técnica no supervisada Una asociación entre dos atributos ocurre cuando la frecuencia con la que se dan dos o más valores determinados de cada uno conjuntamente es relativamente alta. Las reglas de asociación intentan descubrir asociaciones o conexiones entre objetos. Consecuencia⇐Antecedente 1 Antecedente 2 … Antecedente m. · Ejemplo, en un supermercado se analiza si los pañales y los potitos de bebé se compran conjuntamente.

REDES NEURONALES Sistemas de procesamiento de la información cuya estructura y funcionamiento están inspirados en las redes neuronales biológicas. Consisten en un conjunto de elementos simples de procesamiento llamados nodos o neuronas conectadas entre sí por conexiones que tienen un valor numérico modificable llamado peso. Consiste en sumar los valores de las entradas (inputs) que recibe de otras unidades conectadas a ella, neurona aplica una función de activación (usualmente no lineal), enviar activación o salida (output) a las unidades a las que esté conectada.

REDES NEURONALES Pueden ser utilizadas en problemas de clasificación (la variable de salida es cualitativa) o en predicción (la variable de salida es cuantitativa). Supervisada : ej. Perceptrón multicapa No supervisada: ej. Mapas autoorganizativos de Kohonen PERCEPTRÓN MULTICAPA : Aprende la asociación que existe entre un conjunto de patrones de entrada y sus salidas correspondientes.

MAPAS AUTOORGANIZATIVOS DE KOHONEN REDES NEURONALES MAPAS AUTOORGANIZATIVOS DE KOHONEN Aprendizaje competitivo. Descubrir por si misma rasgos, peculiaridades, correlaciones o categorías que se encuentren en los datos. El objetivo es descubrir “características o patrones característicos” de entre un conjunto de datos de entrada, pero de forma NO SUPERVISADA. Reflejadas en la estructura topológica de la red

CLUSTERING Divide un conjunto de datos en grupos de tal forma que los elementos en un grupo sean similares y los elementos en grupos diferentes tengan la menor similitud posible Proceso de aprendizaje no-supervisado Medida de similitud/disimilitud Función de distancia d (i,j)

agglomerative (AGNES) divisive (DIANA) CLUSTERING Algoritmo particional: K-Means Método jerárquico Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e agglomerative (AGNES) divisive (DIANA)

SVM (Support Vector Machine) Máquinas de Vectores de soporte Se define sobre un espacio de vectores donde el problema es encontrar el hiperplano separador óptimo que mejor discrimine los datos en dos clases Una vez detectado el hiperplano, los ejemplos se pueden clasificar chequeando en qué lado del hiperplano se encuentra