VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Introducción a la minería de datos
Control Interno Informático. Concepto
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
PLANIFICACIÓN Y CONTROL DE LA PRODUCCIÓN
EL DIRECTIVO FRENTE A LOS PROBLEMAS
Solución de problema Herramientas aplicables
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
Sistema de Costos por Órdenes
El proceso de extracción de conocimiento
DATA MINING Bibliografía:
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
Inteligencia Artificial Adquisición automática del conocimiento
On Line Analytical Processing
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Inteligencia artificial
Características de un Data Warehouse
Sistemas Evolutivos Introduccion.
INTELIGENCIA DE NEGOCIOS
VII Reunión sobre casos prácticos de inspección y vigilancia de mercados y entidades. Santiago de Chile Marcelo García R Sonia Muñoz C. Santiago, 17 de.
Sesión 2: Métodos Probabilísticos Básicos
INTELIGENCIA ARTIFICIAL.
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Weka.
Bases de Datos II OLAP Online Analytical Processing
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.

INTRODUCCIÓN A LA SIMULACIÓN DE EVENTOS DISCRETOS
Business Intelligence y Data Mining
DATA WAREHOUSE Equipo 9.
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Análisis y Diseño Orientado a Objetos utilizando UML
Combinación de Clasificadores
ESTRUCTURA GENERAL DEL MÉTODO PARA LLEVAR A CABO UNA REORGANIZACIÓN ETAPA 1 Preparación detallada para el primer lanzamiento de iniciativa de cambio. ETAPA.
PARTE I: INTRODUCCIÓN José Hernández Orallo
UNIDAD 2. ALGORITMOS Y ESTRUCTURAS DE DATOS.
La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Algo peor que no tener información disponible es tener mucha información y no saber qué hacer con ella. La Inteligencia de Negocios o Business Intelligence.
Grupo Continental Control de Procesos.
FUNDAMENTOS DE PROGRAMACION
Minería de Dato(Datamining). Minería de Datos Datamining (Minería de datos)  El datamining (minería de datos), es el conjunto de técnicas y tecnologías.
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
Tema 1. Introducción a los sistemas de producción
Nuevos Productos Macro Pro ofrece varias soluciones complementarias para cumplir con los objetivos de control y análisis de información de nuestros clientes.
“Introducción a las Ciencias de la Informática”
INTEGRANTES: CALVIMONTES NOGALES DANIELA QUIROGA HINOJOSA CLAUDIA.
EXPORTACIÓN.
Ingeniería del software
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
“La Evaluación, en el proceso de desarrollo local” Abel Contreras Bustos Coordinador Área Social Asociación Chilena de Municipalidades.
KDD y Técnicas de Minería de Datos en Weka
Tomando decisiones sobre las unidades de análisis
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Qué es Minería de Datos La minería de datos es un proceso analítico diseñado para explorar grandes volúmenes de datos (generalmente datos de negocio y.
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
SOLUCIONES EMPRESARIALES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.
Instituto Tecnológico De la Laguna

Taller de investigación 1
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.

En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo costo de almacenamiento). INFORMACIÓN OCULTA El descubrimiento de esta información oculta es posible gracias a la Minería de Datos (DataMining)

El valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean.

LOS DATOS SON LA MATERIA PRIMA BRUTA INFORMACIÓN ¿EN QUE MOMENTO?

Nos referimos al Conocimiento

Es un proceso de extracción no trivial para identificar patrones que sean validos, novedosos, potencialmente útiles y entendibles, a partir de los datos. Su objetivo principal es poder llegar a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil para un usuario y satisfacer sus metas.

Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el 80% de la información se obtiene con estas técnicas. El 20% restante, que la mayoría de las veces, contiene la información más importante, requiere la utilización de técnicas más avanzadas. KDD, apunta a procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en ellos, de esta manera permitirá al usuario el uso de esta información valiosa para su conveniencia.

Procesar automáticamente grandes cantidades de datos crudos. Identificar los patrones más significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Determinar las fuentes de información Determinar las fuentes de información (que pueden ser útiles y dónde conseguirlas) Diseñar el esquema de un almacén de datos Diseñar el esquema de un almacén de datos (Data Warehouse): que consiga unificar de maner a operativa toda la información recogida. Implantación del almacén de datos Implantación del almacén de datos: que permita la navegación y visualización Previa de sus datos Previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados.

Selección, limpieza y transformación de los datos Selección, limpieza y transformación de los datos que se van a analizar que se van a analizar Seleccionar y aplicar el método de minería de Seleccionar y aplicar el método de minería de datos apropiado. datos apropiado. Clasificación, agrupamiento o clustering Clasificación, agrupamiento o clustering La selección de él o de los algoritmos a utilizar; La selección de él o de los algoritmos a utilizar; Forma de representarlo (árboles de decisión, regl as, etc.) Forma de representarlo (árboles de decisión, regl as, etc.)

Evaluación, interpretación, trans formación y representación de l os patrones extraídos. Evaluación, interpretación, trans formación y representación de l os patrones extraídos. Difusión y uso del nuevo conoci miento. Difusión y uso del nuevo conoci miento.

Los algoritmos de aprendizaje son una parte integral de KDD. las técnicas de aprendizaje dirigidas disfrutan de un rango de éxito definido por la utilidad del descubrimiento del conocimiento. Estos algoritmos de aprendizaje son complejos y generalmente considerados como la parte más dificíl de cualquier técnica KDD.

Esta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentes representaciones del conocimiento. Estos modelos están basados en las probabilidades e independencias de los datos. Estos son útiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los resultados o pequeña cantidad del descubrimiento del conocimiento.

Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control. Las herramientas del probabilidad automatizadas están disponibles en el dominio público y comercial

El método estadístico usa la regla del descubrimiento y se basa en las relaciones de los datos. El algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base de datos con muchas relaciones. Este tipo de inducción es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados.

El proceso analítico en línea (OLAP) es un ejemplo de un método orientado a la estadística. Las herramientas estadísticamente automatizadas están disponibles en el dominio público y comercial. Un ejemplo de una aplicación estadística es determinando que todas las transacciones en una base de datos de ventas que empiezan con una transacción de código especificada son las ventas en efectivo. El sistema notaría que todas las transacciones en la base de datos que sólo el 60% son las ventas en efectivo. Por consiguiente, el sistema podrá concluir con precisión que el 40% son artículos fuera de serie.

La clasificación es probablemente el método más antiguo y mayormente usado de todos los métodos de KDD. Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientas disponible que son automatizadas.

método Bayesian El método Bayesian de KDD es un modelo gráfico que usa directamente los arcos exclusivamente para formar una gráfica acíclica'. Aunque el método Bayesian usa los medios probabilísticos y gráficos de representación, también es considerado un tipo de clasificación.

Se usan muy frecuentemente las las redes de Bayesian cuando la incertidumbre se asocia con un resultado puede expresarse en términos de una probabilidad. Este método cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnóstico. Otras aplicaciones de reconocimiento de patrones, incluyendo el Modelo Markov Oculto, puede ser modelado usando un método de Bayesian. Las herramientas automatizadas están disponibles en el dominio público y comercial.

Este es otro tipo de clasificación que sistemáticamente reduce una base de datos grande a unos cuantos archivos informativos. Si el dato es redundante y poco interesante se elimina, la tarea de descubrir los patrones en los datos se simplifica- da. Este método trabaja en la premisa de un dicho viejo, menos es más.

El descubrimiento de patrones y las técnicas de limpia de datos son útiles para reducir volúmenes Enormes de datos en las aplicaciones, tal como aquéllos encontrados al analizar las grabaciones de un sensor automatizado.

Una vez que las lecturas del sensor se reducen a un tamaño manejable usando la técnica de limpia de datos, pueden reconocerse con más facilidad los patrones de datos. Las herramientas automatizadas que usan estas técnicas están disponibles en el dominio público y comercial.

Usa las reglas de producción, construidas como figuras gráficas basado en datos premisos y clasificación de los datos según sus atributos. Este método requiere ese clases de los datos que son discretos y predefinidos. Según, el uso primario de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnicas de regresión. Las herramientas para el análisis de árbol de decisión están disponibles en el dominio público y comercial.

El método de detección por filtrado tiende ser importante como base para este método de KDD. Normalmente las técnicas de análisis y desviación son aplicadas temporalmente en las bases de datos Una buena aplicación para este tipo de KDD es el análisis de tráfico en las grandes redes de telecomunicaciones.

Las redes neuronales podrán usarse como método del descubrimiento del conocimiento. Las redes neuronales son particularmente útiles para el reconocimiento de patrones y algunas veces se agrupa con los métodos de clasificación. Hay herramientas disponible en el dominio público y comercial. Los algoritmos genéticos, también usados para la clasificación, son similares a las redes neuronal es aunque estas son consideradas más poderosos. Hay herramientas comerciales disponibles para el método genético.

Un método híbrido para KDD combina más de un método y también es llamado método multi-paradigmático. Aunque la implementación puede ser más difícil, las herramientas híbridas son capaces de combinar la potencia de varios métodos. Algunos de los métodos comúnmente usados combinan técnicas de visualización, inducción, redes neuronales y los sistemas basados en reglas para llevar a cabo el descubrimiento de conocimiento deseado. También se han usado bases de datos deductivas y algoritmos genéticos en los métodos híbridos. Hay herramientas híbridas disponible comercialmente y en el dominio público.