El proceso de extracción de conocimiento

Slides:



Advertisements
Presentaciones similares
Cubos de Información Son subconjuntos de datos de un almacén de datos, organizado y sumarizado dentro de una estructura multidimensional. Los datos se.
Advertisements

EVALUACION DE 360 GRADOS.
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
CICLO DE VIDA DEL DESARROLLO DE SOFTWARE
U I B 12/05/1999 Datawarehouse 1. U I B 12/05/1999 Datawarehouse 2 Conceptos Datawarehouse Datawarehouse: Repositorio completo de datos de la empresa,
Master en Recursos Humanos
EL DIRECTIVO FRENTE A LOS PROBLEMAS
METRICAS DE PROCESO Y PROYECTO
Resolución de Problemas Algoritmos y Programación
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
UNIDAD 4. TÉCNICAS PARA LA IMPLEMENTACIÓN DE UN SISTEMA DE CALIDAD
Informe caso de estudio Implementación de un Datawarehouse
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
DISEÑO METODOLÓGICO También denominada “material y métodos” o “procedimientos” El diseño metodológico es la descripción de cómo se va a realizar la investigación,
On Line Analytical Processing
Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.
Armando Lechler Avitia
Ciclo de formulación del proyecto.
Contabilidad por áreas de responsabilidad
INTELIGENCIA DE NEGOCIOS
10 ideas Clave. Evaluar para aprender Neus Sanmartí
Actividad 6. Requisitos del software, referente a la estructura y base de datos. M.C. Juan Carlos Olivares Rojas Syllabus May,
DATA MART Los data warehouses están hechos para proporcionar una fuente de datos única para todas las actividades de apoyo para la toma de decisiones.
Business Intelligence y Data Mining
DATA WAREHOUSE Equipo 9.
MODELO DE LA PARTICIPACIÓN DEL LÍDER INTEGRANTES CLAUDIA PATRICIA VELEZ GLORIA JANETH MACIAS LUZDY JHOANA QUINTERO DIANA MILENA GRANADA YENIFER YULIETH.
UT ¿Cuál de las siguientes etapas pertenecen al proceso administrativo? a. Planificación. b. Organización. c. Dirección. d. Todas las anteriores.
Santiago, Diciembre 2010 LEVANTAMIENTO DE PERFILES DE COMPETENCIAS:
Algo peor que no tener información disponible es tener mucha información y no saber qué hacer con ella. La Inteligencia de Negocios o Business Intelligence.
Herramientas básicas Control de Calidad.
Metodología para solución de problemas
Grupo Continental Control de Procesos.
OBTENER CONOCIMIENTO Conocimiento Minería Bodega de Datos ETL
Introducción a Pentaho BI Suite 3.5
DOCENCIA EN LA CLÍNICA MÉDICA: nuevas herramientas para un aprendizaje significativo Curso Perfeccionamiento Escuela de Medicina Universidad Valparaíso.
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
AUDITORIA DE COMUNICACIÓN INTERNA
CONTROL Ing. En Sistemas.
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
Explicar las causas que afectan la calidad. Una vez definidos y seleccionados correctamente los problemas en la gran mayoría de casos es preciso recopilar.
SEGMENTACION DE MERCADOS
I.- Introducción a los sistemas de información
ANÁLISIS FINANCIEROS.
Toma de Decisiones.
LOS SISTEMAS DE INFORMACIÓN INVESTIGACIÓN DE MERCADOS
LA MEJORA DE LOS PROCESOS
Análisis y Diseño de Aplicaciones
 La capacidad para tomar decisiones de negocio precisas y de forma rápida se ha convertido en una de las claves para que una empresa llegue al éxito.
Desarrollo de lógica algorítmica.
árbol de problemas y objetivos
Introducción al Data Warehouse
Ramas de I.A. ROBOTICA SISTEMAS DE VISION SISTEMAS EXPERTOS
Ciclo de Vida del Software
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Mata Moran Mireya Gabriela Alejandra
Un requerimiento es una condición o capacidad a la que el sistema (siendo construido) debe conformar [ Rational ]. Un requerimiento de software puede.
Verificación y Validación de Software
Herramientas básicas Control de Calidad.
ESTADÍSTICA DESCRIPTIVA
6.6 Administración de defectos
Identificación de entradas, salidas y herramientas de procesos de gestión del PMI Jairo A. Orozco L.

Taller de investigación 1
ANALISIS DE SISTEMAS PROFESOR HECTOR ARCIA.
Planificación de Sistemas de Información
Análisis de datos: La ordenación de datos. ● En el análisis de datos se define la información recogida ● Se deben seleccionar las propiedades que se han.
FLUJOGRAMA DE PROCESOS
Transcripción de la presentación:

El proceso de extracción de conocimiento

2.1 Las fases del proceso de extracción de conocimiento El proceso de KDD se organiza en torno a cinco fases: fase de integración y recopilación de datos se determinan las fuentes de información que pueden ser útiles y donde conseguirlas. Se transforman todos los datos a un formato común, frecuentemente mediante un almacén de datos que consiga unificar de manera operativa toda la información recogida detectando y resolviendo las inconsistencias. Estas situaciones se tratan en la fase de selección, limpieza y transformación, en la que se eliminan o corrigen los datos incorrectos y se decide la estrategia a seguir con los datos incompletos.

En la fase de minería de datos, se decide cual es la tarea a realizar (clasificar, agrupar, etc.) y se elige el método que se va a utilizar. En la fase de evaluación e interpretación se evalúan los patrones y se analizan por los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteración. Finalmente, en la fase de difusión se hace uso del nuevo conocimiento y se hace participe de el a todos los posibles usuarios.

2.2 Fase de integración y recopilación. Las bases de datos y las aplicaciones basadas en el procesamiento tradicional de datos, que se conoce como procesamiento transaccional en línea (OLTP, On-Line Transaction Procesing) son suficientes para cubrir las necesidades diarias de un organización (tales como la facturación, control de inventario, nominas). Sin embargo, resultan insuficientes para otras funciones mas complejas como el análisis, la planificación y la predicción, es decir, para tomar decisiones estratégicas a largo plazo. La idea de la integración de múltiples bases de datos ha dado lugar a la tecnología de almacenes de datos (data warehousing).

Un almacén de datos es un repositorio de información coleccionada desde varias fuentes, almacenada bajo un esquema unificado que normalmente reside en un único emplazamiento. Existen varias formas de mezclar las distintas bases de datos para crear el repositorio. Una posibilidad es simplemente hacer una copia de las bases de datos integrantes (probablemente eliminando inconsistencias y redundancias) Los almacenes de datos se construyen vía un proceso de integración y almacenamiento en un nuevo esquema integrado. Este proceso de integración de un almacén de datos para tres fuentes de datos originales (A,B Y C)

Los almacenes de datos se utilizan para poder agregar y cruzar eficientemente la información de maneras sofisticadas. Por ello, los datos se modelan con una estructura de base de datos multidimensional, donde cada dimensión corresponde a un atributo o conjunto de atributos en el esquema en torno a unos "hechos" que almacenan el valor de alguna medida agregada, como por ejemplo la cantidad vendida de un producto en un día concreto en una tienda. Esta visión multidimensional hace a los almacenes de datos adecuados para el procesamiento analítico en línea (on-line analytical processing,OLAP).

El usuario de una herramienta OLAP utiliza la herramienta para obtener información agregada a partir de información detallada, combinando la información de manera flexible. Además, las herramientas OLAP pueden utilizarse para comprobar rápidamente patrones y pautas hipotéticas sugeridas por el usuario con el objetivo de verificarlas o rechazarlas. Ambos tipos de herramientas se complementan: podemos usar OLAP al principio del proceso de KDD) para explorar los datos (por ejemplo, para centrar nuestra atención en las variables importantes, identificar excepciones o encontrar interacciones), ya que cuanto mas comprendamos los datos mas efectivo será el proceso de descubrir conocimiento.

2.3 Fase de selección, limpieza y transformación La calidad del conocimiento descubierto no solo depende del algoritmo de minería utilizado, sino también de la calidad de los datos minados. Pero además de la irrelevancia, existen otros problemas que afectan a la calidad de los datos. Uno de estos problemas es la presencia de valores que no se ajustan al comportamiento general de los datos (outliers).

Estos datos anómalos pueden representar errores en los datos o pueden ser valores correctos quo son simplemente diferentes a los demás. Algunos algoritmos de minería de datos ignoran estos datos, otros los descartan considerándolos ruido o excepciones, pero otros son muy sensibles y el resultado se ve claramente perjudicado por ello.

En algunas aplicaciones como la detección de compras fraudulentas efectuadas con tarjetas de crédito o la predicción de inundaciones, los eventos raros pueden ser mas interesantes que los regulares (por ejemplo, compras por un importe mucho mas elevado que el de las compras efectuadas habitualmente con la tarjeta, o días en los que la cantidad de lluvia recogida es muy superior a la media). La presencia de datos faltantes o perdidos (missing values) puede ser también un problema pernicioso que puede conducir a resultados poco precisos.

Es necesario reflexionar primero sobre el significado de los valores faltantes antes de tomar ninguna decisión sobre como tratarlos ya que estos pueden deberse a causas muy diversas, como a un mal funcionamiento del dispositivo que hizo la lectura del valor, a cambios efectuados en los procedimientos usados durante la colección de los datos o al hecho de que los datos se recopilen desde fuentes diversas.

Estos dos problemas son solo dos ejemplos que muestran la necesidad de la limpieza de datos, es decir, de mejorar su calidad. No es solo suficiente con tener una buena calidad de datos, sino además poder proporcionar a los métodos de minería de datos el subconjunto de datos mas adecuado para resolver el problema. La selección de atributos relevantes es uno de los procesamientos mas importantes, ya que es crucial que los atributos utilizados sean relevantes para la tarea de minería de datos.

que, aunque correcta, es inútil para realizar predicciones futuras. Por ejemplo, supongamos quo los jueces del torneo de Wimbledon desean determinar a partir de las condiciones climatológicas (nubosidad, humedad, temperaturas, etc.) si se puede jugar o no al tenis. La base de datos contenga un atributo que identifica .t uno de los días considerados (por ejemplo, la fecha). Si consideramos este atributo en el proceso de minería, un algoritmo de generación de reglas podría obtener reglas como que, aunque correcta, es inútil para realizar predicciones futuras.