Data Mining Hugo M. Castro.

Slides:



Advertisements
Presentaciones similares
PROBLEMA DEL TRANSPORTE
Advertisements

ESTIMACIÓN DE DENSIDAD
ESTRUCTURA DE CAPITAL Y RIESGO DEL NEGOCIO
Administración de Inventarios Demanda Incierta
Jacqueline Chávez Cuzcano
SIMULACIÓN DE MONTECARLO
Introducción a la minería de datos
Árboles de decisión Tema 9 Parte teórica Minería de datos
DATA MINING MINERIA DE DATOS Gersom Costas.
DEFINICION DE TERMINOS SEMEJANTES
MUESTREO (NAGA´s) BOLETÍN 5020
EVALUACION DE PROYECTOS
Capítulo 3 Descripción de datos, medidas de tendencia central
Técnicas para la elaboración de un instrumento
PLANIFICACIÓN Y CONTROL DE LA PRODUCCIÓN
Master en Recursos Humanos
Distribuciones de probabilidad bidimensionales o conjuntas
Silvana Arias Carla Espinosa Livia Loaiza INGENIERIA EN SISTEMAS
SEGMENTACION DE MERCADOS
Sistemas de Ecuaciones
Macroeconomía.
COSTOS CONJUNTOS Y SUBPRODUCTOS
Inferencia estadística
Bioestadística Diplomado en Sanidad
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
Efectivo e Inversiones Temporales
Capítulo: 9 Inventarios.
TEORÍA DE LA DECISIÓN BAJO INCERTIDUMBRE
Kpmg. El comercio electrónico y sus incertidumbres Resultado de la encuesta sobre
La minimización de los costes
KRIGING.
La ley de los grandes números
Ecuaciones de primer grado Similar al ejercicio 1 propuesto
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Baremos del Test de Dominos
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
RECONOCIMIENTO DE OBJETOS
Clustering (Agrupamiento)
Manual de Matemáticas Financieras y aplicaciones
Métodos de muestreo.
¿Cómo hacer más rentables nuestras decisiones?. Rentabilidad Monto de cada préstamo $ Costo Fijo Total $ Gastos Adm por crédito $ 130 Tasa.
1 Escenarios Futuros Ingeniería de Requisitos. 2 Obtener Requisitos Explícitos Comprender el UdeD Actual Definir Requisitos del SW Comprender el UdeD.
ECONOMÍA DE LA INFORMACIÓN
Estadística Administrativa I
Introducción al Análisis Cluster
INTELIGENCIA DE NEGOCIOS
Estadística Administrativa I
RECONOCIMIETO DE PATRONES
Representación del Conocimiento
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
ANALISIS DE DATOS CATEGORICOS
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
PLAN DE VENTAS ALFONSO ENRIQUE HERRERA GRANADOS
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Mt. Martín Moreyra Navarrete.
Reconocimiento de Patrones
Control Estadístico de Procesos Introducción a la Probabilidad.
Combinación de Clasificadores
Redes Competitivas.
Capacidad de Proceso.
Capítulo 1. Conceptos básicos de la Estadística
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Aplicación JAVA implementando Arboles de Decisión
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
Estadística para administradores
Aspectos generales de la investigación educativa en el SNIT
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
INFERENCIA ESTADÍSTICA
REDES NEURONALES ARTIFICIALES (SOM - Kohonen)
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Data Mining Hugo M. Castro

Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables El proceso de DM esta fuertemente asociado con la tecnologia de DWH.

Data Mining Trabajo conjunto Problema puntual Negocios Especialista Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución

Data Mining Dos tipos de modelos Predictivos Descriptivos Clasificación Regresión Descriptivos Asociación Segmentación

Data Mining Modelos Predictivos Clasificación Regresión Predice un valor discreto Sí / No Alto / Mediano / Bajo Regresión Predice un valor continuo Importes Cantidades

Data Mining Modelos Descriptivos Asociación Segmentación Análisis de Canasta Soporte Confianza Segmentación

Modelos de Data Mining Entrenamiento Prueba Evaluación Supervisado No supervisado Prueba Evaluación

Modelos de Data Mining PRUEBA De los casos históricos disponibles se destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales

Modelos de Data Mining Matriz de confusión Predicción No Sí Sí 455 29 Cantidad de casos Predicción No Sí Sí 455 29 Real No 32 384

Matriz de confusión Sobre un total de 900 casos el modelo predijo 455 como sí y en realidad era sí 384 como no y en realidad era no 839 predicciones correctas (93,2%) El resto (6,8%) los predijo en forma incorrecta PRECISION

Modelos predictivos Los atributos (variables) son columnas de la tabla Variables de entrada (atributos descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto descubrir las relaciones entre las variables de entrada y la variable objetivo En producción usa ese conocimiento para predecir el valor de la variable objetivo

Modelos predictivos Pautas para la evaluación Precisión No hay un algoritmo que sea siempre más preciso que otro u otros Interpretabilidad Facilidad para interpretar los resultados Velocidad Entrenamiento Producción

Modelos de clasificación Predicen el valor de un atributo con una cantidad finita de valores posibles Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión

Bayes Construcción y entrenamiento De los 10 casos hay 6 con calificación B y 4 con calificación M. Sin saber nada más, la probabilidad a priori de que la calificación sea B es 0,6 y de que sea M es 0,4 La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.

Bayes Nivel de Ingresos De los que tienen Nivel de Ingresos A hay 3 B y 0 M. De los que tienen Nivel de Ingresos M hay 2 B y 1 M. De los que tienen Nivel de Ingresos B hay 1 B y 3 M.  

Bayes De los 6 B hay 3 que tienen Nivel del Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5 De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33 De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17

Bayes De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25 P(M/Ingresos B) = 0.75

Bayes Nivel de Deudas De los que tienen Nivel de Deudas A hay 1 B y 3 M. De los que tienen Nivel de Deudas M hay 3 B y 0 M. De los que tienen Nivel de Deudas B hay 2 B y 1 M.

Bayes Calculamos las probabilidades de la misma forma que en el caso anterior P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25

Bayes Casado De los que tienen Casado sí hay 4 B y 1 M De los que tienen Casado no hay 2 B y 3 M Con lo que  P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75

Probabilidades condicionales Bayes Frecuencias Probabilidades condicionales Bueno Malo 6 4 0,60 0,40 Nivel de ingresos Alto 3 0,50 Mediano 2 1 0,33 0,25 Bajo 0,17 0,75

Probabilidades condicionales Bayes Frecuencias Probabilidades condicionales Bueno Malo 6 4 0,60 0,40 Nivel de Deudas Alto 1 3 0,17 0,75 Mediano 0,50 Bajo 2 0,33 0,25 Casado Sí 0,67 No

Bayes PRODUCCION Tomás tiene Nivel de Ingresos A Nivel de Deudas B Casado no

Bayes La probabilidad a posteriori de que Tomás tenga una calificación B sale del producto de P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33 x 0.33 = 0.03267

Bayes La probabilidad a posteriori de que Tomás tenga una calificación M sale del producto de P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x 0.75 = 0

Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queTomás va a tener calificación B

Bayes Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B Casado sí

Bayes En base a estos datos, Lucía tiene probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378 probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625

Bayes Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que El modelo predice queLucía va a tener calificación B

Bayes A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A Casado sí

Bayes En base a estos datos, Horacio tiene probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116 probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562

Bayes Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que El modelo predice que Horacio va a tener calificación M

Redes Neuronales COMPONENTES CONEXION NODO W FACTOR DE PONDERACION

Redes Neuronales NODO w1 w2 w3 X1 ENTRADAS x2 v Puede ser más de una, pero todas tienen el mismo valor w3 SALIDA x3

Redes neuronales Estructura Nodos Conexiones Factores de ponderación

Perceptrón de tres capas Aprendizaje supervisado Se presentan los casos de entrenamiento con sus respuestas Errores Cambios en los factores de ponderación Prueba

Perceptrón de tres capas wji wkj Datos de entrada Respuesta deseada Respuesta Corrección de factores de ponderación Entrada Salida Intermedia

K-vecinos También llamada CBR Razonamiento basado en casos Resuelve un problema tomando en cuenta casos parecidos Función de vecindad o de distancia Función de combinación

K-vecinos El modelo de los K-vecinos no tiene fase de entrenamiento Entra directamente en la fase de producción K indica la cantidad de casos parecidos (vecinos) que se van a considerar En este caso vamos a tomar K = 3

K-vecinos Función de vecindad para nivel de ingresos y nivel de deudas 0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B para casado 1 si son distintos

K-vecinos Función de vecindad Para cada caso a resolver se confronta con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que tienen el menor valor de esta función

Tomás Lucía Horacio Jorge Carlos Andrea Débora Sergio Vanesa Mario 0 2 1 = 3 1 2 0 = 3 2 0 0 = 2 Carlos 1 2 0 = 3 0 2 1 = 3 1 0 1 = 2 Andrea 0 1 0 = 1 1 1 1 = 3 2 1 1 = 4 Débora 1 0 0 = 1 0 0 1 = 1 1 2 1 = 4 Sergio 2 2 0 = 4 Vanesa 1 1 0 = 2 Mario 2 2 1 = 5 0 0 0 = 0 Gala Paola Román

K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1) Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)

K-Vecinos Función de combinación Vamos a tomar como valor de la predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos. Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M

K-Vecinos PREDICCIONES Andrea B, Débora B, Paola B Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M

Árboles de decisión ID3 Elección de los mejores separadores Entropía Mide la incertidumbre sobre un suceso Entropía (S) = Σi –pi log2 pi

Arbol de decisión Niv. ingresos B Niv. deuda Casado M B M M Niv. deuda No Sí M B M M Niv. deuda B M A B M B

Arbol de decisión Niv. ingresos B Niv. deuda Casado M B M M Niv. deuda No Sí M B M M Niv. deuda Tomás B Lucía B Horacio M B M A B M B

Modelos de regresión El más difundido es una versión del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos

Los compradores Función de vecindad Debe ser un coeficiente que sea mayor cuando el caso es más cercano Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad) Tomamos como vecinos a los cinco casos

Los compradores Función de vecindad Para la edad Para el sexo: abs (edad del caso – edad testigo) / rango máximo de edades Ejemplo: para Natalia |45 – 33| / 25 = 0,48 Para el sexo: 0 si son iguales 1 si son distintos

Los compradores FUNCIÓN DE COMBINACIÓN El valor que vamos a adjudicar a la predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido

Los compradores Edad Sexo Total 2 - Total Norm. Compra Aporte Carla 0,72 1,28 0,24 190 45,6 Fernando 1 1,24 0,76 0,14 640 89,6 Alberto 0,28 750 105,0 Natalia 0,48 1,52 0,29 500 145,0 Oscar 0,19 400 76,0 TOTALES 5,28 1,00 461,2

Los compradores La predicción de la compra de María es 461,2 En números redondos 460

Pautas de evaluación Precisión Interpretabilidad Velocidad Proporción de aciertos en la matriz de confusión No hay un algoritmo que siempre sea más preciso que otros Interpretabilidad Velocidad Entrenamiento producción

Modelos descriptivos No realizan predicciones Analizan otros aspectos de los datos Asociación Segmentación

Modelo de asociación Análisis de canasta ¿La venta de Cordon Bleu incide sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza

Análisis de Canasta con un Modelo de Asociación Caso 1: Dos productos Cantidad total de tickets: 500.000 Cantidad de tickets que contienen cerveza: 30.000 Cantidad de tickets que contienen pañales: 20.000 Cantidad de tickets que contienen pañales y cerveza: 10.000

Soporte y confianza Valores clave Soporte (p+c) =10.000/500.000 = 0,02. Esto significa que el 2% de todos los clientes compra pañales y cerveza Confianza (pc) = (p+c)/p = 10.000/20.000 = 0,50. O sea que el 50% de los que compran pañales compran cerveza Confianza (cp) = (p+c)/c = 10.000/30.000 = 0,33. O sea que el 33% de los que compran cerveza compran pañales

Confianza esperada y Empuje (lift) Confianza esperada (c) = 30000/500000 = 0,06 = 6% Empuje (lift) de los pañales sobre la cerveza E(pc) = confianza (pc) / confianza esperada ( c ) Vemos que el empuje de los pañales sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que compran pañales compran 8.33 más cerveza que el común de los clientes.

El soporte depende sólo de los productos que se combinan El soporte depende sólo de los productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.

Reglas de asociación : pañales y cerveza Si compra pañales entonces compra cerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%

Reglas de asociación : cerveza y pañales Si compra cerveza entonces compra pañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%

Conclusiones El soporte y el empuje en ambas reglas es el mismo La confianza y la confianza esperada son diferentes. Si se fija el umbral de confianza en el 50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y cuál el consecuente en la regla (sentido de la influencia)

Modelos de segmentación Mapas auto-organizados de Kohonen Entrenamiento no supervisado Dos capas Entrada Salida Centroides (RBF) Mecanismo de entrenamiento

Mapas de Kohonen El propósito de los Mapas de Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías Los registros de cada categoría tienen características similares y distintas de los de las otras categorías Segmentación

Mapas de Kohonen Salida Entrada

Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato Salida: un nodo por cada categoría Los nodos de la capa de salida están conectados entre sí La suma de los w que llegan a cada nodo de salida es constante

Mapas de Kohonen El entrenamiento es no supervisado Se presenta un registro a la capa de entrada Cada uno se los nodos de la capa de salida recibe impulsos de los de los de la capa de entrada Cada nodo de salida produce una salida

Mapas de Kohonen El nodo 3 es el que produce la salida mayor Salida Entrada El nodo 3 es el que produce la salida mayor

Mapas de Kohonen Por haber sido el ganador, el nodo 3 adquiere el derecho a aprender Para ello va a aumentar los w que corresponden a entradas no nulas Como la suma de los w que llegan al nodo 3 es constante debe disminuir los w que corresponden a los ceros

Mapas de Kohonen Si se presenta un registro de entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3. Por eso los registros semejantes van a parar a la misma categoría Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros

Redes de Función de Base Radial Sirven para segmentación de grandes cantidades de registros Se basan en la definición de centroides Centros de gravedad en espacios de muchas dimensiones Cada centroide agrupa casos similares

Centroides Se definen tantos centroides como categorías En el caso del banco se definen 3 centroides Arbitrariamente se toman los tres primeros casos como centroides

Cantidad de servicios Antigüedad

Centroides Calculamos la distancia de cada caso a cada uno de los centroides La distancia se calcula como D = x2 + y2 Adjudicamos cada caso al centroide más próximo Atención al caso 12

Centroides Caso Antig. Serv. A (3,3) B (4,5) C (5,2) Grupo 1 3 5 A 2 4 5 A 2 4 10 B C 8 9 25 18 16 6 20 7 13

Centroides Caso Antig. Serv. A (3,3) B (4,5) C (5,2) Grupo 9 4 1 5 16 10 B 11 6 13 12 7 17 18 14 8 29 15 25 20

Centroides Al grupo A pertenecen los casos 1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4) Su centro de gravedad (promedio de coordenadas) es A ( 1,8 ; 3)

Centroides De la misma manera, el centro de gravedad del grupo B es Y el centro de gravedad del grupo C es C (5,5 ; 2,2)

Centroides Ahora volvemos a efectuar los cálculos de distancias con los nuevos centroides A, B y C. Como antes, se asigna cada caso al grupo cuyo centroide está más próximo Para el caso 12 las distancias con B: 2,18 C: 3,49 Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro ya no hay cambios

B Cantidad de servicios A C Antigüedad

Centroides Hemos separado los clientes en tres grupos: A: Clientes nuevos con un buen potencial de aceptación de productos B: Clientes antiguos buenos compradores de servicios C: Clientes antiguos que no se engancharon con el banco Campañas de marketing diferenciadas

El proceso de Data Mining Se define el problema Hay que entender el negocio Hay que entender los datos Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización

El proceso de Data Mining Se exploran los datos Distribución Relación Influencia Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables

El proceso de Data Mining Se construye el modelo Se entrena y ejecuta el modelo Datos para entrenamiento Datos para prueba Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados

El análisis de riesgos 600.000 préstamos 50.000 con problemas ¿Cuáles? Calificación del préstamo Sin problemas Sub stándard Perdido No clasificado Nodisponible

El análisis de riesgos Muestra: 12.000 casos Valor de la cuota Entrenamiento: 8.000 Prueba: 4.000 Valor de la cuota U$s 0 – u$s 60.000 Categorización 5 franjas de u$s 12.000

Datos relevantes El préstamo El propósito Tipo de préstamo Monto Cuota Plazo El propósito Tipo de propiedad Destino

Datos relevantes El tomador La región Edad Estado civil Nivel de ingresos La región Estado Zona Minorías

Primer modelo Categorización errónea Montos pequeños tienden a tener más problemas 80% de las cuotas no llegan a u$s 400 99% de los préstamos cae en la primera franja

Nueva categorización Cinco categorías con 1/5 de los casos en cada una Precisión Acierto en el 67% de los casos Acierto en el 76 % de los casos sin problemas y perdidos Es demasiado bueno (!)

¿Por qué? Un atributo descriptivo que están usando es el monto de la deuda Esto permite predecir bisn casos sub standard o perdidos Pero en realidad ese monto es alto porque ya tiene problemas Se elimina

Cambios Se elimina el monto de la deuda como atributo descriptivo La precisión se reduce a 46% en general 37% de los casos perdidos

Nuevo modelo Se eliminan las categorías Menos del 1% del total No clasificado No disponible Menos del 1% del total Se unifican Sub standard Perdidos Casos con problemas

Nuevo modelo Quedan dos categorías OK (sin problemas) No OK (con problemas) La precisión en la predicción es 82% en general 20% de casos con problemas

Arboles de decisión Usando un modelo de árboles de decisión se llega a una precisión 85% en general 23% en préstamos con problemas ¿Hay algo más para hacer?

Hagamos cuentas Hay alrededor de 50.000 préstamos con problemas por año No detectarlo a tiempo cuesta a USDA u$s 5.000 cada uno Intervenir en un caso cuesta u$s 500 Se supone que interviniendo a tiempo se evitan problemas en el 30% de los casos

Hagamos cuentas Aún con un porcentaje bajo de identificación de casos con problemas USDA ahorra por año u$s 11,9 millones Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente) El ahorro es de u$s 9,1 millones

Conclusiones No solamente cuenta la precisión No hay que guiarse solamente por la matriz de confusión No necesariamente un nivel bajo de aciertos en la predicción invalida el uso del modelo Hay que tener en cuenta otros factores

Data Mining Dónde se puede utilizar Marketing: Segmentación, campañas, rentabilidad, lealtad,... Ventas: Esquemas de comportamiento, hábitos de compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de recursos Internet: Análisis de clicks (Web mining)

Data Mining Trabajo conjunto Problema puntual Modelos predictivos Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación