Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de.

Slides:



Advertisements
Presentaciones similares
DSITRIBUCION T DE STUDENT.
Advertisements

ESTIMACIÓN DE DENSIDAD
DISEÑO DE EXPERIMENTOS
ESTIMACION DE PARAMETRO
Introducción a la Estadística
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
Jacqueline Chávez Cuzcano
Demostración de Asociación
Árboles de decisión Tema 9 Parte teórica Minería de datos
Gestion Financiera Modelo de inventarios
Algoritmos de Minería Los métodos básicos.
Reglas de asociación w Similares a las reglas de clasificación w Pueden predecir cualquier atributo, no solo la clase, o predecir combinaciones de atributos.
REGRESION LINEAL SIMPLE
Toma de decisiones bajo condiciones de riesgo
Estadística Capítulo 4.3 TEOREMA DE BAYES.
Unidad de competencia II Estadística descriptiva:
Pruebas de hipótesis: Media de una población © Pedro Juan Rodríguez Esquerdo Departamento de Matemáticas Recinto de Río Piedras Universidad de.
Modelos de Variable Dependiente Binaria -Logit y Probit-
EDSI Universidad del Cauca 2011
Estadística Administrativa I
De la muestra a la población
Generación de Números Seudo-Aleatorios
Distribuciones de probabilidad bidimensionales o conjuntas
Estimación de parámetros poblacionales
KRUSKAL WALLIS Jorge Iván Betancur Marta Isabel Naranjo García
Probabilidad Condicional Eventos Independientes
Estadística Administrativa I
Sistemas de Ecuaciones
Inferencia estadística
Estadística Administrativa I
UNIDAD II ANALISIS DE DECISIONES Diapositivas Unidad II M.A. Erika Straffon Del Castillo.
PRECISION DE LOS SISTEMAS DE MEDICION EN EL ESTADO ESTABLE
Igualdades y ecuaciones
TEORÍA DE LA DECISIÓN BAJO INCERTIDUMBRE
TEORÍA DE LA DECISIÓN BAJO INCERTIDUMBRE
Fundamentos de Lógica Difusa (Fuzzy)
INFERENCIA ESTADISTICA
Prueba de Hipótesis La Prueba t Carlos B. Ruiz-Matuk.
DETERMINANTES DE UNA MATRIZ
Inteligencia Artificial Adquisición automática del conocimiento
RICARDO ESTEBAN LIZASO
Variables Aleatoria Continua
TEMA 6: DIVISIÓN DE POLINOMIOS
ESTADÍSTICA INFERENCIAL I
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Distribuciones muestrales Procedimientos de muestreo
Estadística Administrativa I
Estadística Administrativa I
COMPARACIONES PAREADAS
Tema 2: Métodos de ajuste
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Sesión 2: Métodos Probabilísticos Básicos
Lenguajes Independientes del Contexto
Diseño Estadístico y Herramientas para la Calidad
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
Combinación de Clasificadores
Unidad V: Estimación de
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
Aprendizaje en Árboles de Decisión
Valores de atributos desconocidos (Unknown values) OutlookTemp (ºF)HumidityWindyClass sunny85 falseDon't Play sunny8090tueDon't Play overcast8378falsePlay.
Inferencia Multivariante Cap 10 y 11
Estimación de modelos ARMA
Pruebas de hipótesis.
INTERVALO DE CONFIANZA
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Aspectos generales de la investigación educativa en el SNIT
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Técnicas de Minería de Datos Centro Universitario Valle de México Minería de Datos Dra. Maricela Quintana López Elaborado por:
REGRESIÓN LINEAL SIMPLE
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Transcripción de la presentación:

Algoritmos de Minería w Las ideas sencillas, frecuentemente funcionan bien w Un atributo hace todo (1-Rule) w Estructura lógica capturada en un árbol de decisión (ID3) w Todos los atributos contribuyen w Reglas independientes

Reglas de clasificación Antecedente consecuente w Antecedente: precondiciones, son la serie de pruebas que se realizan sobre los atributos. w Consecuente: conclusión, da la clase o clases que aplican a las instancias cubiertas por la regla

Modelado Estadístico w Todos los atributos contribuyen w Los atributos se consideran: Iguales en importancia Independientes w Se toma en cuenta la frecuencia del par atributo-valor por clase w No realista, ¡pero funciona!

Modelado estadístico w Está basado en la regla de probabilidad condicional de Bayes w Si se tiene una hipótesis H, y una evidencia E entonces: w P[H|E] = P[E|H] P[H]/ P[E] H : Play=Yes E : Combinación de valores del nuevo día

Naive Bayes P[H|E] = P[E 1 |H] P[E 2 |H] P[E 3 |H] P[E 4 |H] P[H] P[E] Los números encontrados se convierten en probabilidades normalizandolos de forma que sumen 1 P[H 1 |E] = P[E 1 |H]... P[E n |H] P[H] P[E|H 1 ] P[E|H m ]

Ejemplo

Frecuencias Probabilidades Observadas Probabilidad a Priori

Ejemplo

w Nuevo día OutlookTemp Humidity Windy play SunnyCool High True ? Pos. Yes = 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = Pos. No = 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = Prob. Yes = = 20.5 % Prob. No = = 79.5 %

Ejercicio Lentes de Contacto EliminandoEliminando 3 instancias3 instancias

Ej 1) w Pos B = (2/4) (2/4) (4/4) (0)(4/21) = 0 w Pos D = (2/3) (1/3) (0) (0) (3/21) = 0 w Pos N = (3/14)(7/14)(6/14)(11/14)(14/21)= Pr = 100% Ej 2) w Pos B = (2/4) (2/4) (0) (1)(4/21) = 0 w Pos D = (0) (2/3) (3/4) (1) (3/21) = 0 w Pos N = (5/14)(7/14)(8/14)(3/14)(14/21) = Pr=100% Ej 3) w Pos B = (0/14).... = 0 w Pos D = (1/3) (1/3) (0).... = 0 w Pos N = (6/14)(7/14)(6/14)(3/14)(14/21)= Pr = 100%

Problemas w Valores de un atributo que no se presentan w La probabilidad de la clase dado que el atributo tiene el valor ausente sería cero causando que todo el término sea cero. w La corrección es agregar uno a cada valor y compensar. (Estimador de Laplace MF. P) 2/9, 3/9, 4/9 cambian por 3/12, 4/12, 5/12

Problemas w Valores Faltantes Nueva instancia: se omite Conj. Entrenamiento: no cuenta w Atributos numéricos Se supone que tienen una distribución de probabilidad Normal o Gaussiana Se calcula la media x y la desviación estándar

Atributos Numéricos

Ejemplo

OutlookTemp Hum Windy Play Sunny66 90 True ?

Ejemplo Pos. Yes = 2/9 x x x 3/9 x 9/14 = Pos. No = 3/5 x x x 3/5 x 5/14 = Prob. Yes = = 20.9 % Prob. No = = 79.1 %

Inferencia de Reglas w Algoritmo de cobertura w Considerar cada clase buscando la forma de cubrir todas las instancias en la clase, y al mismo tiempo excluir a las instancias que no pertenecen a la clase. w Es llamado de cobertura porque en cada etapa se identifica una regla que cubre la mayoría de las instancias.

Método PRISM w Para cada clase se busca construir las reglas (agregando términos), que cubran todas las instancias de esa clase. w Al agregar un termino, suponga que la nueva regla cubre un total de t instancias, de las cuales p son ejemplos de la clase y t-p están en otras clases (errores de la regla). w Escoger el término que maximiza p/t

b a a a a aa b bb b bb b x y b a a a a a a b bb b b b b b b b y 1.2 b a a a a a a b bb b b b b b b b x > 1.2 ? b Y > 2.6 ? ba no yes Espacio de instancias Regla hasta el momento Regla después de añadir un nuevo término

Método PRISM Para cada clase C Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C Crear la regla R: ? C Hasta que R sea perfecta (o más atributos) haz: Para cada atributo A no mencionado en R, y valor v Considerar agregar A=v en el lado Izquierdo de R Seleccionar A y v que maximicen la precisión p/t (si existen iguales escoger el de mayor p) Agregar A=v a R Eliminar las instancias cubiertas por R de E

Ejemplo: Lentes Si ? Hard w Ag = young2/80.25 = pre-presbyopic1/ = presbyopic1/ w SP = myope3/ = hypermetrope1/ w AS = no0/120 = yes4/ w TP = reduced0/120 = normal4/ Si (AS=Yes) Hard

Si (AS = Yes) & ? Hard w Ag = young2/40.5 = pre-presbyopic1/ = presbyopic1/ w SP = myope3/60.5 = hypermetrope1/ w TP = reduced0/60 = normal4/60.66 Si (AS=Yes)&(TP=Normal) Hard

Si (AS = Yes) &(TP=Normal) & ? Hard w Ag = young2/21 = pre-presbyopic1/20.5 = presbyopic1/40.5 w SP = myope3/31 = hypermetrope1/30.33 Si (AS=Yes)&(TP=Normal)&(SP=Myope) Hard

Reglas para RL=Hard w If (AS = Yes) & (TP = Normal) & (SP = Myope) HARD w If (AG = Young) & (AS = Yes) & (TP = Normal) HARD