BOOSTING REGRESSION TREES CON STATISTICA TÉCNICAS AVANZADAS DE REGRESIÓN EN CIENCIAS NATURALES Y SU APLICACIÓN CON R Luis M. Carrascal & Javier Seoane.

Slides:



Advertisements
Presentaciones similares
Tema 6: Regresión lineal.
Advertisements

Tema.9.Predicción y estimación. Concepto. Cálculo de la ecuación de regresión lineal. Modelo general lineal. Evaluación del modelo. Diagnóstico del modelo.
Árboles de decisión Tema 9 Parte teórica Minería de datos
Técnicas para el análisis de datos en el enfoque cuantitativo
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
Modelos de Variable Dependiente Binaria -Logit y Probit-
ANÁLISIS EXPLORATORIO DE DATOS
Una sesión con EDUCLICK 1. Configuración de una sesión con Educlick 2. ¿He estado atento? 3. Cómo crear una sesión con Educlick 4. Informes y gráficos.
Aprendizaje de Microsoft® Access® 2010
La prueba U DE MANN-WHITNEY
Capítulo I. Introducción
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
INTRODUCCIÓN A LAS SERIES DE TIEMPO
TUTORIAL SPSS Comparación de medias con el Paquete Estadístico para las Ciencias Sociales Unidad 4.
Muestreo Introducción Suma muestral Media muestral
Tema Nº4.
Ps. Rafael Cendales Reyes Universidad Nacional de Colombia
“an information criterion” (AIC) Akaike’s information criterion … en pocas palabras. Luis M. Carrascal En vez de obtener la diferencia entre dos modelos,
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
9 Regresión Lineal Simple
SISTEMAS DE SOPORTE PARA LA TOMA DE DECISIONES
LEAN SIGMA – FASE DE ANÁLISIS Propósito y herramientas 1.
Nombre del Curso: BIOMETRÍA Y DISEÑO EXPERIMENTAL
Aprendizaje Automatizado
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Técnicas estadísticas paramétricas univariantes: regresión
MODELOS GENERALIZADOS
Unidad V: Estimación de
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Modelo de regresión simple: Y =  1 +  2 X + u 1 Hemos visto que los coeficientes de regresión b 1 y b 2 son variables aleatorias. Estos, respectivamente,
Indicadores Cualitativos Bases. Escala de actitudes Medir actitudes. –Predisposición aprendida para responder consistentemente de una manera favorable.
Mt. Martín Moreyra Navarrete.
Aprendizaje Automatizado Ár boles de Clasificación.
Gestión de Actividades Extraescolares y Transporte
Tema 8: Estimación 1. Introducción.
GUÍA PRÁCTICA PARA REALIZAR PLS’s EN STATISTICA (versiones 7 en adelante)
Métodos de calibración: regresión y correlación
REGRESION LINEAL MULTIPLE: Introducción
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Estimación por intervalo en la regresión: Bandas de Confianza
Análisis de la Varianza
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Modelo Lineal Simple con Statgraphics para Windows.
Contenido: 1. Para un parámetro poblacional 1.1. Información de partida: estadísticos muestrales 1.2. Información de partida: datos muestrales 2.
Regresión lineal múltiple
Estadística Aplicada a las Ciencias Políticas
CO-2124 Análisis de Varianza con Un Criterio de Clasificación En clases anteriores se deseaba determinar si existían diferencias entre las medias de dos.
DISTRIBUCIONES MUESTRALES
“an information criterion” (AIC) Akaike’s information criterion … en pocas palabras. Luis M. Carrascal Luis M. Carrascal En vez de obtener la diferencia.
Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.
Titular: Agustín Salvia
SELECCIÓN DE UNA PRUEBA ESTADÍSTICA
Estimación Diferencia de dos medias
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Fundamentos Aplicaciones Prácticas
Introducción a los TADs
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
MUESTREO : Generalidades
Unidad 4 Análisis de los Datos.
InfoStat. Software estadístico
EL ESQUEMA.
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
Estadística descriptiva
Bioestadística Inferencia estadística y tamaño de muestra
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Bioestadistica II 2014 FACULTAD DE CIENCIAS EXACTAS, FÍSICAS Y NATURALES. UNIVERSIDAD NACIONAL DE CÓRDOBA.
Transcripción de la presentación:

BOOSTING REGRESSION TREES CON STATISTICA TÉCNICAS AVANZADAS DE REGRESIÓN EN CIENCIAS NATURALES Y SU APLICACIÓN CON R Luis M. Carrascal & Javier Seoane Elegimos: Classification Analysis cuando la variable respuesta es nominal. Regression Analysis cuando la variable respuesta es continua.

Podemos elegir variables predictoras categóricas o continuas

Elegimos algunos parámetros Number of additive terms: número máximo de árboles que se realizarán. Dentro de esa serie, se eligirá el número óptimo de árboles. Random test data proportion: proporción (tanto por uno) de las unidades muestrales originales que no serán utilizadas para contruir el modelo; se emplearán para su validación. Las muestras se extraen utilizando un procedimiento azaroso identificado en Seed for random number generator.

Elegimos algunos parámetros … Stopping parameters: Minimum n of cases en los nodos antes de generar un criterio de ramificación Minimum n in child node en las puntas terminales del árbol

Elegimos algunos parámetros … Maximum n of levels indica la profundidad máxima del árbol que permitimos al dejarle crecer. Maximum n of nodes indica el máximo número de nodos+puntas que puede llegar a alcanzar el árbol

Árbol con n of levels = 5 Árbol con Maximum n of nodes = 13 En otras ocasiones la ‘tree complexity” se mide como el número de ramificaciones (en este caso = 6). Maximum n of nodes = 2·# ramificaciones + 1

Elegimos algunos parámetros … Learning rate: mide la tasa de aprendizaje del proceso ‘boosting’ considerando los residuos de los árboles de regresión previamente efectuados

Efecto de la ‘learning rate’

Para más detalles sobre el efecto de ‘learning rate’ consultad:

Secuencia de árboles Varianza de los residuos de la muestra * análisis (train) * test Importancia de las variables predictoras (¡OJO! en la muestra de “análisis”) RESULTADOS

Para obtener los valores * observados * predichos * residuales De las muestras * Analysis * Test * Todas Para obtener el ‘normal probability plot’ de los residuos PREDICCIONES

Una vez obtenida la hoja de los valores predichos y observados, damos ‘clic’ con el botón derecho del ratón en el nombre del documento ( ) y a continuación seleccionamos ‘Use as Active Input’

Relación entre valores predichos y observados (… gráficamente)

Si hacemos varios procesos de ‘boosting trees’ con diferentes extracciones al azar de datos (Seed for random number generator) podemos promediar los valores predichos por diferentes procesos ‘boosting trees’. Este es un modo mucho más eficaz de producir predicciones más atinadas. De entrada, los ‘boosting trees’ producen mejores predicciones que un árbol clásico de regresión crosvalidado. De salida, el promedio de 10 procesos ‘boosting trees’ genera una R 2 observado-predicho bastante mejor que un solo proceso ‘boosting tree’. Y si no … he aquí la prueba.

RESULTADOS DEL PROMEDIO DE 10 PROCESOS ‘BOOSTING TREES’

… COMPARADO CON: