Análisis previos de los datos

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
MSP César Eduardo Luna Gurrola
1. MODELO DE REGRESIÓN SIMPLE
ANALISIS PARAMÉTRICOS
Tema 16: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
EJEMPLO.
Introducción a la Inferencia Estadística
Estadística Aplicada a Ecología
DISEÑO DE EXPERIMENTOS
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Ejemplo Grafico.
ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
PRUEBA DE HIPOTESIS Denominada también prueba de significación, tiene como objetivo principal evaluar suposiciones o afirmaciones acerca de los valores.
Contraste de Hipótesis
Pronósticos, Series de Tiempo y Regresión
PRUEBA DE HIPOTESIS LUIS FERNANDO TRUJILLO LEYDER JULIAN GOMEZ
ANÁLISIS EXPLORATORIO DE DATOS
ANÁLISIS PREELIMINAR DE LOS DATOS
Bioestadística Diplomado en Sanidad
Ingeniería Industrial II CicloEducativo 2011
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
PRUEBAS DE HIPOTESIS HIPOTESIS
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
TEMA III.
El método científico Ing. Nelson Velásquez.
Uso de pruebas estadísticas paramétricas y no paramétricas
CURSO DE ESTADÍSTICA BÁSICA
GRADO DE CONFIANZA DE LA INFERENCIA
Estadística Computacional Prof. Miguel González Velasco
Metodología de la evaluación y estadística aplicada
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
PROBLEMAS ECONOMETRICOS
Pronósticos, Series de Tiempo y Regresión
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Unidad V: Estimación de
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Titular: Agustín Salvia
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal múltiple
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Tomando decisiones sobre las unidades de análisis
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
EVALUACION Y RESULTADOS DEL PROYECTO DE INVESTIGACION
CONTRASTE DE HIPÓTESIS Dimensiones Largo275mm. 169 mm 2 Ancho175mm.49 mm 2 Alto175mm.49 mm 2 Peso16 Kg.1 Kg 2. SITUACIÓN PROBLEMA.
INFERENCIA ESTADÍSTICA
TEMA 4 LA VALIDEZ DE LA INVESTIGACIÓN
Pruebas paramétricas y no paramétricas
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
POBLACIÓN Y MUESTRA CÁLCULO DEL TAMAÑO MUESTRAL. Descripción e inferencia Población Muestra Muestreo Inferencia Resultado.
Licenciatura en Psicopedagogía: Métodos, Diseños y Técnicas de Investigación Psicológica Tema 9 Fiabilidad de las puntuaciones.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Transcripción de la presentación:

Análisis previos de los datos Nicolás Arturo Núñez Gómez. Ph. D Facultad de Salud

Escalas de medición. No métrica: Nominal y Ordinal Métrica: Intervalo y razón Escalas sumadas: Σ(indicadores)

Error de medida. “Grado en que los valores observados no son representativos de los valores verdaderos”. Ruido blanco. Valor observado = verdadero + ruido. Medida, tabulación, informante, análisis. Validez. Teórica, precisión Confiabilidad. Repetición de medida y control del error de medida

Significación estadística Significación estadística. Resultados de un modelo de análisis de datos Significación práctica Aplicabilidad y predictibilidad del modelo en la vida de las familias, las empresas y elestado

Significación estadística frente a potencia estadística Inferencia estadística de los valores de una población o la relación de variables de una muestra escogida aleatoriamente. hipótesis nula (Ho) que se formula y por tanto se quiere contrastar o rechazar. Hipótesis alternativa (H1) cualquier que sea diferente de la formulada, y que sea contraria a Ho.

Interpretar una inferencia se debe definir: Nivel de error aceptable, α nivel de significación . Positivo Falso Error Tipo I.- Se rechaza H0 cuando ésta es verdadera Potencia de la prueba = 1- β. Error Tipo II.- Se acepta H0 cuando ésta es falsa Potencia: efecto tamaño, α y tamaño muestra. Α=0.05 y β=80

EL VALOR TEORICO Combinación lineal de variables con ponderaciones determinadas empíricamente. El investigador especifica las variables, mientras que las ponderaciones son objeto específico de determinación por parte de la técnica multivariante, Un valor teórico de n variables ponderadas (X1a Xn) puede expresarse matemáticamente así: Valor teórico = w1X1 + w2X2 + w3X3 + … + wnXn donde Xnes la variable observada y Wnes la ponderación determinada por la técnica multiva­riante.

ESCALAS DE MEDIDA Escalas de medidas no metricas: escalas nominales escalas ordinales Escalas de medidas métricas: escalas de intervalos escalas de razón

ERROR DE MEDIDA Y MEDIDAS MULTIVARIANTES El error de medida es el grado en que los valores observados no son representativos de los valores «verdaderos». El error de medida; errores en la entrada de datos, imprecisión en la medición el valor observado obtenido representa tanto el nivel «verdadero» como el «ruido».

El objetivo del investigador de reducir el error de medida puede seguir varios caminos La validez es el grado en que la medida representa con precisión lo que se supone que representa. Si la misma medida se realiza repetidas veces, por ejemplo, las medidas más fiables mostrarán una mayor consistencia que las medidas menos fiables.

SIGNIFICACION ESTADISTICA FRENTE A POTENCIA ESTADISTICA Para interpretar las inferencias estadísticas, se debe especificar los niveles aceptables de error estadístico. El nivel de error de Tipo I, también conocido como alfa (α). El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. Expresado en términos más sencillos, la posibilidad de que la prueba muestre significación estadística cuando en realidad no está presente (el caso de un «positivo falso»). Especificando un nivel alfa, el investigador fija los márgenes admisibles de error especificando la probabilidad de concluir que la significación existe cuando en realidad no existe.

el error de Tipo II o beta (β). El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Una probabilidad más interesante es 1 - β, denominado la potencia del test de inferencia estadística. Potencia es la probabilidad de rechazar correctamente la hipótesis nula cuando debe ser rechazada. Por tanto, la potencia es la probabilidad de que la inferencia estadística se indique cuando esté presente.

La potencia 1.Efecto tamaño 2.Alfa (α) 3.El tamaño de la muestra

REPRESENTACION PARA EL ANALISIS MULTIVARIANTE INTERPRETACION ESTABLECER LA SIGNIFICACION PRACTICA ASI COMO LA ESTADISTICA TAMAÑO MUESTRAL AFECTA A TODOS LOS RESULTADOS CONOCER LOS DATOS PROCURAR LA PARSIMONIA DEL MODELO ATENDER A LOS ERRORES VALIDAR LOS RESULTADOS

Pasos para desarrollar una investigación con métodos cuantitativos en economía Definir el problema de investigación: objetivos y técnicas multivariantes Recolección de bases de datos Evaluación de supuestos básicos: normalidad, linealidad, ξ~N(0,σ2), varianza constante. Estimación del modelo y ajuste Interpretación del valor teórico Validación del modelo Diagrama de flujo de decisiones

Los casos atípicos son observaciones con características diferentes de las demás. Su principal problema radica en que son elementos que pueden no ser representativos de la población pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadísticos. Datos D Atípicos

Tipos de outliers Los casos atípicos pueden clasificarse en 4 categorías: Los que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificación. 2. observación que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningún segmento válido de la población y puede ser eliminado del análisis. 3. observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son únicas en la combinación de los valores de dichas variables. Estas observaciones deberían ser retenidas en el análisis pero estudiando qué influencia ejercen en los procesos de estimación de los modelos considerados. 4. las observaciones extraordinarias para las que el investigador no tiene explicación. En estos casos lo mejor que se puede hacer es replicar el análisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debería reportarlo en sus conclusiones y debería averiguar el por qué de dichas observaciones.

Identificación de outliers Los casos atípicos pueden identificarse desde una perspectiva univariante o multivariante. La perspectiva univariante utilizar gráficamente histogramas o diagramas de caja o bien numéricamente, mediante el cálculo de puntuaciones tipificadas. Para muestras de 80 o incluso menos observaciones, las pautas sugeridas identifican como atípicos aquellos casos con valores estándar de 2.5 o superiores, para el resto 3.

pares de variables mediante un gráfico de dispersión. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el gráfico de dispersión. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el gráfico de dispersión una elipse que represente un intervalo de confianza especificado para una distribución normal bivariante.

Tipos de valores ausentes Se distinguen las dos situaciones siguientes: Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el control del investigador y pueden ser identificados explícitamente. En estos casos no se necesitan soluciones específicas para la ausencia de datos dado que dicha ausencia es inherente a la técnica usada. 2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explícitamente.

Según este grado el proceso de datos ausentes se puede clasificar del siguiente modo: Datos ausentes aleatorios (MCAR), este es el mayor grado de aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la muestra, sin un proceso subyacente que tiende a sesgar los datos observados. En este caso se podría solucionar el problema sin tener cuenta el impacto de otras variables b) Datos ausentes no aleatorios: en este caso existen patrones sistemáticos en el proceso de datos ausentes y habría que evaluar la magnitud del problema calibrando, en particular, el tamaño de los sesgos introducidos por dichos patrones. Si éstos son grandes habría que atacar el problema directamente intentando averiguar cuáles son dichos valores.

Aproximaciones al tratamiento de datos ausentes a)Utilizar sólo los casos completos: conveniente si el tamaño muestral no se reduce demasiado. b) Supresión de casos y/o variables con una alta proporción de datos ausentes. Esta supresión deberá basarse en consideraciones teóricas y empíricas. En particular, si algún caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputación puede distorsionar los modelos estimados. Así mismo una variable independiente con muchos datos ausentes podrá eliminarse si existen otras variables muy similares con datos observados

c) Imputar valores a los datos ausentes utilizando valores válidos de otras variables y/o casos de la muestra Métodos de imputación Los métodos de imputación pueden ser de tres tipos: 1) Métodos de disponibilidad completa que utilizan toda la información disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones

2) Métodos de sustitución que estiman valores de reemplazo para los datos ausentes, sobre la base de otra información existente en la muestra. Así se podría sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresión sobre otras variables muy relacionadas con aquella a la que le faltan observaciones. 3) Métodos basados en modelos que construyen explícitamente el mecanismo por el que se producen los datos ausentes y lo estiman por máxima verosimilitud. Entran en esta categoría el algoritmo EM o los procesos de aumento de datos.