1.  El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas,

 El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas, Ingenieros Industriales, Periodistas, Estadísticos, y otros, a quienes les interesa obtener el máximo de información relevante de los resultados de Encuestas de Opinión Pública, Estudios de Mercado y estudios muestrales similares. 2 Volver

10 Volver

11 Volver

13 CELDA N° 1 MUESTRAS : UNA MUESTRA VARIABLE : NOMINAL Tests : 1.- Binomial 2.- Bondad de ajuste del Chi-Cuadrado Volver

14 Este test suele aplicarse cuando se desea testear si la proporción de unidades muestrales (por ej. personas que poseen la característica), es compatible con cierta proporción hipotética. Así es como, si interesa la intención de voto por cierto candidato, y éste recibe, en una encuesta muestral probabilística de tamaño real n = 1000, un 53% de las intenciones de voto, por ejemplo, puede ser de interés el preguntarse si en la población representada por la muestra, la real proporción pudiera ser de sólo 50% o aún menor, a un nivel de significancia ( probabilidad de cometer un error al rechazar la hipótesis Nula equivocadamente), del 0,01, vale decir, del 1% Este test suele aplicarse en el caso de variables dicotómicas, o multicotómicas dicotomizadas, de modo que las respuestas puedan consistir sólo de unos (“1”) cuando la unidad muestral ( por ejemplo persona u objeto), opina de cierto modo o posee la característica de interés. Cuando no la posee, se codifica un cero (“0”). En el ejemplo precedente poseer la característica significa tener intenciones de votar por este candidato (código 1). El código 0, para los efectos de este test, se aplicaría a todas las personas que no tienen intenciones de votar por este candidato, vale decir votarían por otro candidato, o votarían en blanco, etc. (variable multicotómica dicotomizada). El output computacional podría verse del siguiente modo: Volver

15 Volver

16 volver

 En el ejemplo precedente, la muestra consta de 1000 entrevistas, y hemos supuesto que, en este caso, el “efecto del diseño es 1”, vale decir, el tamaño real de la muestra puede ser considerado como equivalente a una muestra aleatoria simple de tamaño 1000.  En este punto cabe señalar que el programa ha sido diseñado de tal modo que cuando el tamaño muestral real es de 400 casos o menor, el programa computacional calcula las probabilidades exactas en base a la fórmula Binomial. Cuando el tamaño muestral real supera los 400 casos, el programa utiliza una aproximación a la Curva Normal. Este último es el caso presentado en la página precedente.  A continuación presentamos el output computacional para un caso similar al anterior, pero con los resultados basados en una muestra de 40 casos en lugar de 1000, para demostrar como se presentan los resultados al usuario cuando la fórmula utilizada es la Binomial. 17 Volver

18 volver

19 volver

20 volver

21 volver

22 Volver

23 Volver

24 Volver

25 volver

27 Volver

28 volver

29 volver

30 volver

31 CELDA N° 2 MUESTRAS : DOS MUESTRAS RELACIONADAS VARIABLE : NOMINAL Tests : 1.- Test del cambio de Mc Nemar Volver

Este test es sumamente útil cuando se desea detectar si hubo algún cambio entre una situación previa a algún acontecimiento y otra situación posterior al acontecimiento. En este test ambas mediciones deben efectuarse sobre los mismos entrevistados, es decir, cada entrevistado proporciona 2 respuestas. Así, el test puede ser usado para medir la efectividad de un tratamiento particular (tratamiento médico, campaña publicitaria, reunión personal, discurso político, atentado terrorista, editorial en un periódico, campaña televisiva, etc.) Los resultados se entregan en una tabla de 2 x 2, como se ve en el siguiente ejemplo: 32 Volver

En 1980, se llevó a cabo un debate televisivo entre los candidatos Carter y Reagan previo a las elecciones presidenciales de dicho año. El investigador seleccionó aleatoriamente a 70 personas entre los centenares de personas presentes en el auditorio donde se llevaría a cabo el debate entre ambos candidatos, y preguntó a cada uno de ellos por sus preferencias. Al finalizar el debate, preguntó a las mismas 70 personas las mismas preguntas. Podría ser más de una pregunta, pero el test se aplica individualmente para cada pregunta separadamente. El investigador no pretendía que su muestra de 70 casos reflejara la opinión pública de votantes de la nación, tal como los centenares de espectadores presentes durante el debate no constituían tampoco una muestra representativa de la población en general. Pero sí quería detectar si el debate producía efectos entre la gente, y cómo se reflejaba eso en sus preferencias. Podría preguntarse también, por ejemplo, la impresión de las personas pertenecientes a la muestra sobre la credibilidad que tienen los candidatos, antes y después del debate público, etc. 33 Volver

34 volver

35 volver

Como se observa, la conclusión que se desprende es que el debate no fue beneficioso para ninguno de los dos candidatos. Sin embargo, si aún quedan dudas, podría recurrirse al test Binomial aplicado sobre el total de 20 personas que cambiaron de “bando”, de los cuales 13 (un 65%) se pasaron de Carter a Reagan y sólo 7 (un 35%) de Reagan a Carter, y tratar de averiguar si estos porcentajes se alejan significativamente ( desde el punto de vista estadístico) de la hipótesis nula de p = 50%. A continuación presentamos el Test Binomial aplicado a este ejemplo, y veremos que arroja el mismo resultado que el Test de Mc Nemar. volver 36

37 volver

38 volver

39 Nótese que en ambos tests, la probabilidad de obtener los valores empíricos, bajo la hipótesis nula de igualdad, es de un 26,3% en el caso del test Binomial y de un 26,4% en el caso del test de Mc Nemar. Obsérvese que el resultado del test de Mc Nemar es una aproximación, mientras que el test Binomial proporciona probabilidades exactas, y como se ve ambos resultados se asemejan mucho entre sí En ambos casos la hipótesis alternativa es bilateral, es decir, no se presupone el triunfo para ninguno de los dos bandos en disputa volver

40 CELDA N° 3 MUESTRAS :DOS MUESTRAS INDEPENDIENTES VARIABLE : NOMINAL Tests : 1.- Test exacto de Fisher para tablas de 2 x 2 2.- Test del Chi-Cuadrado para tablas de r x 2 Volver

41 Volver

42 Volver

43 Ejemplo N° 1: Volver

44 volver

46 Ejemplo N° 2 : Volver

47 volver

48 Ejemplo 3: Volver

49 volver

50 Este test es sumamente útil para analizar datos discretos (nominales u ordinales) entre dos muestras independientes para comparar si la distribución de las frecuencias relativas a través de las categorías de respuesta es igual para ambas poblaciones de las cuales fueron extraídas las muestras. Como en el test anterior, ambas muestras deben ser aleatorias simples, o, si se trata de muestras probabilísticas complejas, se debe divisar un método de simplificación, calculando el “efecto del diseño” y simplificando los datos de tal modo de lograr una tabulación virtual equivalente a una muestra aleatoria simple cuyo tamaño muestral sea equivalente en cuanto a error Standard, al del diseño complejo. Generalmente esto implica analizar los resultados con una muestra de tamaño muestral menor a la originalmente obtenida. Tal como en el caso del test exacto de Fisher estas 2 muestras independientes pueden ser dos muestras cualesquiera, por ejemplo una muestra experimental y la otra de control, o bien una muestra de ‘Hombres’ y la otra de ‘Mujeres’, una muestra de los que apoyan a los partidos del Gobierno y la otra de los que apoyan a los partidos de la Oposición, etc. En cuanto al número de categorías de respuesta, éstas ya no están limitadas a 2. A continuación presentaremos dos ejemplos: Volver

51 Como primer ejemplo mostraremos un caso en que Shiffman recolectó información sobre crisis de recaídas entre ex fumadores sujetos a ciertas terapias. Se deseaba conocer la eficiencia de las diversas terapias, la que se midió en base al porcentaje de recaídas en el hábito de fumar después de aceptar ser sujetos a diversas terapias. Para esos efectos se trabajó con una muestra aleatoria de 159 personas, todas ex-fumadores, las cuales se subdividieron en 3 grupos con tratamientos alternativos, los que llamó de “comportamiento” (behavioral), “cognitivo” (cognitive) y una combinación de ambos. 39 ex-fumadores siguieron el tratamiento del “comportamiento” 36 ex- fumadores siguieron el tratamiento “cognitivo” 56 ex-fumadores siguieron ambos tratamientos 28 ex-fumadores no siguieron ningún tratamiento La Hipótesis alternativa postula que diferentes tratamientos deben producir diferentes resultados en cuanto al porcentaje de recaídas en el hábito. A continuación se presenta la tabla y los resultados del análisis Volver

52 Volver

53 volver

54 volver

55 volver

56 volver

57 volver

58 Como segundo ejemplo mostraremos un caso en que un grupo de psicólogos desearon testear si la altura de las personas influye en su carácter de “líder” o de “seguidor”. Para esos efectos se extrajo una muestra aleatoria de 43 personas de baja estatura y 52 personas de estatura elevada, y mediante un determinado instrumento de medición, se determinó si se clasificaban como “líderes” o como “seguidores”. Sin embargo, el instrumento de medición no logró evaluar dicha cualidad en todas las personas de la muestra, y por lo tanto, en esos casos, se determinó codificar a dichas personas como “inclasificables”. A continuación se presenta la tabla con los resultados Volver

59 Volver

60 volver

61 Obsérvese que alrededor de un 60% de las personas altas fueron clasificadas como “líderes” ( 32 de 52), siendo ese porcentaje solamente del 28% entre las personas bajas ( 12 de 43). Si bien se podía sospechar viendo los resultados de la tabla, que existía una relación entre estatura y status, el test comprobó que dicho supuesto era correcto, y hasta proporcionó una probabilidad de equivocarse al afirmar que existe dicha relación. Dicha probabilidad es sólo del 5 o/ oo (cinco por mil), es decir, en sólo 5 casos de cada mil, en una muestra aleatoria como la precedente, se daría un resultado como el anterior cuando la Hipótesis Nula de independencia fuera la correcta. La hipótesis de independencia nos debería mostrar proporciones similares en cada categoría de respuesta para ambos grupos de personas. En esos 5 casos de mil, por lo tanto, nos equivocaríamos al señalar que no hay independencia, y que, al contrario, existe una relación entre estatura y status de “líder – seguidor”. Sin embargo, existe la posibilidad de averiguar más a fondo en el experimento, para lo cual se divide la tabla original de 3 x 2, en 2 tablas de 2 x 2 cada una. Esto se denomina “particionar los grados de libertad de una tabla de r x 2”. A continuación se presentará la partición de la tabla precedente en 2 sub-tablas de 2 x 2 Volver

62 volver

63 volver

64 volver

65 CELDA N° 4 “k” MUESTRAS DEPENDIENTES VARIABLE : NOMINAL Tests : 1.- Test del Q de Cochran Volver

66 Volver

67 Se debe destacar que el 0 se atribuye a toda respuesta que implique no poseer la característica, incluyendo entre éstas las “no respuestas”. A continuación se presenta un ejemplo hipotético con una muestra muy pequeña, y sólo con el propósito de clarificar los detalles. Suponiendo que se trate de una encuesta sobre intenciones de voto por los diferentes candidatos, en este ejemplo vamos a decir que nos interesa el candidato A, y más específicamente, lo que interesa es saber si la intención de voto por dicho candidato se mantiene o cambia a través del tiempo. En la tabla que se presenta a continuación se puede apreciar que el entrevistado 1 no tiene intenciones de votar por este candidato en ninguna de las 3 ocasiones en que fue entrevistado. El resto de la tabla se subentiende aplicando igual lógica. Esta pequeña muestra sirve además como ejemplo de la forma de ingresar los datos, y representa sólo una pequeña parte de la matriz de datos. Otras columnas representarán las intenciones de voto por los otros candidatos a cada uno de los cuales se puede aplicar este mismo test. El programa “importa” la planilla, la analiza y luego la despliega, quedando esta última opción al arbitrio del investigador. Obviamente si se trata de una muestra grande, de varios centenares de entrevistas por ejemplo, el investigador puede optar, porque el programa así lo permite, el no desplegar la tabla de datos originales, la que en el presente ejemplo se presenta gracias al pequeño tamaño muestral. Volver

68 Volver

69 Volver

70 CELDA N° 5 “k” MUESTRAS INDEPENDIENTES VARIABLE : NOMINAL Tests : 1.- Test del Chi-Cuadrado para tablas de “r” x “k” Volver

71 Este test es sumamente útil para analizar datos discretos (nominales u ordinales) entre k = 3 o más muestras independientes para comparar si la distribución de las frecuencias relativas a través de las categorías de respuesta es igual para las “k” poblaciones de las cuales fueron extraídas las muestras. Como en el test anterior del Chi-cuadrado para tablas de r x 2 de la celda 3, las “k” muestras deben ser aleatorias simples, o, si se trata de muestras probabilísticas complejas, se debe divisar un método de simplificación, calculando el “efecto del diseño” y simplificando los datos de tal modo de lograr una tabulación virtual equivalente a una muestra aleatoria simple cuyo tamaño muestral sea equivalente en cuanto a error Standard, al del diseño complejo. Generalmente esto implica utilizar en las fórmulas un tamaño muestral menor al número de personas efectivamente entrevistadas. Volver

72 Tal como en el caso del test precedente del Chi-Cuadrado para 2 muestras independientes, en este caso pueden ser “k” muestras cualesquiera, por ejemplo 4 grupos etarios, o tres grupos socio-económicos, o “k” partidos o agrupaciones políticas con las cuales los entrevistados se identifican, etc. Respecto a las limitaciones del programa en cuanto al tamaño de las tablas de contingencia que puede importar, estas van desde un mínimo de 3 x 3 hasta un máximo de 6 x 6. Esto no implica en lo absoluto que las tablas a analizar deben ser matrices cuadradas. Muy por el contrario, existen 16 combinaciones posibles de tamaños de tablas de contingencia, rectangulares o cuadradas( 3 x 3, 3 x 4, 3 x 5, 3 x 6, 4 x 3, 4 x 4, 4 x 5, etc.). A continuación presentaremos un ejemplo del área de Opinión Pública, en el que se pretende obtener información sobre el nivel de aprobación de la población respecto al Gobierno de turno. La tabla de contingencia que se presenta a continuación corresponde a un ejemplo hipotético, en el cual se pide a los entrevistados identificarse con alguna de 4 posiciones políticas. En cuanto a las categorías de respuesta, éstas son 3: Aprueban, Son Indiferentes, o Desaprueban la gestión del Gobierno Volver

73 El análisis consiste inicialmente en calcular un test del Chi-Cuadrado para el total de la tabla. Si el resultado de este test arroja un resultado de X 2 ubicado en la Región Crítica, es decir, rechazando la Hipótesis Nula al nivel de significancia elegido, se procede a un análisis residual en el que la tabla de contingencia original (en este ejemplo de 3 x 4), se subdivide en (r-1)*(k-1) subtablas de 2 x 2 cada una. Puesto que en este ejemplo r = 3 y k = 4, el número de subtablas será de 2 x 3 = 6. Cada una de estas tablas de 2 x 2 se calcula combinando valores contiguos (es decir categorías de respuesta contiguas de la variable dependiente) como igualmente combinando las categorías contiguas de la variable independiente. El valor agregado de este tipo de análisis del Chi-Cuadrado es el de que no solamente nos dice que la tabla completa, como un solo todo, muestra que existe un tipo de interacción entre la variable independiente y la variable dependiente, sino que nos agrega la posibilidad de ubicar DONDE está ubicada exactamente la interacción. Para estos efectos el programa efectúa un test del Chi-Cuadrado para cada una de estas tablas de 2 x 2, obteniendo un valor de X 2 para cada subtabla. Cada uno de estos valores se compara con el χ 2 crítico al nivel alfa de significancia elegido para 1 grado de libertad. Luego el programa entrega sus conclusiones. Volver

74 Volver

75 Volver

76 Volver

77 Volver

78 Volver

79 Volver

80 Volver

81 Como se desprende del análisis anterior, la única subtabla que muestra una relación diferencial (interacción) entre las variables independientes de la subtabla y la combinación de categorías de respuesta correspondiente, es la subtabla 6, la que muestra por un lado, como variable independiente, la combinación de todas las personas identificadas con algún partido político sea éste de Centro, Derecha o Izquierda, y por otro lado, el grupo de los Independientes. En cuanto a las 2 categorías de aprobación diferenciadas por el test, son: “Aprueban + Indiferentes” vs. “Desaprueban”. Esto podría estar sugiriendo que son los Independientes los que difieren con el universo de personas identificadas políticamente ( no importando con cuál partido simpaticen ), en cuanto a su opinión respecto a la conducción económica del Gobierno. En otras palabras, las personas que se identifican con alguna corriente política, son más homogéneas entre sí que con los independientes, respecto a la variable dependiente “nivel de aprobación”. También se destaca que la categoría conflictiva es la de “desaprobación” al compararla con la combinación de {“aprueban” + “indiferentes”}. Se puede observar en la subtabla 6, que la relación de “aprueban + indiferentes” respecto a los que “desaprueban”, es igual a 1 entre los independientes ( 21 : 21 ), mientras que esta relación es casi de 3 : 1 a favor de la “aprobación e indiferencia” a la gestión económica, en comparación con los que la “desaprueban”, en el grupo de las personas identificadas con algún partido político ( 101 : 35 ) volver

82 CELDA N°6 ESTADIGRAFOS DE ASOCIACION VARIABLE : NOMINAL Tests : 1.- El coeficiente C de Cramer 2.- El coeficiente rΦ Phi 3.- El coeficiente de acuerdo kappa K 4.- El coeficiente de asociación asimétrica L B de Lambda Volver

83 Este test es sumamente útil para analizar tablas de contingencia en que ambas variables pertenecientes a una misma muestra, se presentan como datos discretos (nominales u ordinales) y se desea analizar el grado de relación existente entre ambas utilizando para ello las frecuencias absolutas de las celdas de la tabla. Como en el test anterior la muestra (única en este caso) debe ser aleatoria simple, o, si se trata de una muestra probabilística compleja, se debe divisar un método de simplificación, calculando el “efecto del diseño” y simplificando los datos de tal modo de lograr una tabulación virtual equivalente a una muestra aleatoria simple cuyo tamaño muestral sea equivalente en cuanto a error Standard, al del diseño complejo. Generalmente esto implica reducir el tamaño muestral basado en el número de entrevistas efectivas, a un tamaño muestral efectivo (equivalente al que se necesitaría en muestreo aleatorio simple para lograr igual error standard). Respecto a las limitaciones del programa en cuanto al tamaño de las tablas de contingencia que puede importar, estas no tienen límites. Volver

84 A continuación presentaremos un ejemplo de una tabla de contingencia de 3 por 6, vale decir una de las variables, nominal, la que podríamos llamar dependiente, posee 3 alternativas de respuesta, cruzada con una variable, también nominal, pero con 6 alternativas de respuesta, las que en la tabla a continuación titulamos como categorías. El estadígrafo C de Cramer puede ir de un mínimo de 0 a un máximo de 1. Esto a diferencia del coeficiente de correlación de Pearson, el cual va de -1 a +1. Es lógico que en este caso, el de correlación de variables nominales, no se hable de coeficiente de asociación con signo, puesto que al no ser numéricas las variables cuya asociación se está estudiando, no podemos hablar de relación negativa o positiva. Simplemente podemos hablar de la existencia o inexistencia de relación entre ellas. Volver

85 Puesto que el estadígrafo C se distribuye asintóticamente como un Chi-Cuadrado, se utiliza esta distribución para el cálculo de la probabilidad de obtener valores empíricos del coeficiente C. Igualmente obtenemos el valor crítico del χ 2 para el nivel de significancia escogido. Si el valor empírico obtenido es superior al crítico, se acepta la Hipótesis de relación entre las variables, utilizando el valor del coeficiente C como una aproximación al nivel de relación entre ellas. En cambio, si el χ 2 empírico obtenido es inferior al valor crítico, aceptamos la Hipótesis Nula de independencia entre las variables. Debemos recordar que cuando aceptamos la Hipótesis alternativa que postula que hay relación entre las variables, estamos sujetos a una probabilidad menor a alfa de cometer un error al desechar la Hipótesis Nula de independencia entre las variables. En el primer ejemplo que aquí presentamos, el coeficiente C de Cramer que se obtuvo es de 0.51 valor que sugiere un moderado grado de relación entre las variables. Sin embargo, antes de aceptar esta relación, conviene efectuar el test de hipótesis respectivo. Como se observa, la probabilidad de obtener un valor del X 2 de 75.25 como el registrado, bajo el supuesto de que la hipótesis de la independencia fuera cierta es, para todos los efectos prácticos, nula, y muy por debajo del nivel de significancia escogido, el cual de por sí ya era muy bajo (0.001), por lo cual no hay temor en aceptar la dependencia entre las variables Volver

86 Volver

87 Volver

88 Volver

89 Este test es sumamente útil para analizar tablas de contingencia en que ambas variables pertenecientes a una misma muestra, se presentan como datos discretos (nominales u ordinales) DICOTÓMICOS y se desea analizar el grado de relación existente entre ambas utilizando para ello las frecuencias absolutas de las celdas de la tabla. Como en el test anterior la muestra (única en este caso) debe ser aleatoria simple, o, si se trata de una muestra probabilística compleja, se debe divisar un método de simplificación, calculando el “efecto del diseño” y simplificando los datos de tal modo de lograr una tabulación virtual equivalente a una muestra aleatoria simple cuyo tamaño muestral sea equivalente en cuanto a error Standard, al del diseño complejo. Generalmente esto implica que la fórmula utiliza un tamaño muestral menor al número de personas efectivamente entrevistadas. Respecto a las limitaciones del programa en cuanto al tamaño de las tablas de contingencia que puede importar, estas deben ser de 2 x 2. Volver

90 A continuación presentaremos un ejemplo de una tabla de contingencia de 2 x 2, vale decir cada variable, nominal, es dicotómica. El estadígrafo r Φ puede ir de un mínimo de 0 a un máximo de 1. Esto a diferencia del coeficiente de correlación de Pearson, el cual va de -1 a +1. Es lógico que en este caso, el de correlación de variables nominales, no se hable de coeficiente de asociación con signo, puesto que al no ser numéricas las variables cuya asociación se está estudiando, no podemos hablar de relación negativa o positiva. Simplemente podemos hablar de la existencia o inexistencia de relación entre ellas. Volver

91 Volver

92 Volver

93 Este test es sumamente útil para analizar situaciones en los que “k” objetos deben ser ubicados por “n” jueces en alguna de “m” ubicaciones alternativas categóricas (no ordinales). En este caso, cada uno de los jueces tiene que analizar separadamente, cada uno de los “k” objetos, los que debe clasificar en cualquiera de las “m” ubicaciones presentadas. Cuando decimos “separadamente”, nos referimos que cada juez, idealmente, debe hacer la clasificación de cada uno de los “k” objetos sin ser influido por la presencia de los otros “n-1” jueces (es decir sin saber cómo clasifica cada uno de ellos a cada objeto. Al mismo tiempo, cada juez debe clasificar cada objeto sin ser influido por la forma en que clasifica cada uno de los restantes objetos. Esta forma de proceder permite total libertad de clasificación, pudiéndose, al menos en teoría, clasificar varios objetos en una misma categoría, o incluso todos los objetos en la misma categoría, o distribuirlos entre las distintas categorías. En otras palabras, los “k” objetos son analizados por cada uno de los “n” jueces (o personas entrevistadas). Un ejemplo de esto podría ser un conjunto de “k” psicólogos que deben clasificar a cada uno de “k” pacientes y ubicar a cada uno de ellos en alguna de las “m” categorías de clasificación, y esta decisión de cada psicólogo debe ser llevada a cabo sin la presencia de los restantes psicólogos ni de los restantes pacientes. A continuación presentamos un ejemplo, con 29 objetos a ser clasificados por 4 jueces, pudiéndose otorgar a cada objeto una puntuación (categoría de clasificación) entre 1 y 5 Volver

94 Volver

95 Volver

96 Volver

97 Este coeficiente es sumamente útil para analizar situaciones en las que se desea averiguar si existe una relación unívoca entre 2 variables nominales, de tal modo que, al conocer los valores que asume la variable A, se pueda disminuir el error de predicción de los valores que asumirá la variable B, o viceversa. Este coeficiente tiene la ventaja de que nos proporciona exactamente la proporción en la que disminuye este error de predicción en una tabla de contingencia de r x k. En este sentido este coeficiente es superior al C de Cramer, cuando existe la presunción de que una de las variables puede considerarse como “antecedente” y la otra variable puede considerarse como la “consecuente”. Propiedades de L B: 1.- Varía entre 0 y 1. Si el parámetro λ B estimado por L B tiene el valor de 0 significa que el conocer la variable A no tiene valor alguno al momento de querer predecir el valor de la variable B, en tanto que un valor de λ B = 1 implica una predictibilidad perfecta puesto que para un determinado valor de la variable A sólo existe un posible valor de la variable B. 2.- En la tabla de contingencia ésto ( es decir que λ B = 1) se traduce que en cualquiera de las columnas de la tabla, sólo hay una celda diferente a cero, vale decir, todas las frecuencias en dicha columna se concentran en una sola celda que corresponde a una de las categorías de la variable nominal B siendo las restantes celdas de la columna iguales a cero. 3.- El valor de L B no se ve afectado por ningún cambio en la permutación de columnas o filas, puesto que el ordenamiento de las variables en la tabla, al ser nominales, no inciden en el valor del coeficiente Volver

98 Debe entenderse que el uso de este coeficiente sólo es recomendable en el caso que una de las variables (la que llamaremos A) puede ser considerada como “antecedente” de la otra (la que llamaremos B), y lo que se desea es obtener información cuantitativa sobre la reducción en el error de predictabilidad de la variable B, al conocerse a priori los valores que asume esta variable “antecedente” A. Por supuesto, el programa también provee la posibilidad de desear cambiar los papeles de las variables, es decir, definir a la variable B como “antecedente” para predecir el valor de la variable A con menor error de predictibilidad. Aclararemos con un ejemplo numérico estos conceptos. Volver

99 Volver

100 Volver

101 Volver

102  Obsérvese que si no conocemos los valores que asume la variable A, diríamos que la probabilidad de obtener un valor B3 de la variable B, si extraemos una persona aleatoriamente del total de 60 personas, sería de 17/ 60 = 0.283. La probabilidad de que la persona extraída aleatoriamente tenga otro valor, distinto a B3, sería, por lo tanto, de 0.717, y si predecimos, antes de la extracción de la persona por supuesto, que esa persona tendrá un valor B3 tendremos una probabilidad de error del 71.7%  Sin embargo, conociendo, por ejemplo, que la persona extraída aleatoriamente tiene un valor A2 en lo que dice respecto a la variable A, diríamos que la probabilidad de que esa persona tenga un valor B3 sería ahora de 12 / 19 = 0.632, con una probabilidad de errar del 36.8% solamente.  Similarmente, si la persona extraída aleatoriamente tuviera un valor A1 en la variable A, y después de conocer ese valor predijéramos su valor en cuanto a la variable B3, diríamos, de acuerdo a los datos de la tabla de contingencia obtenida de un estudio probabilístico, que sólo un séptimo de las personas  ( 14.3%) con código A1 tendrán un valor de B3 en la variable B, en lugar del 28.3% que diríamos antes de conocer los resultados del estudio en base a tablas con los cruces de las variables (17 / 60). Volver

103 Volver

104 CELDA N° 7 UNA MUESTRA VARIABLE : ORDINAL Tests : 1.- Test de Kolmogorov-Smirnov 2.- Test del punto de cambio de tendencia 3.- Test de rachas Volver

105 Este test es sumamente útil para estimar en qué medida distribuciones empíricas obtenidas de una muestra aleatoria se aproximan a distribuciones teóricas. En base al resultado obtenido de este test se puede presumir que la distribución subyacente de la variable estudiada se distribuye de acuerdo a una distribución teórica. El test de Kolmogorov-Smirnov asume que la variable en estudio está medida al menos en una escala ordinal y que la variable subyacente a ella se distribuye en una escala contínua. Volver

 Se acumuló información sobre la duración, en días, de 840 huelgas en el Reino Unido a contar de 1965.  A partir de ciertos modelos matemáticos, se elaboró una distribución estadística teórica y se quiso comprobar si la distribución empírica podía considerarse como ajustada a dicho modelo 106 Volver

107 Volver

108 Volver

109 Volver

110 Este test es útil para estimar si existe algún punto de inflexión en una secuencia de eventos dicotómicos. En el caso de una secuencia de eventos medidos a través de una variable cuantitativa (ordinal, de intervalo o de razón), el test no sólo mide si existe un punto de inflexión, sino que además lo localiza. Debe ser recordado que cuando la serie se basa en una muestra aleatoria, este punto de cambio o inflexión puede quedar oculto por las fluctuaciones temporales aleatorias propias de una muestra probabilística. Durante el experimento, el investigador puede introducir ‘ruido’ al sistema, como por ejemplo un incentivo, o un desincentivo, etc. Volver

111 Se subentiende que los datos pueden ser considerados como una secuencia temporal, y que la variable medida es binaria (dicotómica) o contínua, y mientras la hipótesis nula establece que no ha ocurrido ningún cambio a lo largo de toda la secuencia, la hipótesis alternativa establece que sí hubo un cambio en algún lugar de la serie -- lugar que el programa computacional detecta, como se ha dicho, cuando la variable es cuantitativa -- y que este cambio se considera como tal sólo cuando resulta ser significativo estadísticamente. Para ilustrar la aplicación de este test, se presentarán a continuación 2 ejemplos, uno de ellos utilizando una variable dicotómica y el otro utilizando una variable contínua. Volver

112  Dos encuestadores fueron seleccionados para un experimento que consistía en verificar si efectivamente una falta de motivación, en este caso económica, podía afectar su rendimiento medido a través de la tasa de entrevistas logradas.  A cada uno de ellos se le entregó una lista consistente en una muestra aleatoria de 240 personas.  Al encuestador “A” se le ofreció pagar $ K por entrevista lograda a lo largo de las 240 intentos.  Al encuestador “B” se le dijo que se le iba a pagar también $ K por entrevista lograda, pero luego de 120 personas contactadas, se le iba a reducir el pago en un 20%. Volver

113 Volver

114 Volver

115 Volver

116 Volver

117 Volver

118 Volver

119 Volver

120 Volver

121 Volver

122 Este test se utiliza para detectar si los resultados de una encuesta pueden considerarse como provenientes de una muestra aleatoria simple. Los valores ingresados deben corresponder a los de una variable nominal, pero acepta variables medidas en escala ordinal o intervalar, las que el programa luego dicotomiza. En el caso de variables ordinales, por ejemplo, el programa calcula la Mediana de los valores y luego observa para cada unidad muestral si el valor de la variable para dicha unidad está por sobre la Mediana (codifica un “+”) o bajo la Mediana (codifica un “ - ”). Con este método, dicotomiza la variable ordinal. En este tipo de tests, es importante el orden en que se van detectando los resultados, vale decir el orden en que van apareciendo los signos “+” y los “-”. El programa determina si los resultados pueden o no considerarse como independientes unos de otros, lo que confirmaría la calidad aleatoria de la muestra, o llegaría a la conclusión que hay demasiadas (o muy pocas) agrupaciones o sucesiones homogéneas. Volver

123 Luego se contabiliza cuántas sucesiones hubo, (considerando todas las sucesiones, tanto de “+” como de “-”). Por ejemplo, en el lanzamiento de 20 monedas, un lanzamiento tras otro, se anotan los resultados y se obtiene : CCCCCCCCCCSSSSSSSSSS Es decir, son 2 sucesiones, una de 10 “caras” seguidas y luego otra de 10 “sellos” seguidos. Este resultado por supuesto arroja muchas dudas sobre la característica de aleatoriedad de la muestra de lanzamientos (o del lanzador). Volver

124 Volver

 Si se detecta una alteración a lo considerado como una secuencia aleatoria de signos “+” y “-”, se llegaría a la conclusión que los puntajes obtenidos por los alumnos están contaminados por lo que escuchan de los alumnos que ya han sido entrevistados anteriormente, y por lo tanto la encuesta se puede (o mejor dicho, se debe) considerar sesgada y no fiable. 125 Volver

 En este tipo de tests, si la muestra es de 40 casos o menos, el nivel de significancia con el que se entregan los resultados es del 5% ; para muestras mayores, el investigador puede elegir el nivel de significancia que desea, puesto que el test usado es la aproximación Normal, y se desecha el uso de la tabla ad-hoc utilizada para el caso de muestras menores a 40, la que sí presenta sus resultados a niveles de significancia del 5% exclusivamente. 126 Volver

127 Volver

128 Volver

129 Volver

130 Volver

131 Volver

132 Volver

133 Volver

134 Este test es útil para estimar si existe un cambio en la opinión de la gente entre dos mediciones. Se entiende que la variable sobre la que se mide la opinión tiene un nivel superior al de una variable nominal, es decir, es al menos una variable ordinal, la que a su vez puede estar medida sobre una variable subyacente que puede ser intervalar o de razón. A continuación se presentan 2 ejemplos. El primero está basado en una muestra de 17 entrevistas, número inferior a 35 casos, el cual es el límite entre 2 algoritmos distintos usados para el mismo fin. El segundo ejemplo consta de 100 entrevistas iniciales, de las cuales 15 no cambiaron su opinión de una ocasión a la otra. En este segundo ejemplo, el algoritmo se basa en la Distribución Normal Volver

135 Volver

136 Volver

137 Volver

138 Volver

139 Volver

140 Volver (Debido a razones de espacio, sólo se presentarán los 20 primeros casos de la tabla de 100)

141 Volver

142 Volver

143 Volver

144 Este test es similar al anterior ( test del signo), pero es más útil que él, pues además de estimar la DIRECCION del cambio, toma en consideración la MAGNITUD de los cambios de una medición a la siguiente para cada persona o unidad. En otras palabras, otorga una ponderación mayor a aquellos cambios que muestren una mayor diferencia numérica entre ambas mediciones. Se entiende que la variable sobre la que se mide la opinión tiene un nivel superior al de una variable nominal, es decir, es al menos una variable ordinal la que a su vez puede estar medida sobre una variable subyacente que puede ser intervalar o de razón. Volver

145 Volver

146 Volver

147 Volver

148 Volver

149 Volver

150 Volver

151 Volver

152 Volver

153 Volver

154 Volver

155 Volver

156 Volver

157 Volver  CELDA N° 9 MUESTRAS : 2 MUESTRAS INDEPENDIENTES VARIABLE : ORDINAL Tests : 1.-Test de la Mediana 2.-Test de Wilcoxon-Mann-Whitney 3.-Test robusto de orden de rankings 4.-Test de dos muestras de Kolmogorov-Smirnov 5.-Test de Siegel-Tukey para diferencias de escala

158 Volver

 Debe señalarse que este test es a menudo el único que se debe utilizar, especialmente cuando los puntajes en las muestras contienen valores que se sospechan “outliers” o por otras causas que podrían quitarle validez a tests basados en la “media” en lugar de la “mediana” 159 Volver

 A continuación se presentarán dos ejemplos con tamaños muestrales reducidos, mostrando el output para cada uno de ellos con el algoritmo apropiado a su tamaño muestral total (combinación de ambas muestras). En el primer ejemplo, el tamaño muestral será de 39 casos, utilizándose el algoritmo del test exacto de Fisher. En el segundo caso, el tamaño muestral será de 78 casos, utilizándose el algoritmo basado en la Distribución del Chi-Cuadrado 160 Volver

161 Volver  Ejemplo 1 : Se aplicarán, en dos Universidades distintas, dos metodologías alternativas para la enseñanza del Inglés. Después de 5 años, se realizará en ambas Universidades un examen para evaluar los resultados de ambas metodologías. El experimento se basa, entre otros supuestos, en que la capacidad, conocimientos previos del idioma inglés y capacidad de aprendizaje son iguales en ambas Universidades, de modo que los resultados del examen sólo evaluarán lo que realmente importa : la eficiencia comparativa de ambas metodologías de enseñanza. En este ejemplo, se seleccionaron 23 cursos de la Universidad “A” y 16 cursos de la Universidad “B”. Las notas que se mostrarán son las notas promedio de cada curso. Debido a las características de la evaluación, con notas bastante subjetivas, se prefiere respetar las características ordinales de las notas en desmedro de su puntaje original.

 Ejemplo 2 : Tal como en el ejemplo anterior, se aplicarán, en dos Universidades distintas, dos metodologías alternativas para la enseñanza del Inglés. Después de 5 años, se realizará en ambas Universidades un examen para evaluar los resultados de ambas metodologías. El experimento se basa, entre otros supuestos, en que la capacidad, conocimientos previos del idioma inglés y capacidad de aprendizaje son iguales en ambas Universidades, de modo que los resultados del examen sólo evaluarán lo que realmente importa : la eficiencia comparativa de ambas metodologías de enseñanza. En este ejemplo, se seleccionaron 46 cursos de la Universidad “A” y 32 cursos de la Universidad “B”. Las notas que se mostrarán son las notas promedio de cada curso. Debido a las características de la evaluación, con notas bastante subjetivas, se prefiere respetar las características ordinales de las notas en desmedro de su puntaje original. Nótese que, a diferencia del ejemplo anterior, las notas que se presentan no están ordenadas de mayor a menor, vale decir, se demuestra que el ingreso puede ser efectuado en el orden original de los resultados, sin necesidad de un “sort” inicial de ellos. Puesto que el tamaño muestral combinado es superior a los 60 casos, el algoritmo será diferente al utilizado en el ejemplo anterior 162 Volver

163 Volver

164 Volver

165 Volver

166 Volver

167 Volver

168 Volver

169 Volver

170 Volver

171 Volver

172 Volver

173 Volver

174 Volver

175 Volver

176 Volver

177 La Hipótesis Alternativa puede ser cualquiera de las tres siguientes: 1.- La mediana de la población A es mayor a la de la población B 2.- La mediana de la población B es mayor a la de la población A 3.- Ambas medianas son diferentes Los puntajes utilizados para medir las variables deben ser a lo menos ordinales A continuación se presentará el mismo ejemplo que el utilizado con el Test de la Mediana como Ejemplo 1, es decir, se quiere detectar si un método de enseñanza es superior a otro, basándose en su aplicación en dos Universidades distintas, pero con alumnos que se puede afirmar tienen el mismo nivel intelectual. El total de cursos y los datos son exactamente los mismos que los utilizados en el Ejemplo 1 con el Test de la Mediana Volver

178 Volver

179 Volver

180 Volver

181 Volver

182 Volver

183 Volver

184 Volver

185 Volver

186 Volver

187 Volver

188 Volver

189 Volver

190 Volver

191 Volver

192 Volver

193 Volver

194 Volver

195 Volver

196 Volver

197 Volver

 Obsérvese que, a simple vista, el curso C muestra una mayor homogeneidad en sus notas en comparación con el grupo A, pero no es posible saber si esta diferencia puede considerarse estadísticamente significativa.  Este test probó que la diferencia en variabilidad entre ambas poblaciones de notas sí es estadísticamente significativa, al nivel del 5% 198 Volver

199 Volver

200 Volver

201 Volver

202 Volver

203 Volver

204 Volver

205 Volver

206 Volver

 Las “k” MEDICIONES SE DEBEN EFECTUAR A UNA MISMA MUESTRA, EN OTRAS PALABRAS, A UNA MUESTRA PANEL, SIN ROTACION PARCIAL.   Para los efectos del test, el ordenamiento de los “k” grupos debe efectuarse a priori. Obsérvese la utilidad de este test cuando las “k” mediciones son mediciones en el tiempo. En este caso, es fácil decidir a priori sobre el ordenamiento de los grupos  Tal como en el Test de Friedman, si el test original finaliza aceptando la Hipótesis Alternativa, es decir rechazando la igualdad de todas las Medianas, este programa revisa todas las comparaciones pareadas posibles de efectuar {k*(k-1)/2}, en busca de diferencias estadísticamente significativas en cada par, al nivel “alfa” impuesto por el investigador. 207 Volver

208 Volver

209 Volver

210 Volver

211 Volver

212 Volver

213 Volver

 Al analizar las 6 mediciones consecutivas, y leer las conclusiones del test, se observa que en primer lugar se detectó que sí existían diferencias significativas entre las mediciones, y que éstas en algún lugar implicaban que mediciones posteriores mostraban medianas mayores que mediciones anteriores.  El test luego analizó los 15 pares que se podían formar con los resultados de las 6 mediciones y encontró que :  La primera medición fue la menor, estocásticamente, de las 6 mediciones  La segunda medición, siendo superior a la primera, se detectó que era inferior, estocásticamente, a la 4 ª, 5 ª y 6 ª pero no a la 3 ª  La 3 ª es inferior a la 5 ª y a la 6 ª pero no así a la 4 ª  No se detectaron diferencias entre las 3 últimas mediciones, vale decir, la 4ª, 5ª y 6 ª  De modo que puede decirse que la serie de 6 mediciones muestra una mejoría en la aprobación del Gobierno a través del tiempo, pero no muy marcada, especialmente no marcada entre las 3 últimas mediciones. 214 Volver

 Conviene recordar que, puesto que se trata de un panel, el tamaño muestral con el que se debe realizar el análisis es con el menor de los tamaños detectados a través de las mediciones, puesto que ese es el mínimo común denominador que se repite en todas las mediciones. El resto, que va quedando en el camino sin investigar, ya sea por rechazo debido a cansancio u otras razones, se pierde.  Esa es la razón por la que se debe intentar siempre mantener lo más completo posible el panel a través del tiempo, tal vez con incentivos especiales, y tratando que éstos no introduzcan sesgos en las respuestas 215 Volver

 Cabe destacar que si bien la muestra, en este ejemplo, es de 100 casos, en el output computacional sólo se presentan los primeros 20 casos, considerando que para los efectos de este ejemplo de output, la presentación de los datos originales completos es irrelevante.  Aun más, para efectos prácticos, este programa puede manejar muestras de miles de casos, situación en la cual el investigador tiene la opción de no imprimir la matriz de datos originales 216 Volver

217 Volver

218 Volver

219 Volver

 En este ejemplo se tomaron 6 muestras independientes de apoderados de niños que asisten a colegios.  El criterio con el que se presentan las muestras es según la colegiatura que alcanzaron los apoderados en sus vidas. La variable a estudiar es el número de asistencias a reuniones de apoderados durante el último año escolar. 220 Volver

221 Volver

222 Volver

223 Volver

224 Volver

225 Volver

226 Volver

227 Volver

228 Volver

229 Volver

230 Volver

231 Volver

232 Volver

233 Volver

234 Volver

235 Volver

236 Volver

237 Volver

238 Volver

 Para que se acepte la Hipótesis Alternativa basta con que  al menos una de las desigualdades sea absoluta, vale decir,  sea estrictamente < (menor) y no ≤ (menor o igual).  La Hipótesis Nula, como anteriormente, consiste en presuponer que las “k” distribuciones son idénticas, medido ésto a través de la comparación de las Medianas. 239 Volver

240 Volver

241 Volver

242 Volver

243 Volver

244 Volver

245 Volver

246 Volver

247 Volver

248 Volver

 MEDIDAS DE ASOCIACION  ESCALA DE MEDICION DE LA VARIABLE:  ORDINAL O INTERVALAR  1.-Coeficiente de correlación de rankings, de Spearman  2.-Coeficiente de correlación de rankings T, de Kendall  3.-Coeficiente de correlación parcial Txy,z de rankings, de Kendall  4.-Coeficiente “W” de Concordancia de Kendall  5.-Coeficiente “u” de acuerdo, de Kendall  6.-Coeficiente Tc de correlación entre “n” jueces y un criterio prefijado  7.-Estadístico G de Gamma  8.-Indice Somer de asociación asimétrica d BA 249 Volver

250 Volver

251 Volver

252 Volver

253 Volver

254 Volver

255 Volver

256 Volver

257 Volver

258 Volver

 Ejemplo # 1 :  El coeficiente de correlación de Spearman, estimado por la muestra es de 0.62, mayor al coeficiente crítico de 0.50 al nivel de significancia del 5%, lo que implica que sólo tenemos una probabilidad del 5% o menor, de equivocarnos al afirmar que existe una correlación positiva entre ambas variables 259 Volver

 Ejemplo # 2 :  El coeficiente de correlación de Spearman, estimado para esta muestra es de 0.82, mayor al coeficiente crítico de 0.59 al nivel de significancia del 5%, lo que implica que sólo tenemos una probabilidad del 5% o menor, de equivocarnos al afirmar que estas variables están asociadas 260 Volver

 Ejemplo # 3 :  El valor empírico obtenido de ‘t’ alcanzó un valor superior a 10, valor muy superior al valor crítico de 2, con lo cual cae claramente en la así llamada Región crítica, por lo cual se rechaza la Hipótesis Nula, aceptándose la Hipótesis Alternativa que postula la existencia de una relación entre ambas variables. La probabilidad de cometer un error al hacer esta afirmación es prácticamente nula. 261 Volver

262 Volver

263 Volver

264 Volver

265 Volver

266 Volver

267 Volver

268 Volver

269 Volver

270 Volver

271 Volver

272 Volver

273 Volver

274 Volver

 En el ejemplo # 1, con un tamaño muestral muy reducido, de sólo 12 casos, el test basado en la tabla ad-hoc para este tamaño muestral, detectó que las variables están asociadas, al nivel de significancia del 5%. El set de datos utilizados es el mismo que se utilizó con el coeficiente de correlación de Spearman y con el coeficiente de rankings de Kendall.  En esta ocasión, el coeficiente de correlación parcial es de 0.62, valor muy similar al 0.67 detectado por el coeficiente anterior de Kendall ( el test sin considerar la tercera variable Z).  Esta similitud de valores está indicando que la variable Z incide sólo muy levemente en el comportamiento de asociación entre las variables X e Y 275 Volver

 En el ejemplo # 2, con un tamaño muestral también muy reducido, de sólo 36 casos, el test basado en la Distribución Normal Standard detectó que las variables están asociadas, al nivel de significancia del 5%.  Más aún, la probabilidad de errar al efectuar esta afirmación es bajísima, de sólo un 0.00000014 276 Volver

277 Volver

278 Volver

279 Volver

280 Volver

281 Volver

282 Volver

283 Volver

284 Volver

285 Volver

286 Volver

287 Volver

288 Volver

289 Volver

290 Volver

291 Volver

292 Volver

293 Volver

294 Volver

295 Volver

296 Volver

297 Volver

298 Volver

299 Volver

300 Volver

301 Volver

302 Volver

303 Volver

304 Volver

305 Volver

306 Volver

307 Volver

308 Volver

309 Volver

310 Volver

311 Volver

312 Volver

313 Volver

314 Volver

315 Volver

316 Volver

 TEST APLICABLE A UN PANEL  ESCALA DE MEDICION DE LA VARIABLE:  INTERVALAR  1.-Test de permutaciones para replicaciones pareadas 317 Volver

318 Volver

319 Volver

320 Volver

321 Volver

322 Volver

1.- Test de permutaciones para 2 muestras independientes 2.- Test del rango de Moses para diferencias de escala 323 Volver

324 Volver

325 Volver

326 Volver

327 Volver

328 Volver

329 Volver

330 Volver

331 Volver

332 Volver

333 Volver

334 Volver

335 Volver

336 Volver

337 Volver

1.  El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas,

Presentaciones similares

Presentación del tema: "1.  El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas,"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

1.  El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas,

Presentaciones similares

Presentación del tema: "1.  El grupo objetivo de esta presentación es el selecto grupo de profesionales de las áreas de la Sociología, Psicología, Cientistas Políticos, Economistas,"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback