La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un.

Presentaciones similares


Presentación del tema: "Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un."— Transcripción de la presentación:

1 Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores.

2 Analisis de TextosJorge Galbiati2 Las 10 palabras seleccionadas, que denominaremos palabras discriminantes, son: Artículos definidos el, la, los, las Artículos indefinidos un, una Adjetivo posesivo su Preposiciones en, por Pronombre me Son, entonces, 40 observaciones de 10 variables.

3 Analisis de TextosJorge Galbiati3 El conteo de palabras se muestra a continuación Texto de Jorge Inostrosa

4 Analisis de TextosJorge Galbiati4 Texto de Alberto Blest Gana

5 Analisis de TextosJorge Galbiati5 Se puede observar una sorprendente similitud en las frecuencias de las palabras, al comparar ambos autores. El gráfico muestra las frecuencias promedio, en ambos casos. Esto hará difícil discriminar entre los dos autores.

6 Analisis de TextosJorge Galbiati6 Se aplicó un análisis discriminante canónico de Fisher, que no requiere supuestos distribucionales, utilizando S.Plus. Los resultados son los siguientes:

7 Analisis de TextosJorge Galbiati7 Los coeficientes de la función discriminante canónica, en una dimensión, dieron : el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432

8 Analisis de TextosJorge Galbiati8 El análisis de errores dio como resultado una tasa de error bastante alta. La tabla de clasificación bruta es clasificación Tasa JIABG de Error Autor JI 15 5 0.25 verdadero ABG 4 16 0.20 Tasa de error global 0.225

9 Analisis de TextosJorge Galbiati9 La tabla de clasificación cruzada (dejando unma observación fuera a la vez), muestra obviamente más error clasificación Tasa JIABG de Error Autor JI 12 8 0.40 verdadero ABG 8 12 0.40 Tasa de error global 0.40

10 Analisis de TextosJorge Galbiati10 Ahora se va a probar la regla discriminante en textos nuevos. Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres páginas de Alberto Blest Gana. Jorge Inostrosa Alberto Best Gana

11 Analisis de TextosJorge Galbiati11 Para llevar estos vectores a la dimensión discriminante, se deben multiplicar por el vector de coeficientes de la función discriminante, el 0.12833 la -0.09759 los -0.02523 las 0.17526 un -0.05302 una -0.01133 su 0.00307 en -0.07180 por 0.09369 me 0.11432

12 Analisis de TextosJorge Galbiati12 También se deben multiplicar los vectores de centros (medias) de las observaciones de ambos autores, por el vector de coeficientes: Los resultados obtenidos son valores en la dimensión discriminante, que se muestran a continuación.

13 Analisis de TextosJorge Galbiati13 El primer producto, correspondiente a la observación 41, da ( 0.12833 ) x 14 + ( -0.09759 ) x 20 + ( -0.02523 ) x 5 + ( 0.17526 ) x 4 + ( -0.05302 ) x 3 + ( -0.01133 ) x 2 + ( 0.00307 ) x 8 + ( -0.07180 ) x 8 + ( 0.09369 ) x 8 + ( 0.11432 ) x 4 = 0.8948 Esta es su valor en la dimensión de discriminación. De la misma manera se procede con todas los demás, y con los centros de los grupos, obteniéndose los siguientes resultados:

14 Analisis de TextosJorge Galbiati14 Resumen de todos los resultados: Observaciones a clasificar: Jorge InostrosaAlberto Blest Gana 41 0.8948441.1145 42 1.5212451.2205 43 1.1004460.3043 Centros: Jorge InostrosaAlberto Blest Gana

15 Analisis de TextosJorge Galbiati15 Estos valores se pueden visualizar en la siguiente representación gráfica Claramente se aprecia que una de las páginas de Alberto Blest Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto mal clasificada. Las observaciones se clasifican en el grupo cuyo centro está a menor distancia.

16 Analisis de TextosJorge Galbiati16 Las distancias de las observaciones a los dos centros, en valor absoluto, son De al centro IJal centro ABG Se clasifica en 410.2191.401IJ 420.8452.028IJ 430.4251.607IJ 440.4391.621IJ(mal clas.) 451.8960.714ABG 460.9800.202ABG

17 Analisis de TextosJorge Galbiati17 Como se vió en el gráfico, la observación 44 quedó mal clasificada. Se muestra junto con los promedios de los dos grupos: Aparentemente el déficit de las palabras la y por es en parte responsable de la mala clasificación de esta página de texto de Blest gana. El hecho que haya una página mal clasificada es consistente con las altas tasas de error.

18 Analisis de TextosJorge Galbiati18 Ahora veremos qué pasa si intentamos clasificar páginas de texto que pertenecen a otro autor, en particular de Liborio Brieva, en una de las dos categorías aquí definidas. Se obtuvieron las siguientes tres observaciones:

19 Analisis de TextosJorge Galbiati19 Se aplicará la misma transformación para llevar las observaciones a la dimensión discriminante, y allí se calculará la diferencia con los centros de ambos grupos. Da las siguientes distancias: De al centro IJal centro ABG Se clasifica en 470.2741.456IJ 480.9140.268ABG 490.7010.481ABG Como se esperaba, puede ver que quedan clasificados de cualquier manera.

20 Analisis de TextosJorge Galbiati20 Fin


Descargar ppt "Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un."

Presentaciones similares


Anuncios Google