Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores.
Analisis de TextosJorge Galbiati2 Las 10 palabras seleccionadas, que denominaremos palabras discriminantes, son: Artículos definidos el, la, los, las Artículos indefinidos un, una Adjetivo posesivo su Preposiciones en, por Pronombre me Son, entonces, 40 observaciones de 10 variables.
Analisis de TextosJorge Galbiati3 El conteo de palabras se muestra a continuación Texto de Jorge Inostrosa
Analisis de TextosJorge Galbiati4 Texto de Alberto Blest Gana
Analisis de TextosJorge Galbiati5 Se puede observar una sorprendente similitud en las frecuencias de las palabras, al comparar ambos autores. El gráfico muestra las frecuencias promedio, en ambos casos. Esto hará difícil discriminar entre los dos autores.
Analisis de TextosJorge Galbiati6 Se aplicó un análisis discriminante canónico de Fisher, que no requiere supuestos distribucionales, utilizando S.Plus. Los resultados son los siguientes:
Analisis de TextosJorge Galbiati7 Los coeficientes de la función discriminante canónica, en una dimensión, dieron : el la los las un una su en por me
Analisis de TextosJorge Galbiati8 El análisis de errores dio como resultado una tasa de error bastante alta. La tabla de clasificación bruta es clasificación Tasa JIABG de Error Autor JI verdadero ABG Tasa de error global 0.225
Analisis de TextosJorge Galbiati9 La tabla de clasificación cruzada (dejando unma observación fuera a la vez), muestra obviamente más error clasificación Tasa JIABG de Error Autor JI verdadero ABG Tasa de error global 0.40
Analisis de TextosJorge Galbiati10 Ahora se va a probar la regla discriminante en textos nuevos. Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres páginas de Alberto Blest Gana. Jorge Inostrosa Alberto Best Gana
Analisis de TextosJorge Galbiati11 Para llevar estos vectores a la dimensión discriminante, se deben multiplicar por el vector de coeficientes de la función discriminante, el la los las un una su en por me
Analisis de TextosJorge Galbiati12 También se deben multiplicar los vectores de centros (medias) de las observaciones de ambos autores, por el vector de coeficientes: Los resultados obtenidos son valores en la dimensión discriminante, que se muestran a continuación.
Analisis de TextosJorge Galbiati13 El primer producto, correspondiente a la observación 41, da ( ) x 14 + ( ) x 20 + ( ) x 5 + ( ) x 4 + ( ) x 3 + ( ) x 2 + ( ) x 8 + ( ) x 8 + ( ) x 8 + ( ) x 4 = Esta es su valor en la dimensión de discriminación. De la misma manera se procede con todas los demás, y con los centros de los grupos, obteniéndose los siguientes resultados:
Analisis de TextosJorge Galbiati14 Resumen de todos los resultados: Observaciones a clasificar: Jorge InostrosaAlberto Blest Gana Centros: Jorge InostrosaAlberto Blest Gana
Analisis de TextosJorge Galbiati15 Estos valores se pueden visualizar en la siguiente representación gráfica Claramente se aprecia que una de las páginas de Alberto Blest Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto mal clasificada. Las observaciones se clasifican en el grupo cuyo centro está a menor distancia.
Analisis de TextosJorge Galbiati16 Las distancias de las observaciones a los dos centros, en valor absoluto, son De al centro IJal centro ABG Se clasifica en IJ IJ IJ IJ(mal clas.) ABG ABG
Analisis de TextosJorge Galbiati17 Como se vió en el gráfico, la observación 44 quedó mal clasificada. Se muestra junto con los promedios de los dos grupos: Aparentemente el déficit de las palabras la y por es en parte responsable de la mala clasificación de esta página de texto de Blest gana. El hecho que haya una página mal clasificada es consistente con las altas tasas de error.
Analisis de TextosJorge Galbiati18 Ahora veremos qué pasa si intentamos clasificar páginas de texto que pertenecen a otro autor, en particular de Liborio Brieva, en una de las dos categorías aquí definidas. Se obtuvieron las siguientes tres observaciones:
Analisis de TextosJorge Galbiati19 Se aplicará la misma transformación para llevar las observaciones a la dimensión discriminante, y allí se calculará la diferencia con los centros de ambos grupos. Da las siguientes distancias: De al centro IJal centro ABG Se clasifica en IJ ABG ABG Como se esperaba, puede ver que quedan clasificados de cualquier manera.
Analisis de TextosJorge Galbiati20 Fin