Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un.

Slides:



Advertisements
Presentaciones similares
Posición Relativa de dos rectas
Advertisements

Presentación de datos e interpretación de resultados
Tema. 5. Variabilidad. Concepto
Tema 13. Inferencia estadística Principales conceptos. Muestreo
Tema 15. Contraste de hipótesis: Planteamiento de las hipótesis
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Estadística… Melo- Fernández.
CLASE 4 EL ENSAMBLADOR.
Números Racionales Materia Matemáticas Tema 1 Curso Nivel II.
Capítulo 3: Medidas de posición
Distribuciones de probabilidad bidimensionales o conjuntas
Estadística Administrativa I
ANTECEDENTES PARA CREDITO BANCARIO
Distribución Hipergeométrica Cetina López Wendy
TEORÍA DE CONJUNTOS.
BALANCEO DE ECUACIONES QUÍMICAS
INTEGRACIÓN.
Introducción a los Números Fraccionarios
Función Sucesión PARA UN BUEN INICIO
} LISSET BÁRCENAS MONTERROZA
PROGRESIONES Prof. José Mardones Cuevas
Las fracciones
JAVIER ALVAREZ PRESENTA
UNIDAD 3 Progresiones.
DEFINICIÓN Y MEDICIÓN DE VARIABLES
2.2 Representación gráfica de datos
C REACIÓN DE B LOGS EN ESPOL Profesora: Eva María Mera Intriago Escuela Superior Politécnica del Litoral Impulsando la sociedad del conocimiento Instituto.
Operaciones. Las fracciones y sus operaciones
Definiciones y conceptos básicos
5.3 Funciones Especiales Ecuación de Bessel de orden v (1) donde v  0, y x = 0 es un punto singular regular de (1). Las soluciones de (1) se.
La Transformada de Laplace
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
ESTADÍSTICA DESCRIPTIVA
Baremos del Test de Dominos
Estimación por intervalos de confianza.
El Coeficiente de Contingencia:
Matemáticas 2º Bachillerato C. T.
DISTINTOS TIPOS DE FRECUENCIAS
Sistema de Ecuaciones Lineales
PROCESO BÁSICO DEL PENSAMIENTO
ANÁLISIS DISCRIMINANTE
 La rectoría de una Universidad ha decidido seleccionar aleatoriamente una muestra de dos estudiantes de cada grupo para dar seguimiento a su nivel académico.
Conceptos Introductorios de Estadística
Estadística computacional
Cálculo diferencial (arq)
SUMA DE FRACCIONES DEL TERCER TIPO.
ESTADIGRAFOS DE DISPERSION
ANÁLISIS DE CORRESPONDENCIAS SIMPLE
Estadística Administrativa I
Resolución de Problemas Método Simplex
Clases 4 Pruebas de Hipótesis
Carrera de la 37. Esta un grupo de alumnos de tercer año con el tema de calculo integral “área bajo la curva” ¿De que se tratara el tema de inicio de.
Estadística aplicada al análisis financiero
ANALISIS DE DATOS CATEGORICOS
UNIVERSIDAD INCA GARCILASO DE LA VEGA
Mt. Martín Moreyra Navarrete.
Distribuciones derivadas del muestreo
ESTADÍSTICA 4° MEDIO
ESTADÍSTICAS DESCRIPTIVA
Estadística La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos,
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Capacidad de Proceso.
Universidad Americana Medidas de tendencia central Resumen elaborado por: Lic. Maryan Balmaceda V Economista - Consultor.
ORGANIZACIÓN Y PRESENTACIÓN
ESTADISTICAS YADIRA AZPILCUETA GARCIA 2C. El conjunto de los intervalos reales.
P Y E 2012 Clase 11Gonzalo Perera1 Repaso de clase anterior Fórmula del bloqueo de Erlang. LFGN y el problema de la Robustez.
RIESGO, RENDIMIENTO Y VALOR
Distribución de frecuencias y gráficos
Estimación estadística
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Analisis de TextosJorge Galbiati1 ANALISIS DE TEXTOS Se seleccionaron 20 páginas, al azar, de un texto de Jorge Inostrosa (JI), y otras 20 páginas de un texto de Alberto Blest Gana (ABG), ambos referidos al tema de la guerra de independencia de Chile. En cada página se midió la frecuencia de ocurrencia de 10 palabras, con el objeto de diferenciar lo escrito por ambos autores.

Analisis de TextosJorge Galbiati2 Las 10 palabras seleccionadas, que denominaremos palabras discriminantes, son: Artículos definidos el, la, los, las Artículos indefinidos un, una Adjetivo posesivo su Preposiciones en, por Pronombre me Son, entonces, 40 observaciones de 10 variables.

Analisis de TextosJorge Galbiati3 El conteo de palabras se muestra a continuación Texto de Jorge Inostrosa

Analisis de TextosJorge Galbiati4 Texto de Alberto Blest Gana

Analisis de TextosJorge Galbiati5 Se puede observar una sorprendente similitud en las frecuencias de las palabras, al comparar ambos autores. El gráfico muestra las frecuencias promedio, en ambos casos. Esto hará difícil discriminar entre los dos autores.

Analisis de TextosJorge Galbiati6 Se aplicó un análisis discriminante canónico de Fisher, que no requiere supuestos distribucionales, utilizando S.Plus. Los resultados son los siguientes:

Analisis de TextosJorge Galbiati7 Los coeficientes de la función discriminante canónica, en una dimensión, dieron : el la los las un una su en por me

Analisis de TextosJorge Galbiati8 El análisis de errores dio como resultado una tasa de error bastante alta. La tabla de clasificación bruta es clasificación Tasa JIABG de Error Autor JI verdadero ABG Tasa de error global 0.225

Analisis de TextosJorge Galbiati9 La tabla de clasificación cruzada (dejando unma observación fuera a la vez), muestra obviamente más error clasificación Tasa JIABG de Error Autor JI verdadero ABG Tasa de error global 0.40

Analisis de TextosJorge Galbiati10 Ahora se va a probar la regla discriminante en textos nuevos. Se tomaron tres páginas, al azar, de Jorge Inostrosa y tres páginas de Alberto Blest Gana. Jorge Inostrosa Alberto Best Gana

Analisis de TextosJorge Galbiati11 Para llevar estos vectores a la dimensión discriminante, se deben multiplicar por el vector de coeficientes de la función discriminante, el la los las un una su en por me

Analisis de TextosJorge Galbiati12 También se deben multiplicar los vectores de centros (medias) de las observaciones de ambos autores, por el vector de coeficientes: Los resultados obtenidos son valores en la dimensión discriminante, que se muestran a continuación.

Analisis de TextosJorge Galbiati13 El primer producto, correspondiente a la observación 41, da ( ) x 14 + ( ) x 20 + ( ) x 5 + ( ) x 4 + ( ) x 3 + ( ) x 2 + ( ) x 8 + ( ) x 8 + ( ) x 8 + ( ) x 4 = Esta es su valor en la dimensión de discriminación. De la misma manera se procede con todas los demás, y con los centros de los grupos, obteniéndose los siguientes resultados:

Analisis de TextosJorge Galbiati14 Resumen de todos los resultados: Observaciones a clasificar: Jorge InostrosaAlberto Blest Gana Centros: Jorge InostrosaAlberto Blest Gana

Analisis de TextosJorge Galbiati15 Estos valores se pueden visualizar en la siguiente representación gráfica Claramente se aprecia que una de las páginas de Alberto Blest Gana, la 44, queda en la región de Jorge Inostrosa, por lo tanto mal clasificada. Las observaciones se clasifican en el grupo cuyo centro está a menor distancia.

Analisis de TextosJorge Galbiati16 Las distancias de las observaciones a los dos centros, en valor absoluto, son De al centro IJal centro ABG Se clasifica en IJ IJ IJ IJ(mal clas.) ABG ABG

Analisis de TextosJorge Galbiati17 Como se vió en el gráfico, la observación 44 quedó mal clasificada. Se muestra junto con los promedios de los dos grupos: Aparentemente el déficit de las palabras la y por es en parte responsable de la mala clasificación de esta página de texto de Blest gana. El hecho que haya una página mal clasificada es consistente con las altas tasas de error.

Analisis de TextosJorge Galbiati18 Ahora veremos qué pasa si intentamos clasificar páginas de texto que pertenecen a otro autor, en particular de Liborio Brieva, en una de las dos categorías aquí definidas. Se obtuvieron las siguientes tres observaciones:

Analisis de TextosJorge Galbiati19 Se aplicará la misma transformación para llevar las observaciones a la dimensión discriminante, y allí se calculará la diferencia con los centros de ambos grupos. Da las siguientes distancias: De al centro IJal centro ABG Se clasifica en IJ ABG ABG Como se esperaba, puede ver que quedan clasificados de cualquier manera.

Analisis de TextosJorge Galbiati20 Fin