Representando para Aprender

Slides:



Advertisements
Presentaciones similares
Introducción a la Estadística
Advertisements

Publicaciones periódicas en línea de texto completo Blackwell Synergy e Ingenta.
Objetivo El conocimiento de la distribución de una determinada variable en la población de personas sanas y en la población de personas afectadas por una.
INTRODUCCION A LAS TELECOMUNICACIONES
Convertidores A/D y D/A
El tiempo de vida Todos los seguros de vida dependen fundamentalmente del tiempo de vida del asegurado. Por ello, la medición del riesgo debe comenzar.
Inferencia Estadística
¿Qué alcances puede tener el proceso de investigación cuantitativa:
Teoría de la Información y Codificación
GENERACIONES DE LENGUAJES DE PROGRAMACIÓN
Técnicas de Capacitación
Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.
RECONOCIMIENTO DE OBJETOS
Requerimientos para producir
Tema 2: Métodos de ajuste
Aprendizajes Esperados
Representación del Conocimiento
Probabilidad condicional
Teoría de la Información
Población y Muestra.
UNIVERSIDAD MICHOACANA DE SAN NICOLÁS DE HIDALGO
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
HABILIDAD COGNITIVA CLASIFICAR.
(Organización y Manejo de Archivos)
Conceptos Básicos de Probabilidad
Colegio de Bachilleres Plantel 13 Xochimilco-Tepepan Integrantes: Karen Elizabeth González Monroy Elizabeth De Jesús Vergara Grupo:308.
Investigación Experimental
MÉTODO DE PIXELES DE BORDE
INVESTIGACION DE OPERACIONES
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Metodología para solución de problemas
Aprendizaje en Árboles de Decisión
Describiendo las reglas del Lenguaje
Análisis y Diseño de Algoritmos
Capítulo 1. Conceptos básicos de la Estadística

EDWIN ACOSTA PINILLA DIEGO FERNANDO CASTRO JHON SEBASTIAN CASTRO.
Teoría de Probabilidad Dr. Salvador García Lumbreras
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Probabilidad y Estadística
Pruebas de hipótesis.
Unidad II. Probabilidad
HERRAMIENTAS BASICAS PARA TENER EN CUENTA EN LA PRUEBA DE ESTADO
Tomando decisiones sobre las unidades de análisis
Comportamiento del Consumidor Se define como el proceso de decisión y la actividad física que los individuos realizan cuando evalúan, adquiere, usan o.
Desarrollo de lógica algorítmica.
RIESGO, RENDIMIENTO Y VALOR
Aplicación JAVA implementando Arboles de Decisión
Lenguaje Programación
SENA REGIONAL HUILA Huila.

NORMA INTERNACIONAL DE AUDITORÍA 530
PROGRAMA DE LENGUAJE Y COMUNICACIÓN
Aspectos generales de la investigación educativa en el SNIT
INFERENCIA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Educación a distancia. Objetivos de Aularagón Garantizar el derecho a seguir aprendiendo a lo largo de la vida. Crear un modelo de enseñanza que se adapte.

PROBABILIDAD CONDICIONAL Y TEOREMA DE BAYES
EXAMEN POR COMPETENCIAS GENÉRICAS NUEVO EXAMEN DEL ICFES SABER 11°
Colegio Bilingüe de Palmares Bachillerato Internacional TISG Prof.: Yadely Rojas Mariel González N. Jonathan Otárola Ávila. Rolando Ramírez Segura.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Mayo de Se dice que una empresa es rentable cuando genera suficiente utilidad o beneficio, es decir, cuando sus ingresos son mayores que sus gastos,
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
LOGO Muestreo Pedro Godoy G.. LOGO Inferencia estadística La Inferencia Estadística es aquella rama de la Estadística mediante la cual se trata de sacar.
Escogiendo los mejores atributos: Ganancia de Información
Transcripción de la presentación:

Representando para Aprender Consideraciones para el proyecto Luis Villaseñor Pineda Laboratorio de Tecnologías del Lenguaje Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica

Objetivo del proyecto Nuestro proyecto trata sobre la clasificación de textos Se trata de una clasificación no-temática binaria Movie Review Data http://www.cs.cornell.edu/People/pabo/movie-review-data/ Subjectivity datasets Utilizar diferentes representaciones: Dos tipos de representación de la función objetivo Diversas representaciones de las instancias Laboratorio de Tecnologías del Lenguaje

Conceptos relacionados Clasificación temática Noticias sobre: deportes, política, economía, etc. Artículos sobre: medicina, biología, computación, leyes, etc. La presencia y frecuencia de los términos nos da elementos suficientes para su identificación y/o discriminación Mientras más se repite un término más sabemos sobre el tema que aborda el texto Laboratorio de Tecnologías del Lenguaje

Conceptos relacionados Clasificación no-temática Subjetividad, estilo, autoría, etc. ¿podemos hacer la misma suposición? Distinguir un autor vs Distinguir el tema Distinguir objetividad vs subjetividad Laboratorio de Tecnologías del Lenguaje

Algunos conceptos básicos en la clasificación de textos El conjunto de formas gráficas es el vocabulario word-type ó formas léxicas El número total de ocurrencias en un texto es su tamaño word-tokens u ocurrencias Estas nociones son la base para el cálculo de riqueza de vocabulario Tamaño del vocabulario entre el tamaño del documento Laboratorio de Tecnologías del Lenguaje

Un ejemplo Proponer un método para la atribución de autoría Determinar los atributos adecuados para la clasificación por autor Laboratorio de Tecnologías del Lenguaje

Experimentos Caracterizando las instancias: Todas las palabras con excepción de palabras vacías (método tradicional) Con únicamente palabras vacías Todas las palabras incluyendo las palabras vacías En todos los casos aplicando Ganancia de Información como método de selección de atributos Laboratorio de Tecnologías del Lenguaje

Al clasificar por autoría (5 clases) Palabras (sin palabras vacías) Atributos 9,909 70.5382% IG > 0 158 Atributos sólo palabras vacías Atributos 224 56.3739% IG > 0 50 Atributos todas las palabras Atributos 10,133 71.1048% IG > 0 213 Atributos Laboratorio de Tecnologías del Lenguaje

Escogiendo los mejores atributos Los escogeremos a partir de una propiedad estadística llamada Ganancia de Información Para empezar necesitamos introducir el concepto de Entropía Conceptos asociados desorden, número de estados, información entre otros Media del desorden ¿Qué es el desorden? el número de estados posibles de un sistema Laboratorio de Tecnologías del Lenguaje

Entropía Ejemplo: tu escritorio tiene un número de estados posibles – donde colocas los apuntes, los libros, los lápices, etc. Idealmente un sólo estado “cada cosa en un sitio” pero la realidad es otra! existen muchos estados posibles… en ocasiones más de los que tu supones!!! Mientras más estados posibles – más desorden Laboratorio de Tecnologías del Lenguaje

Entropía en la teoría de la información En la Teoría de la información la entropía es una medida de magnitud de la información contenida en un flujo de datos ¿Un mismo mensaje puede aportarnos cantidades de información distintas? Depende de los estados posibles en que puede encontrarse nuestro sistema “La calle está mojada” Dado que ha llovido es un estado posible Si no ha llovido la información que aporta este mensaje es diferente !! Laboratorio de Tecnologías del Lenguaje

Entropía en la teoría de la información Entonces mientras menos probable se presente un evento, mayor información traerá consigo La información debe estar en función de la probabilidad del evento E(X) = - Σ p(i) log p(i) La entropía es medida en función de bits Laboratorio de Tecnologías del Lenguaje

Entropía en la teoría de la información Ejemplo de Cover & Thomas Nuestra chamba es recibir apuestas y transmitirlas al hipódromo Tenemos un sistema automático para ello, cada caballo está codificado (usando una representación binaria) Caballo 1 – 001, caballo 2 – 010 Sabemos que sólo tenemos 8 caballos así que usaremos 3 bits para codificarlos a todos Sin embargo, conocemos las probabilidades de ganar de cada caballo El mensaje más común será el del caballo con más probabilidades de ganar Entonces por que no cambiar la codificación y usar un sólo bit 0 para el caballo más probable, 1 para el que le sigue 10, para el siguiente, 11, 100, etc. Laboratorio de Tecnologías del Lenguaje

Entropía en la teoría de la información Ejemplo de Cover & Thomas Probabilidades p(c1)=0.5, p(c2)=0.25, p(c3)=0.125 , p(c4)=0.06 , p(c5)=0.015, p(c6)=0.015, p(c7)=0.015, p(c8)=0. 015 E(X) = - Σ p(i) log p(i) E(X) = 2 bits Laboratorio de Tecnologías del Lenguaje

Aplicamos esto a atributos Tomado de Rob Callan Para el caso de c clases y un atributo a en que para todos los ejemplos se tiene un valor de v, la entropía la definimos así: Donde pi es la probabilidad de que el valor v ocurra en la categoría i Así una distribución de frecuencias no uniforme nos permitirá reducir el número de bits necesarios Laboratorio de Tecnologías del Lenguaje

Ganancia de Información La ganancia de información de un atributo es la reducción esperada en entropía si los ejemplos son particionados de acuerdo a dicho atributo: Donde T es un conjunto de ejemplos de entrenamiento y Tj es el subconjunto de ejemplos con el valor j para el atributo A. Laboratorio de Tecnologías del Lenguaje

Por ejemplo Supongamos que tenemos 20 instancias, y tenemos dos categorías {POS, NEG} donde tenemos 11 instancias clasificadas como POS y 9 instancias como NEG. La clasificación deseada la podemos tratar como un atributo con dos valores entonces la entropía es: Laboratorio de Tecnologías del Lenguaje

Por ejemplo La ganancia para cada atributo será entonces: Laboratorio de Tecnologías del Lenguaje

Algunas medidas de evaluación La exactitud – nos da una idea general del comportamiento del clasificador. Es el porcentaje de instancias correctamente clasificadas Supongamos un problema de dos clases con 31 instancias a clasificar Ex = (11 + 6) / 31 = 55% Sin embargo, que pasa si tenemos esto: Ex = (17 + 0) / 31 = 55% Laboratorio de Tecnologías del Lenguaje

Algunas medidas de evaluación Precisión El porcentaje de instancias correctamente clasificadas de entre todas las que se predijo que pertenecían a la clase. Recall/Recuerdo (evocación, cobertura, recubrimiento, alcance) porcentaje de instancias clasificadas correctamente de entre todas las instancias de la clase F-mesure Laboratorio de Tecnologías del Lenguaje

Sobre la evaluación en el aprendizaje Las instancias a + b son de la clase A, el sistema predice que a instancias pertenecen a la clase A y que las b restantes son de la clase B. Las instancias c + d son de la clase B, el sistema predice que c instancias pertenecen a la clase A y que las d restantes son de la clase B. Clase Predicción A Predicción B A a b B c d Laboratorio de Tecnologías del Lenguaje

Sobre la evaluación en el aprendizaje El número de instancias correctamente clasificadas es a + d c + b es el número de instancias clasificadas incorrectamente. Esta es una matriz de confusión, donde b recibe el nombre de Falsos Negativos y c son los Falsos Positivos. Clase Predicción A Predicción B A a b B c d Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Tenemos dos clases ( A = 21; B = 10) Clase Predicción A Predicción B A a b B c d Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo El sistema predice que algunos objetos como pertenecientes a la clase A Clase Predicción A Predicción B A 11 10 B 4 6 Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Precisión - porcentaje de instancias correctamente clasificadas entre todas las que se predijo que pertenecían a la clase. P = a / (a+c) = 11/15 = 73% Clase Predicción A Predicción B A 11 10 B 4 6 Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Recuerdo - porcentaje de instancias clasificadas correctamente de entre todas las instancias de la clase. R = a / (a+b) = 11/21 = 52% Clase Predicción A Predicción B A 11 10 B 4 6 Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor. Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor. Laboratorio de Tecnologías del Lenguaje

Relación precisión - recuerdo Normalmente mientras más alto sea nuestro recuerdo nuestra precisión será menor. P = a / (a+c) = 21/31 = 68% R = a / (a+b) = 21/21 = 100% Clase Predicción A Predicción B A 21 B 10 Laboratorio de Tecnologías del Lenguaje

Consideraciones en la evaluación El modelo construido es dependiente de las instancias usadas durante el entrenamiento ¿Cómo asegurar que nuestra evaluación es correcta? Dividir el conjunto de instancias en un conjunto de entrenamiento y otro de prueba Utilizar una técnica de validación cruzada en pliegues Laboratorio de Tecnologías del Lenguaje