Caballero Ortiz, José Alberto

Slides:



Advertisements
Presentaciones similares
Curso: Seminario de estadística Aplicada a la investigación Educacional UNIVERSIDAD NACIONAL DE EDUCACIÓN ENRIQUE GUZMÁN Y VALLE Alma Máter del Magisterio.
Advertisements

Segmentación, Definición de Público Objetivo y Posicionamiento
Proyecto de Tesis I.
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Liz Mirian Mayhuay Tarazona
Mariano Alcántara Eduardo
Tesistas: Percy Balbín James Ponce
Franco Huertas, Joel Francisco
Alegre Panduro, Miguel Zufrecio Palermo Ston, Javier
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
M. Dolores Frías-Navarro
Introducción a la minería de datos
Metodología de la Investigación Social
Metodología de la Investigación Unidad I: Tipos de diseños de investigación Contenidos: 2.1.Descriptiva 2.2.Analítica 2.3 Experimental Ing. Sandra Lorena.
ESTADISTICA APLICADA A LAS COMUNICACIONES: CONCEPTOS EN LA INVESTIGACION POR MUESTREO Docente : Fernando Camones SESION 01 Lima, 26 de Octubre 2010.
UNIDAD III: Semana No. 23 MARCO METODOLÓGICO
Evaluaciones de Sistemas de Administración de la Seguridad SMSA
Técnicas para la elaboración de un instrumento
GESTION por COMPETENCIAS
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
1 Modulo de Administradores Licencia Nacional de la Web of Knowledge Año 2013.
1 Conversatorio con Consumidores que compran en Supermercados de la ciudad de Barranquilla Análisis Estadístico Desarrollado por: Andrés Muñoz 2006.
Análisis de los Estados Financieros
Elaboración de Planes de trabajos para Proyectos Informáticos
Instrumentos de recolección de información Informe Final 2005 Cuestionario individual en español Cédula de vivienda en español Cédula de Vivienda en tseltal.
PROCESO DE CONTRATACIÓN 1 Ventanas en Cif-KM Proceso contratación de obra

Sistemas de Ecuaciones
ATeDis Tecnologías de Apoyo y Ayudas Técnicas
Trascendencia de este curso Curso Introducción a la Computación 1
¿Qué alcances puede tener el proceso de investigación cuantitativa:
Educación para todos con calidad global PROYECTO DE GRADO UNIDAD 2. PLANEACIÓN Y DISEÑO CONCEPTUAL DE LA INVESTIGACIÓN Valledupar Agosto del 2013 CARLOS.
SISTEMA ELECTRONICO DE AVALUOS INMOBILIARIOS VERSION WEBSERVICES
1 Aguascalientes, Julio de 2005 MODALIDADES ALTERNATIVAS DE CENSOS DEMOGRÁFICOS: EL CASO BRASILEÑO.
Capítulo: 9 Inventarios.
Oscar Navarrete J. Jorge Gutiérrez A.
Proyecto Fin de Carrera E.T.S. Ingeniería Informática 26 de Septiembre de 2006 DESARROLLO DE UN COMPONENTE TECLADO ALUMNO: Fco. Javier Sánchez Ramos TUTORES:
Reunión de los requerimientos de la red
Evaluación de Productos
Investigación en acción
UNIVERSIDAD TECNOLOGICA DE MÈXICO DESARROLLO SUSTENTABLE
Entrada de bloque Primera sesión (ver dosificación)
AUDITORIA DE LA SEGURIDAD en Telecomunicaciones y redes de computadoras Unidad VI.
IV SIMPOSIUM INTERNACIONAL DE BIBLIOTECAS DIGITALES Un espacio para la Biblioteca en el Campus Virtual de la Universidad de Málaga Autoras: Gracia Guardeño.
1 Correo Electrónico TALLER DE ALFABETIZACIÓN DIGITAL.
Muestra: Recolección de Datos: Análisis de Datos:
ESTADÍSTICA INFERENCIAL I
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
Metodología Investigación Científica
1 2 Seminario “Gestión del Conocimiento: realidades y perspectivas” Mesa 3: Gestión del Conocimiento en el Sector.
Recursos humanos y responsabilidad social corporativa
Proceso de la Investigación
1 LOS PROBLEMAS DE DISEÑO EN INGENIERÍA: CONCEPTO Y FORMULACIÓN NELSON VÍLCHEZ UNIVERSIDAD TECNOLÓGICA DEL CENTRO COORDINACIÓN DE INGENIERÍA.
Estadística Administrativa II
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
DISEÑO DE LA PROPUESTA DEL PROCESO DE RENDICION DE CUENTAS 2014 Coordinación General de Planificación Ministerio de Agricultura, Ganadería, Acuacultura.
Investigación y desarrollo experimental Innovación Tecnológica
Investigación Experimental
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
EVALUACIÓN DE COMPETENCIAS Competencia para Manejar Información.
“Año de la consolidación económica social del perú” UNIVERSIDAD NACIONAL DE HUANCAVELICA (CREADA POR LEY N° 25265) FACULTAD DE EDUCACIÓN ESCUELA ACADÉMICA.
Sesión 5. La evaluación de programas y proyectos educativos y sociales.
CICLO DE VIDA CLÁSICO DE UN SISTEMA
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
“ Educación para todos con calidad global ” PROYECTO DE GRADO Valledupar Agosto del 2013 CARLOS RAMON VIDAL TOVAR.
Elaboración de artículos científicos
PROYECTO DE INVESTIGACIÓN PROYECTO DE INVESTIGACIÓN Capítulos III Y IV Profesora: Nelwi Báez.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
EI, Profesor Ramón Castro Liceaga IV. AREAS DE EVALUACIÓN DE LA AUDITORIA EN INFORMÁTICA. UNIVERSIDAD LATINA (UNILA)
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Caballero Ortiz, José Alberto Seminario de Tesis I Propuesta de Tesis Calificación Automática de Ensayos Utilizando Técnicas de Text Mining Caballero Ortiz, José Alberto 9 Diciembre 2006

Tesista Caballero Ortiz, José Alberto Especialidad: Ing. de Sistemas Ciclo: IX Correo Electrónico: jkb_llero@yahoo.com

Título Calificación Automática de Monografías Utilizando Técnicas de Text Mining

Justificación del Problema Presiones de recursos y tiempo dentro de la calificación de trabajos estudiantiles. Alta cuota de subjetividad en examinadores humanos. Tendencia del mercado a utilizar grupos de examinadores (incremento de costos). Implementaciones exitosas en Universidades norteamericanas y exámenes internacionales. Posibilidad de incrementar el volumen de trabajos corregidos y disminuir el tiempo de respuesta.

Ámbito de la investigación El ámbito de aplicación puntual es en la calificación de un grupo de trabajos presentados en todas las secciones asignadas a un curso de humanidades de una universidad local, utilizando a los profesores asignados a su corrección como el pool de examinadores. La aplicabilidad se encuentra orientada a trabajos escritos en español, con posibilidad de ampliar las funcionalidades del sistema con la inclusión de diccionarios y bibliotecas.

El Problema La necesidad por parte de las instituciones educativas de contar con procesos ágiles de calificación de trabajos que busquen ser lo más objetivos posibles, entregando resultados confiables en un tiempo prudente, siendo capaces de atender eficientemente a un gran número de estudiantes. Variables involucradas Cantidad de recursos obtenidos para realizar la evaluación del documento (jurados). Tiempo transcurrido entre la evaluación y la entrega de resultados

Objetivo Demostrar que un sistema de calificación automatizado haciendo uso de las herramientas que disponemos hasta el momento, permitiendo obtener resultados confiables para el ámbito analizado acorde con el juicio de examinadores humanos. Estandarización de los criterios de calificación requeridos para el análisis. Disminución de los recursos necesarios para la realización de estas tareas, asociado al uso de este sistema en el futuro.

Antecedentes Indique las referencias bibliográficas, por ejemplo: Reimer (2002), desarrolla un experimento de calificación automatizada incluyendo un conjunto de criterios ajustables, obteniendo resultados sensibles a dichos criterios. Boring (2000), desarrolla un conjunto de experimentos para comparar mecanismos de calificación analíticos y holísticos con el sistema LSA.

Tipo de Investigación Tipo de Investigación Correlacional: Relaciona cambios en los valores de las variables dependientes, como en la eficiencia del proceso y la eficiencia del sistema, con las técnicas usadas para la calificación y los criterios de evaluación. Tipo de Diseño Experimental: Por la disponibilidad de los datos es posible realizar experimentos independientes para cada uno de los casos

DISEÑO DEL EXPERIMENTO

Objeto de la Investigación El individuo de análisis será una palabra, siendo entendida como un concepto que aporta valor al texto y permite la aplicación de criterios para distinguirlo de otros y lograr clasificarlo. La realización del tratamiento de un ensayo independiente se entenderá como una repetición del experimento para la recopilación de resultados.

Población Clasificación de los individuos de la población, palabras o conceptos, basada en la temática del texto: Stop Words Términos del Dominio Consideración de Sinonimia y palabras relacionadas Clasificación basada en el idioma utilizado, en este caso se tendrá como parámetro el idioma español.

Muestra El muestreo para la obtención de datos será no probabilístico, específicamente del tipo opinático o intencional, en el cual los criterios de selección de un individuo de la población se encuentran a criterio del investigador. Generación de Valores de Variables Variables Independientes: Técnicas Utilizadas: Documentación Existente (marco teórico instrumental) Conjunto de Criterios Utilizados: Antecedentes y mecanismos utilizados (marco teórico conceptual) Obtención de datos: Uso de software comercial para tratamiento de texto con formato. Uso de parsers para extracción de palabras. Software estadístico para cálculo de valores de variables independientes. Apoyo en software orientado a técnicas.

Variables Variables independientes: Técnicas utilizadas para la extracción de patrones. Criterios utilizados para la medición E X P R I M N T O Variables dependientes: Desviación de Calificaciones: Esta variable contempla el grado de cercanía entre la calificación obtenida por el sistema automatizado y las obtenidas por el modelo. Instrumento de medición Las variables son caracterizadas mediante criterios de presencia/ ausencia, el conjunto de valores son extraídos de conceptos del dominio y marco teórico instrumental y establecidos según el criterio del investigador. Recopilación de datos de calificaciones de examinadores para cada monografía analizada, calificaciones realizadas por el sistema y almacenada en la base de datos de registros.

Diseño Experimental Variables Independientes: Técnicas Utilizadas: Se manipulan dichas variables incluyendo técnicas diferentes para la realización de comparaciones o mediante la inclusión o exclusión de dichas técnicas en el modelo. Criterios Utilizados en la Calificación: Se cuantifican las variables dependientes, es decir Correlación de los resultados respecto a la media de examinadores humanos. Sensibilidad de Resultados Para distintos criterios incluidos o excluidos de acuerdo al objetivo del experimento. Repetición del experimento para la aplicación de distintas técnicas y el establecimiento de distintos criterios.

Hipótesis La utilización de técnicas automatizadas de calificación ofrece una desviación menor al 20% con respecto a la media obtenida haciendo uso de un grupo de examinadores humanos.

Diseño del Experimento Cada revisión de monografía se considera un experimento independiente. Trabajaremos sobre la base de grupos de experimentos asociados a las técnicas utilizadas. Los resultados de estos grupos de experimentos serán almacenados en la base de datos de registros.

Modelo de Solución Recolección de Trabajos Selección de Técnicas Pre- Procesamiento Análisis de Resultados Extracción de Datos Casos y Pruebas Entrenamiento de Modelos

Grupos de Experimentos

Recolección de Datos y Selección de Técnicas Los trabajos serán seleccionados desde la plataforma informática designada al curso, aunque sería deseable que se encuentren en un formato de lenguaje de etiquetas, puede trabajarse con archivos de MS Word. Las técnicas serán seleccionadas de acuerdo al orden establecido en el diseño del experimento, teniendo en cuenta que según la eficacia de dichas técnicas puede modificarse dicho orden incluyendo técnicas nuevas.

Pre- Procesamiento Se busca la obtención de texto plano desde el archivo en su formato nativo. Se usa un lenguaje intermedio (generalmente de etiquetas como HTML). Luego se separa dicho texto en palabras (tokenización)

Extracción de Datos Se eliminan palabras que no aportan valor al texto o que no sirven para los criterios de clasificación aceptados. Se buscan palabras de significados similares o raíces comunes para ser tratadas como un solo individuo. Finalmente se realiza en conteo de frecuencias para cada concepto seleccionado.

Entrenamiento de Modelos y Análisis de Resultados Dependiendo de las técnicas utilizadas, el modelo requerirá cierto tiempo de entrenamiento, en algunos casos esto se podrá realizar con software comercial (Rules Asociation Mining  SQL Server 2005). El análisis de resultados se llevará a cabo mediante herramientas estadísticas que realizarán operaciones de selección sobre la base de datos de registros.

Visión General del Sistema

ANÁLISIS DE FACTIBILIDAD

Datos y Experimentos Las fuentes de datos se encontrarán principalmente en repositorios electrónicos de documentos como las comunidades de e-learning. Atributos importantes: Formato de los Datos Origen de los mismos Originalidad El muestreo será por recolección directa del contenido de los documentos. Es posible repetir el experimento propuesto.

Costos Conjunto de gastos Sueldo del investigador. Inversión en Bibliografía, sobre todo relacionada a las técnicas por utilizar. Gastos en servicios, producto del uso de equipos para el procesamiento de datos.

Plan de Trabajo

MARCO TEORICO

Conceptual Calificación Holística Calificación Analítica Mayor orientación a la categorización de textos. Uso de modelos por categoría. Mayor orientación a calificación por expertos. Calificación Analítica Establecimiento de un conjunto de criterios para el análisis de textos. Posibilidad de inclusión o exclusión de nuevos criterios. Establecimiento de ponderaciones y estandarización de mecanismos de calificación

Instrumental Pasos a seguir: Extracción de palabras: Del contenido del archivo enviado (depende del formato). Stop Words: Palabras que no aportan contenido deben ser retiradas. Stemming: Extracción de raíces de palabras buscando coincidencias y sinonimia. Contabilización de Frecuencias: Realización de gráficas y cálculos en función de la ocurrencia de palabras. Aplicación de Técnicas de Data Mining. Rules Asociation Mining. Words Bag. Categorización de Textos y Recuperación de Información.

CONCLUSIONES

Conclusiones Por la gran aceptación de las plataformas informáticas como repositorio de documentos, la data puede ser conseguida con facilidad, y existiendo software relacionado con la aplicación de técnicas, el tema tratado es viable. Las ventajas mencionadas en los sistemas de calificación y los tiempos de respuesta hacen que sea una alternativa interesante en la cual invertir. Los antecedentes y las herramientas estadísticas nos proporcionan un conjunto de variables, las cuales irán depurándose a medida que avance el proyecto.

Trabajos Futuros La realización de una etapa preliminar a la ejecución del experimento para la elección del conjunto de técnicas a utilizar, dicha etapa puede llevarse a cabo con un conjunto de mini- experimentos utilizando data de prueba, de tal forma. Coordinación con los docentes encargados del Área de humanidades para la utilización de portales educativos o grupos de interés para la publicación de sus documentos, permitiendo la sencilla extracción de los datos. Diseño y codificación del software necesario para el pre- procesamiento y tratamiento posterior de les ensayos recopilados; pudiendo en algunos casos obtener software comercial o de código abierto para la automatización de las operaciones. Adquisición y utilización de herramientas estadísticas que permitan el tratamiento de la información almacenada en la base de datos de registros y la obtención de las medidas de rendimientos para las distintas técnicas analizadas.