Vera Olivera, David Carlos Marín Rosales, Nicolae Harry

Slides:



Advertisements
Presentaciones similares
¿PARA QUE ESTAMOS AQUÍ? LOS OBJETIVOS DE LA ENCARNACIÓN.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
Segmentación, Definición de Público Objetivo y Posicionamiento
ESTADISTICA A ESTADISTICA A UNMSM - FQIQ
Paso 1 Portada YO SOY EUROPEO Comisión Europea.
Jacqueline Chávez Cuzcano
Proyecto de Tesis I.
Liz Mirian Mayhuay Tarazona
Mariano Alcántara Eduardo
Tesistas: Percy Balbín James Ponce
Franco Huertas, Joel Francisco
Alegre Panduro, Miguel Zufrecio Palermo Ston, Javier
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO Resumen. 24 de Junio de 2005.
M. Dolores Frías-Navarro
Aranda Fernández, Miguel Ángel García Redondo, Luis Miguel
ANALISIS DE IMÁGENES A PARTIR DE LA PRESENTACIÓN DE ALGUNAS IMÁGENES, PEDIR A LOS NIÑOS QUE OBSERVEN LAS ILUSTRACIONES Y QUE DESCRIBAN EN SU CUADERNO LAS.
Metodología de la Investigación Social
© 2007 Cisco Systems, Inc. All rights reserved. Traducido en apoyo a la capacitación de Instructores de la Red Proydesa Comunicación por la red Fundamentos.
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
… Y así nos distraemos Vocabulario.
Los números.
Funciones Excel. Parte 1. Introducción 2 Una función Excel es una fórmula o un procedimiento que se realiza en el ambiente de Visual Basic, fuera de.
La empresa y el entorno económico
1 Conversatorio con Consumidores que compran en Supermercados de la ciudad de Barranquilla Análisis Estadístico Desarrollado por: Andrés Muñoz 2006.
Instrumentos de recolección de información Informe Final 2005 Cuestionario individual en español Cédula de vivienda en español Cédula de Vivienda en tseltal.
ATeDis Tecnologías de Apoyo y Ayudas Técnicas
PLAN MAESTRO PARA EL MEJORAMIENTO DE LOS SERVICIOS DE AGUA POTABLE, ALCANTARILLADO Y SANEAMIENTO DE LA CIUDAD DE CANANEA, SONORA TABLA DE CONTENIDO.
- Propiedad no publica de Ingeniería Biomédica, disponible sólo bajo licencia. Todos los Derechos Reservados. 07/05/ CES Desarrollo de un laboratorio.
Educación para todos con calidad global PROYECTO DE GRADO UNIDAD 2. PLANEACIÓN Y DISEÑO CONCEPTUAL DE LA INVESTIGACIÓN Valledupar Agosto del 2013 CARLOS.
Proyecto ProMéxico Plasmas abril SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
Proyecto ProMéxico Plasmas marzo SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
RETIRO DE COMALCALCO DIC. 2012
Proyecto para Centros que trabajan una vez por semana.
1 Aguascalientes, Julio de 2005 MODALIDADES ALTERNATIVAS DE CENSOS DEMOGRÁFICOS: EL CASO BRASILEÑO.
Efectivo e Inversiones Temporales
Ecuaciones Cuadráticas
Seguridad de redes empresariales
Investigación Algorítmica
Comité Nacional de Información Bogotá, Julio 27 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
MODELOS CURRICULARES MODELOS CURRICULARES Dra. Teresa Sanz Cabrera
Proyecto Fin de Carrera E.T.S. Ingeniería Informática 26 de Septiembre de 2006 DESARROLLO DE UN COMPONENTE TECLADO ALUMNO: Fco. Javier Sánchez Ramos TUTORES:
Máquinas con Vectores de Soporte - SVM
Aqui está Señoras y Señores !!!!!
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 02 EQUIPO 03 VS EQUIPO 06 EQUIPO 05 VS EQUIPO 10 EQUIPO 07 DESCANSA EQUIPO 08 VS EQUIPO 13.
CULENDARIO 2007 Para los Patanes.
PROYECTO EDUCATIVO COMUNITARIO
Números enteros.
“De las drogas en el deporte ... a las drogas en la calle”
Investigación en acción
ESTADOS FINANCIEROS A DICIEMBRE DE 2013.
* Fuente: Sondeo del Consumidor de la Comisión de la UE, GfK. Expectativas sobre la situación.
Ing. Jorge A. Abraham Técnicas Digitales II
AUDITORIA DE LA SEGURIDAD en Telecomunicaciones y redes de computadoras Unidad VI.
La herramienta que cambiará todo 1 La Herramienta para RRHH que cambiará Todo.
ESTADÍSTICA INFERENCIAL I
Programación 1 (01) Prof. Domingo Hernández Departamento de Computación Grupo de Ingeniería de Datos y Conocimiento (GIDyC) Escuela de Ingeniería.
Análisis Diseño y Desarrollo
Metodología Investigación Científica
1 2 Seminario “Gestión del Conocimiento: realidades y perspectivas” Mesa 3: Gestión del Conocimiento en el Sector.
ESCUELA PROFESIONAL DE INGENIERIA INDUSTRIAL CURSO: GESTION DE LA CALIDAD ING.ELIZABETH FERG 1.
Direccionamiento de la red: IPv4
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
DISEÑO DE LA PROPUESTA DEL PROCESO DE RENDICION DE CUENTAS 2014 Coordinación General de Planificación Ministerio de Agricultura, Ganadería, Acuacultura.
Simulacion de sistemas dinamicos
Transcripción de la presentación:

Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Seminario de Tesis I Propuesta de Tesis Método de Reconocimiento de texto impreso a partir de imágenes de mapa de bits mediante Repositorios de Clasificación y Aprendizaje Vera Olivera, David Carlos Marín Rosales, Nicolae Harry 4 Noviembre 2006

Tesistas Vera Olivera, David Carlos Marín Rosales, Nicolae Harry Ing. De Sistemas, UNI, 10mo Ciclo, davizonn@yahoo.com Marín Rosales, Nicolae Harry Ing. De Sistemas, UNI, 10mo Ciclo, nicolae_harry@yahoo.com

PROPUESTA

Título Método de Reconocimiento de texto impreso a partir de imágenes de mapa de bits mediante Repositorios de Clasificación y Aprendizaje

JUSTIFICACIÓN Actualmente los algoritmos no pueden identificar eficazmente los tipos y tamaños de letras de aquellas regiones de texto que padecen de escasa resolución y cierta presencia de ruido en las imágenes de mapa de bits. Este método presentará una innovación en términos de análisis por incorporar métodos de aprendizaje y no solamente métodos clásicos de reconocimiento de texto basados en la comparación directa con patrones de tipos y tamaños de letra.

Ámbito de la investigación Se tendrá en cuenta todas las imágenes de mapa de bits que resulten del proceso de digitalización (Scanner) a partir de imágenes impresas en un medio físico, particularmente papel.

El Problema Dentro de los sistemas de reconocimiento de texto clásicos, existe una necesidad de reconocimiento dinámico, un sistema de reconocimiento que cuente con un modulo de aprendizaje. Capítulo 2 de Sampieri

Objetivo General Disminuir el nivel de error de reconocimiento de texto de los métodos clásticos OCR, de tal manera que a pesar de los altos niveles de ruido y baja resolución la eficiencia del sistema no baje del 50%. Capítulo 2 de Sampieri

Objetivos Específico Revisar las distintas técnicas existentes de reconocimiento de texto y caracteres. Establecer un método idóneo de reconocimiento de texto basado en el entrenamiento de ciertas plantillas. Implementar el método apoyado en diversas técnicas de análisis de regiones de texto junto con repositorios de plantillas entrenables. Capítulo 2 de Sampieri

Antecedentes SHUNJI MORI, CHING (1992), revisión histórica del desarrollo e investigación del Reconocimiento Óptico de Caracteres (OCR) GEORGE NAGY (2000), Investigación acerca del análisis de imágenes y texto en documentos digitalizados. Capítulo 3 de Sampieri

METODOLOGIA DE LA INVESTIGACION

Tipo de Investigación Experimental Tipo de Diseño Experimental Capítulo 4 de Sampieri Capítulo 6 de Sampieri

DISEÑO DEL EXPERIMENTO

Diseño Experimental Porque se establece manipulación de una variable experimental no comprobada, en condiciones rigurosamente controladas, con el fin de describir de que modo o por qué causa se produce una situación o acontecimiento particular. En este caso, el de los distintos tamaños y tipos de fuentes cuando se presentan en las regiones de texto con distintas resoluciones y niveles de ruido.

Objeto de la Investigación Una imagen digitalizada a partir de un medio impreso (diarios, revistas, libros, etc.). El muestreo para la investigación se tratara de 10 experimentos por cada combinación entre tipos y tamaños de fuente. Capítulo 6 de Sampieri

Población Todos lo tipos de fuente de texto, utilizados frecuentemente en medios impresos (revistas, diarios, libros). Todos los tamaños de fuente de texto, utilizados con frecuencia en los medios impresos (revistas, diarios, libros).

Muestra Se tomara el 10% de los tipos de fuente mas usados en los medios de texto impresos. Se tomara el 10% de los tamaños de fuente mas usados en los medios de texto impresos. Se realizara 10 experimentos por cada combinación entre tipo de fuente y tamaño de fuente entre los valores del diseño muestral.

Variables Variables independientes: Regiones de Texto. Grupos de Tamaño de fuente. Grupos Tipo de fuente. Estado de Región (Tipo + Tamaño de fuente). Nivel de ruido en imágenes. Separación de caracteres. Nivel de resolución. Nivel de Grises. E X P R I M N T O Variables dependientes: éxito = (1 – error) es comúnmente usado para determinar la efectividad un clasificador: Instrumento de medición No se diseña una encuesta Los datos se extraen desde la imagen digitalizada mediante: - Adquisición y Binarización - Fragmentación de la imagen. - Adelgazamiento de las componentes. - Comparación de patrones No se diseña una encuesta para registrar los datos. Se diseña un algoritmo para extraer el error de cada experimento.

Diseño Experimental La base o repositorio inicial con la que se cuenta es la NIST SD4  4000 imágenes de los 26 distintos tipos de letra utilizados en los diarios y revistas del mundo. Los parámetros de entrada, los estados considerados como variables independientes. Serán evaluados acompañados por distintos tipos de resolución, tales como 16, 20, 24, 28, y también por lo niveles de ruido (1, 2, 4, 8….). Extraemos la variable dependiente (error) evaluando mediante el algoritmo de reconocimiento la eficiencia de los repositorios para encontrar el carácter correcto contenido en la región de texto.

Procedimiento Experimental

Hipótesis Ho: La efectividad del clasificador se reduce al incrementarse el ruido en la imagen digitalizada. Ho: EL tamaño de la fuente determina la efectividad del clasificador. Ho: El tipo de fuente determina la efectividad del clasificador. Ho: La disposición de las regiones determina la efectividad del clasificador. Capítulo 5 de Sampieri

MODELO DE SOLUCION

MODELO DE SOLUCION

PLANIFICACION

CRONOGRAMA DE TRABAJO

PRESUPUESTO DE LA INVESTIGACION

CONCLUSIONES

CONCLUSIONES Y RECOMENDACIONES Podemos decir que, con este trabajo se pretende desarrollar un sistema tipo software que permita trabajar con imágenes reales de documentos y que realice una primera aproximación al proceso del reconocimiento del texto incluido en tales documentos utilizando la tecnología de las redes neuronales.

CONCLUSIONES Y RECOMENDACIONES Aplicación de técnicas de reducción de ruido en las imágenes. Utilización de algoritmos que resuelvan los problemas de separación de caracteres conexos o solapados. Reconocimiento de caracteres manuscritos, siendo éste un campo en el que existe actualmente una gran actividad investigadora. Extracción de nuevas características de los caracteres, que redunde en una clasificación posterior más fiable e invariante. Mejorar técnicas de PostProcesamiento existentes.