Oscar Francisco Rojas Díaz

Oscar Francisco Rojas Díaz
UNIVERSIDAD DE SANTIAGO DE CHILE FACULTAD DE CIENCIA DEPARTAMENTO DE MATEMATICA Y CIENCIA DE LA COMPUTACION LICENCIATURA EN CIENCIA DE LA COMPUTACION RECONOCIMIENTO HEURISTICO DE PATRONES GEOMETRICOS BIDIMENSIONALES MEDIANTE REDES NEURONALES AUTOORGANIZADAS Y TRANSFORMADA DISCRETA DE FOURIER. Septiembre Oscar Francisco Rojas Díaz

El tema central de esta tesis es la visión artificial específicamente el reconocimiento de patrones bidimensionales utilizando modelos de inteligencia computacional y técnicas asociadas al análisis digital de la imagen, lo cual permitiría a una máquina reconocer figuras bidimensionales ubicadas en un escenario.

Estructura de la presentación.
Introducción Objetivos Desarrollo de la propuesta Demostración experimental Conclusiones Consultas

Introducción: ¿Inteligencia Artificial?
La mayoría de las definiciones coinciden en que el objetivo de la Inteligencia Artificial es imitar las facultades del comportamiento que atribuimos al ser humano y el computador es el medio para lograr dichos objetivos. Atributos del humano. Aprender Percibir Razonar Tomar decisiones Adquirir conocimiento Utilizar los Sentidos Analizar la situación Acciones físicas o Intelectuales

Inteligencia Artificial
Escuelas de pensamiento Inteligencia artificial convencional Inteligencia computacional Sistema expertos Razonamiento basado en casos Redes Bayesianas Árboles de decisión en general Redes neuronales Sistema difusos Computación evolutiva Sistemas híbridos Sistemas conexionistas Métodos Formalismo y análisis estadístico Biológica y lingüística Base teórica

Robótica e Inteligencia Artificial
La robótica es una rama de la tecnología, que estudia el diseño y construcción de máquinas capaces de desempeñar tareas realizadas por el ser humano, imitar comportamientos de seres vivos físicamente o bien maquinas capaces de realizar tareas que requieran el uso de inteligencia. Desarrollo Mecánico - físico Desarrollo histórico Mejoras mecánicas Nueva generación Diseños mas parecidos al humano, maquinas mas especializadas, mayor precisión en los movimientos, etc. Reducción en el tamaño de integrados Robot con mayor autonomía e interacción con el humano y su entorno Disponibilidad de hardware Capacidades de computo + Velocidad de respuesta Inteligencia artificial actual permite en robótica Resolver mas problemas Robot con mayor inteligencia Menos tasa de error Capacidad de aprendizaje, mejoras en la toma de decisiones, etc. Decisiones autónomas Autonomía en la adquisición de conocimiento.

Como interactúan con el entorno
Utilizando sensores capaces de proporcionar: Visión El análisis y reconocimiento de patrones es imprescindible al momento de diseñar Robots inteligentes. Audición Patrones Olfato Tacto La visión es el sentido que le proporciona más información de su entorno. Visión artificial

¿Qué escenario es el que esta compuesto por todos esos objetos?
Visión artificial La visión artificial, también conocida como visión por computador, es una disciplina de la inteligencia artificial, el propósito de la visión artificial es crear sistemas que puedan interpretar un escenario o bien obtener las características de una imagen. Características Interpretación ¿Cuantos objetos hay? Colores Imagen 2D ¿Qué es? Ubicación espacial Imagen 2D Patrones ¿Esta lejos o cerca? Objeto ¿Qué escenario es el que esta compuesto por todos esos objetos? Escenario Permite reducir el problema de una imagen a ciertas formas geométricas, a partir de ellas podemos analizar el problema e intentar comprender ante qué objeto o entorno nos encontramos. Captura

Dificultades en la visión artificial
Muy sensible a factores externos Requiere muchos procesos intermedios Soluciona problemas específicos El factor tecnológico es decisivo en los resultados. Hardware Software Modelos Algoritmos Plataformas Alto rendimiento Calidad de imagen Implementación Tiempo de respuesta Tasas de acierto Capacidades del sistema

Visión humana La retina tiene entre 75 a 150 millones de bastones que son células receptoras de información visual monocroma, y 6 a 7 millones de conos que son células receptoras de tonos y matices color. 150 Mega píxeles aproximadamente en una imagen digital fibras por cada ojo aproximadamente El numero de interconexiones de los sensores biológicos es superior a millones aproximadamente Estamos limitados al factor tecnológico disponible, para poder realizar artificialmente tareas que le son naturales al ojo humano, principalmente por el volumen de los datos a utilizar

Interpretar artificialmente
Si se quiere interpretar un escenario artificialmente, que esta compuesto por muchos objetos y métricas Se debe tener caracterizado cada componente del escenario Reconocer los objetos que componen la escena visual La forma como se representen los componentes es vital, ya sea por la dimensión de la información, el tipo de caracterización y representación de los mismos, además de tener estructuras y modelos adecuados en los cuales sustentar el sistema Reconocimiento: puntos, esquinas, planos, objetos, etc.. Si nuestro sistema visual, reduce la dimensión de la información que es captada por las células receptoras y enviadas por el nervio óptico al cerebro, un modelo artificial efectivo debería tener las mismas características Tema central de la tesis Ubicación: distancias, ángulos, etc..

Objetivos Objetivo general Crear un mecanismo de reconocimiento y aprendizaje de formas geométricas bidimensionales representadas por curvas cerradas. Objetivos específicos Encontrar una señal que pueda representar una forma en base a su contorno. Crear un sistema de reconocimiento y aprendizaje de formas que permita una retroalimentación de nuevos patrones.

Desarrollo de la propuesta
Existe un procedimiento inicial que es estándar al momento de estructurar un sistema de reconocimiento, dicho procedimiento esta relacionado principalmente con las aplicaciones que requieren un análisis automatizado de imágenes, a este procedimiento se le llama análisis de imágenes.

1º Objetivo: Encontrar una señal que pueda representar una forma en base a su contorno.
La representación sea invariante escala, traslación y rotación. Requisitos de la señal. Patrón de la imagen Que entregue información sobre el comportamiento geométrico de la forma. Un patrón en una imagen es una descripción estructural o cuantitativa de un objeto o de alguna otra entidad de interés en una imagen, un patrón está formado por uno o más descriptores. Que el largo del vector sea relativamente pequeño.

Adquisición y preprocesado
Utilización de la API JMF de Java. Matriz de una imagen digital Todo los procesos de trabajo de imágenes se basan en la función bidimensional de entrada Eliminación de ruido con el filtro de la mediana Transformación a nivel de gris API JavaJAI

Obtención de bordes con filtros diferenciales
El método más común de diferenciación en las aplicaciones de procesado de la imagen es el gradiente. Gradiente Modulo del gradiente Angulo de dirección del gradiente

Derivadas basadas en máscaras de sobel
Operadores de Sobel. Los operadores de Sobel tienen la ventaja de proporcionar tanto una diferenciación como un efecto de suavizado. Derivadas basadas en máscaras de sobel Mascaras de Sobel Donde Z son los niveles de gris de los píxeles solapados por las máscaras en cualquier posición de una imagen. Una región de 3x3 de una determinada imagen (representada en términos de las variables Z, que son las que indican el nivel de gris). Una vez que se ha completado el procedimiento en todas las posibles ubicaciones (píxeles de la imagen), el resultado es una imagen gradiente del mismo tamaño que la imagen original.

Umbralización binaria
Para realizar la binarización, basta con explorar todos los puntos de la imagen y determinar que puntos corresponderían al objeto y cuales al fondo. Entonces los píxeles etiquetados con 1 (o cualquier otro nivel de intensidad conveniente) corresponden a los objetos, mientras que los píxeles etiquetados con 0 corresponden al fondo.

Seleccionar puntos característicos del contorno
Representación de las formas La etapa de representación esta dividida en dos etapas: Seleccionar puntos característicos del contorno Obtención del código de la cadena del borde

Seleccionar puntos característicos del contorno
Seleccionar el primer píxel con valor 1 y guardar posición e iniciar rotación en (x-1,y-1). Se carga la matriz binaria Recorrer los píxeles vecinos en sentido de las agujas del reloj, hasta encontrar uno con valor 1 y guardar posición. La posición del píxel es la misma que el píxel inicial. Terminar recorrido Ubicarse en el píxel opuesto + 1 variación, de la ultima posición guardada Si No Puntos del borde Interpolar Puntos característicos del contorno

Obtener código de cadena
Representa un contorno por medio de una sucesión conexa de segmentos de longitud y dirección especificadas. [ ] Según el valor del ángulo formado entre dos puntos se le asignó un número entero entre 1 y 16, cada variación (arco) tiene un ángulo de 22.5 grados. Se fijo en 50 el numero de puntos que representara al contorno.

Generar el código de cadena circular a partir del código de cadena.
Descripción Para la descripción se realizaron los siguientes pasos: Generar el código de cadena circular a partir del código de cadena. Normalizar las características de la señal que representa al contorno, de tal manera que la señal obtenida represente a las formas invariantes a rotación, escala y traslación.

Generar el código de cadena circular a partir del código de cadena.
El Código de la cadena circular de un contorno se define como las veces en que varia la dirección. Código de la cadena [ ] Código de cadena circular - VPC [ – – ] Si a la misma figura le aplicamos cambios de la escala, traslación o rotación, el código de cadena circular solo tendría variaciones en lo que respecta a la traslación de la señal, con pocas perturbaciones en su recorrido.

Normalizar las características de la señal
Se utilizó la transformada discreta de Fourier, tomando como señal de entrada el código de cadena circular (VPC). Se realizo un cambio en la ecuación Original Utilizada Inversa Entrada Suma de las variaciones internas = Suma de los ángulos internos de la forma

Señales obtenidas al normalizar la señal VPC.
Formas y el espectro de magnitudes de la DFT-VPC.

Proceso realizado en cumplimiento del primer objetivo

Sistema de reconocimiento con arquitectura neuronal
2º Objetivo: Crear un sistema de reconocimiento y aprendizaje de formas que permita una retroalimentación de nuevos patrones. Sistema de reconocimiento con arquitectura neuronal Se diseño una red compuesta por dos redes neuronales, una del tipo Kohonen TMP (Topologic – Preserving - Map) y una del tipo perceptron multicapa, la red Kohonen estaría encargada de excitar el grupo de neuronas que corresponden a un clase determinada además de entregar el valor de normalización de la señal entrada, y la red perceptron multicapa de reconocer los patrones específicos. ¿Por qué redes neuronales y no computo clásico? Las RNA no ejecutan instrucciones, responden en paralelo a las entradas que se les presenta. Son aproximadores funcionales universales. El conocimiento de una red neuronal no se almacena en instrucciones. El poder de la red está en su topología y en los valores de las conexiones (pesos) entre neuronas. Intentan reproducir el comportamiento del cerebro Son modelos basados en la biología Inteligencia artificial mas cercana a lo real

Redes Neuronales Biológicas Redes Neuronales Artificiales
Comparación entre las neuronas biológicas y las unidades de proceso artificiales Redes Neuronales Biológicas Redes Neuronales Artificiales Neuronas Unidades de proceso Conexiones sinápticas Conexiones ponderadas Efectividad de las sinápsis Peso de las conexiones Efecto excitatorio o inhibitorio de una conexión Signo del peso de una conexión Efecto combinado de las sinápsis Función de propagación o de red Activación -> tasa de disparo Función de activación -> Salida

Una conexión se destruye cuando su peso pasa a ser cero
Mecanismo de Aprendizaje Es el proceso por el cual una red neuronal modifica sus pesos en respuesta a una información de entrada. La creación de una nueva conexión implica que el peso de la misma pasa a tener un valor distinto de cero Los cambios que se producen durante el proceso de aprendizaje se reducen a destrucción, modificación y creación de conexiones entre las neuronas. Una conexión se destruye cuando su peso pasa a ser cero Cuando los valores de los pesos permanecen estables La red aprende

+ Modelo propuesto, Red neuronal KPR Red neuronal KPR
Red de perceptrones Red neuronal Kohonen TPM Almacenan la información de cada patrón, y estas neuronas se activan cuando un patrón de entrada es similar al almacenado. Encargada de activar el grupo de neuronas que corresponden a un clase determinada además de entregar el valor de normalización de la señal DFT-VPC Ordena topológicamente los patrones en un espacio bidimensional. Existen evidencias que demuestran que en el cerebro hay neuronas que se organizan en muchas zonas, de forma que las informaciones captadas por los órganos sensoriales se representan internamente en forma de mapas bidimensionales. A medida que se le presentan nuevos patrones la red, una vez entrenada, cuando aprende, la red modifica la estructura de sus conexiones Las ecuaciones de Kohonen han sido comprobadas experimentalmente por científicos del MIT. Neuron Volume 47, Issue 2, 21 Julio 2005, páginas

Datos topológicos de las formas
Arquitectura de la red neuronal Kohonen TPM Mapa bidimensional Salidas Pesos de las conexiones Datos topológicos de las formas Entradas Trata de establecer una correspondencia entre los datos de entrada y un espacio bidimensional de salida Conexiones laterales Conexiones auto recurrentes Ante datos con características comunes se activen neuronas situadas en zonas próximas de la capa de salida

Funcionamiento de la red de Kohonen
Presentar información de entrada Las neuronas de la capa de salida reciben la información A través de las conexiones hacia delante con los pesos de cada conexión A través de las conexiones laterales del resto de las neuronas La red evoluciona hasta encontrar una situación estable en la que se activa una neurona de salida, esta es la Vencedora Una vez encontrada la vencedora, los pesos se actualizan, no sólo para la vencedora, sino para todas las de su entorno

Red del tipo competitivo
Funcionamiento de la red de Kohonen Salida generada por una neurona ante un vector de entrada = Red del tipo competitivo Distancia de la neurona j a la neurona p Otra formulación Factor que decrece en cada iteración

Entrenamiento de la RED
Algoritmo de aprendizaje Kohonen Inicializar los pesos W con valores aleatorios pequeños y se fija la zona inicial de vecindad entre las neuronas de salida. Presentar a la red la información de entrada (la que a debe aprender). Determinar la neurona ganadora, en función de la distancia de los vectores E y W, gana la mas cercana. Se actualizan los pesos de las conexiones entre las neuronas de entrada y la neurona ganadora J* , así como los de las conexiones entre las de entrada y las neuronas vecinas de la vencedora t es el numero de iteración Un parámetro de ganancia o coeficiente de aprendizaje, con un valor entre 0 y 1, decrece con el número de iteraciones

Propósito Entradas Implementación del modelo Kohonen TPM
Que la red pueda establecer vectores prototipo que estén ubicados en los centroides o centros de gravedad de cierto conjunto de patrones Establece una relación entre los patrones almacenados y las características en común de las formas Propósito Primer elemento de la DFT-VPC Suma aproximada de los ángulos internos de la forma Datos topológicos de las formas Entradas A = Área Compacidad circular P = Perímetro Compacidad En un circulo Al normalizar para un circulo La compacidad es aquello que manifiesta la calidad de compacto. El adjetivo compacto representa una masa muy unida, en una forma seria que tan juntos se encuentran los puntos que la componen.

416 es el factor normalización inicial
Conjunto de entrenamiento 4 7 1 2 3 5 6 8 9 10 11 12 13 14 15 16 17 18 19 Mapa topológico 20 21 416 es el factor normalización inicial En una figura con 50 vértices la sumatoria de los ángulos internos es de 9360º Compacidad circular 9360º/22.5º = 416

Factor de normalización
Reconocimiento de patrones específicos Ecuación propuesta para el reconocimiento de los patrones Entradas de la red Neuronas j que pertenecen a la clase activada por la red Kohonen Patrón k a reconocer Pesos asociados a la neurona j = Patrones de figuras almacenadas Factor que transforma el elemento a su valor original Factor de importancia del elemento i de la señal entrada. Factor de normalización Peso de la conexión lateral enviada por la red Kohonen (elemento prototipo de la suma de ángulos internos) 416 Se asigno experimentalmente

M = nº patrones que pertenecen a una clase -1
Modelo neuronal propuesto para el reconocimiento especifico de patrones M = nº patrones que pertenecen a una clase -1 N = Largo del vector de entrada -1

Modelo propuesto, Red neuronal KPR

Demostración experimental

Conclusiones Cumplimiento de objetivos planteados
Los dos objetivos específicos que se plantearon en este trabajo de tesis, se cumplieron íntegramente. Crear un sistema de reconocimiento y aprendizaje de formas que permita una retroalimentación de nuevos patrones. Encontrar una señal que pueda representar una forma en base a su contorno. Señal DFT-VPC Red Neuronal KPR

Nos limitaría a las observaciones indicadas por los autores
Conclusiones Para poder sustentar cualquier afirmación frente a un modelo o alguna teoría especialmente en el área de la Ciencia de la Computación debe existir una etapa de experimentación No sólo basta con trabajar con la teoría, se debe acompañar la investigación con etapas de experimentación No realizar experimentos Nos limitaría a las observaciones indicadas por los autores No se podría comprender a cabalidad las debilidades y ventajas que contienen

Debilidades El método propuesto no es capaz de reconocer la totalidad de las formas correctamente Normal Característica de un sistema heurístico Causas técnicas El sistema no entrega cual es el mas parecido, si no el que el cree que es el mas parecido Resolución de la imagen Error en la aproximación de la suma de ángulos internos Producido en el proceso de interpolación Produce errores en la clasificación de los conjuntos que son representados por el vector de código de la cadena No se establecen de forma exacta cuántos vértices tiene la figura realmente El termino F(0) de la DFT-VPC va con este error Especialmente en las diagonales Efecto escalón En las figuras no regulares o amorfas este error aumenta considerablemente Influye en la ubicación de los patrones en el mapa topológico Produce distorsiones en código de cadena La señal DFT-VPC va con un grado de distorsión

Ventajas Implementación Tiempo de respuesta y tasas de acierto
Al utilizar hilos, los tiempos de computo en los procesos neuronales asociados al reconocimiento especifico de patrones es muy rápido Tiempo de respuesta y tasas de acierto aceptables para la complejidad del problema Cada neurona trabajaba de forma independiente al momento de procesar la información El patrón de cada figura es de largo 25, lo cual reduce considerablemente el espacio en memoria que se utiliza en el reconocimiento La forma bidimensional es representado de manera unidimensional

implementar es muy amplia
Ventajas Modelo KPR Capaz de reconocer patrones La industria Educación preescolar La gama de aplicación donde se puede implementar es muy amplia Si el objetivo es clasificar o detectar fallas en ciertos productos, por ejemplo botellas defectuosas, piezas de construcción, etc. Apoyo didáctico al momento de enseñar contenidos relacionados con la geometría de las figuras regulares Militar Medicina Reconocer mapas y formas especificas Especialmente en procesos de diagnostico de enfermedades o anomalías que puedan ser identificadas utilizando datos, etc. Reconocimiento de voz

Trabajo futuro Mejoras al método
El modelo propuesto nos da una base teórica y experimental sólida en la cual implementar mejoras Resolución y calidad de las imágenes Profundizar en los algoritmos de renderizado para mejorar la calidad de la imagen y aumentar las resoluciones de las imágenes en la etapa de preprocesado

U(A) Clasificación de los conjuntos en el código de cadena
Implementar conjuntos difusos, lo cual permitiría establecer las relaciones que tiene cada conjunto con el conjunto anterior y de esta manera la máquina podría establecer de manera más eficiente la elección de pertenencia de cada vector formado por dos puntos del contorno U(A) 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 22.5º 67.5º 0º 360º 45º Si lo fusionamos con un modelo neuronal que sólo se dedique a entregar como salida la pertenencia de un cierto vector según su dirección y sentido en base al historial del comportamiento de varios puntos, el proceso de generación del código de cadena tendría una tasa de error más baja A este tipo de modelos se les conoce por el nombre redes neuronales difusas

Mejoras al método Establecer una mejor aproximación o exacta de cuántos vértices tiene la figura realmente Diseñar un procedimiento posterior al obtener el borde con las mascaras de Sobel, y se determine que hay un vértice cuando se agrupen muchos píxeles pertenecientes al borde, dentro de una zona definida por un circunferencia Mejora al mapa topológico Establecer un tercer parámetro el cual sirva para crear un mapa de tres dimensiones lo cual nos permitiría una mejor preclasificación de los patrones.

Trabajo futuro Implementación en robótica
Implementar un brazo robot que pueda interactuar con el humano A través ordenes enviadas con patrones que se presenten a través de un sensor visual incorporado en el brazo Ayudar a minusvalidos en tareas simples, como traer un objeto determinado, marcar un número telefónico, etc. Juegos interactivos, como es el caso de jugar ajedrez con un robot

Hace 20 años tener robot con niveles de inteligencia capaces de interactuar con el humano imitando algunos procesos que nos son cotidianos, como por ejemplo el poder reconocer e interpretar escenarios visuales, era parte de la ciencia ficción, pero con los avances actuales de la Inteligencia Computacional (IC) esto es ya una realidad, y según muchos expertos en el tema, el estudio de la IC especialmente de la Neuro Computación en el siglo XXI será como lo fue el estudio del átomo en el siglo pasado. La inspiración de este trabajo, fue la robótica en lo que concierne a los procesos de visión y las capacidades que se le puedan dar a una maquina en este sentido, si bien el sistema no es capaz de reconocer todas las características y objetos que componen a una escena visual al no estar aisladas las formas , esta propuesta puede ser utilizada como base para poder lograr este objetivo en proyectos futuros y con lo presentado en este trabajo de tesis el tema queda abierto para futuras investigaciones en este sentido. “Si no eres parte de la solución, eres parte del problema” Anónimo

Consultas ?

Oscar Francisco Rojas Díaz

Presentaciones similares

Presentación del tema: "Oscar Francisco Rojas Díaz"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Oscar Francisco Rojas Díaz

Presentaciones similares

Presentación del tema: "Oscar Francisco Rojas Díaz"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback