La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Centro de Aplicaciones de Tecnologías de Avanzada

Presentaciones similares


Presentación del tema: "Centro de Aplicaciones de Tecnologías de Avanzada"— Transcripción de la presentación:

1 Centro de Aplicaciones de Tecnologías de Avanzada
¿Investigación Teórica vs Investigación Aplicada? Dr. José Ruiz-Shulcloper CENATAV, MINBAS, CUBA

2 Contenido ¿Qué es el CENATAV? ¿Cuál es su política científica?
¿En qué consiste la modelación matemática de los problemas de RP y MD? ¿Teoría vs Aplicaciones?

3 (Fecha oficial Enero del 2004) (Fecha real Marzo del 2003)
El Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV) es un centro adscrito al MINBAS, que fue creado (Fecha oficial Enero del 2004) (Fecha real Marzo del 2003) para desarrollar investigaciones teóricas y aplicadas en Reconocimiento de Patrones (RP) y Minería de Datos (MD) y que funciona en un régimen económico presupuestado no lucrativo, financiado por la Caja Central del Estado, sin beneficios económicos ni superávit financiero.

4 LÍNEAS DE INV. PARA LA SOLUCIÓN DE NUESTROS PROBLEMAS
DESARROLLO MUNDIAL LÍNEAS DE INV. PARA LA SOLUCIÓN DE NUESTROS PROBLEMAS INVESTIGACIONES TEÓRICAS FORMACIÓN ESPECIALISTAS EN RP Y MD CENATAV CARPETA PROB. INVESTIGACIONES APLICADAS LEVANTAMIENTO CARPETA PROB. NECESIDADES DEL PAÍS

5 Líneas de Investigación – Dpto Minería de Datos
Algoritmos de agrupamiento Objetivo general: Desarrollar algoritmos, así como componentes y/o servicios a ser utilizados por diferentes sistemas, que garanticen mejor eficiencia en el agrupamiento de datos. Tema 1.1: Agrupamiento en datos estructurados, semiestructurados y no estructurados: textos planos, documentos Web y Bases de Datos (datos categóricos y numéricos). Marzo 2005

6 Líneas de Investigación – Dpto Minería de Datos
Tema 1.2: Agrupamiento incremental. Tema 1.3: Agrupamiento no duro (difuso, etc.). Tema 1.4: Agrupamiento en grandes volúmenes de datos aplicando procesamiento en paralelo. Tema 1.5: Agrupamiento a partir de reglas de asociación. Marzo 2005

7 Líneas de Investigación – Dpto Minería de Datos
Algoritmos de generación de reglas de asociación Objetivo general: Desarrollar algoritmos, así como componentes y/o servicios a ser utilizados por diferentes sistemas, que garanticen mejor eficiencia en la generación de Reglas de Asociación (RA). Tema 2.1: Generación de RA en datos estructurados, semi-estructurados y no estructurados: textos planos, documentos Web y Bases de Datos (datos categóricos y numéricos). Marzo 2005

8 Líneas de Investigación – Dpto Minería de Datos
Tema 2.2: Generación incremental de RA. Tema 2.3: Generación de RA en grandes volúmenes de datos aplicando procesamiento en paralelo. Tema 2.4: Métodos de reducción de la dimensionalidad de los rasgos para la generación de reglas de asociación. Tema 2.5: Generación de RA a partir de agrupamientos. Tema 2.6: Generación de RA con diferentes medidas de interés. Marzo 2005

9 Líneas de Investigación – Dpto Minería de Datos
Caracterización de documentos Objetivo general: Evaluar las diferentes formas de representación de los documentos, programando componentes y/o servicios con las mejores o nuevas formas seleccionadas. Tema 3.1: Formas de representación que garanticen medidas superiores de semejanza o distancia entre documentos. Tema 3.2: Métodos para reducir la cantidad de rasgos en las representaciones de documentos. Marzo 2005

10 Líneas de Investigación – Dpto Minería de Datos
Búsqueda de documentos Objetivo general: Evaluar los diferentes métodos de búsqueda de documentos, programando componentes y/o servicios con los mejores o nuevos métodos seleccionados. Tema 4.1: Métodos superiores de búsqueda en la Web o localmente. Tema 4.2: Métodos que permitan personalizar, reconocer y generar automatizadamente los intereses de los usuarios. Tema 4.3: Métodos de búsqueda en ambientes paralelos o distribuidos. Marzo 2005

11 Líneas de Investigación – Dpto Reconocimiento de Patrones
Análisis de textura Aplicación del análisis de texturas en Huellas digitales. Aplicación del análisis de texturas en Iris. Aplicación de la transformada de Gabor. Aplicación de la transformada de Wavelet. Marzo 2005

12 Líneas de Investigación – Dpto Reconocimiento de Patrones
Macheo de grafos Inferencia gramatical de grafos utilizando redes neuronales y algoritmos de estimación de distribuciones. Macheo inexacto de grafos utilizando redes neuronales y algoritmos de estimación de distribuciones. Marzo 2005

13 Líneas de Investigación – Dpto Reconocimiento de Patrones
Máquinas de Soporte Vectorial (SVM) Mejoramiento de la sensibilidad y la especificidad (precisión , recall) de los resultados de las SVM. Métodos de reducción del tiempo de entrenamiento. Generalización de las máquinas de soporte vectorial al caso multiclase. SVM para regresión. CSVM (Clifford SVM) como generalización de las SVM usando el algebra geométrica de Clifford. Marzo 2005

14 Líneas de Investigación – Dpto Reconocimiento de Patrones
Reconocimiento Lógico Combinatorio de Patrones Edición de matrices de entrenamiento Desarrollo de algoritmos basados en funciones de similaridad no duales de distancias Esquemas de edición para datos mezclados e incompletos Sistemas de multiclasificadores Algoritmos conceptuales Estas líneas de investigación son problemas actuales de la disciplina en el nivel mundial pero además responden a problemas prácticos que tenemos que resolver en el país Marzo 2005

15 PLAN DE CIENCIA Y TECNOLOGÍA DEL CENATAV PARA EL AÑO 2005
Se concluyó la primera versión del Sistema para el procesamiento de noticias No. PROYECTOS APLICADOS 1 Sistema para el diseño y procesamiento de encuestas (UCLV/UO) 2 Sistema de identificación balística (ISPJAE/UCI) 3 Sistema de identificación dactiloscópica (ISPJAE/UCI) 4 Sistema de lectura y comparación de perfiles de ADN (UCI) 5 Sistema para la detección de falsificación de documentos Y otros que aún no empezamos por falta de recursos humanos ¿Cómo hemos definido las investigaciones teóricas a partir de los problemas concretos? Mediante el proceso de modelación matemática

16 ¿En qué consiste la modelación matemática de los problemas de RP y MD?
Consolidación del Conocimiento Descubierto Problema Realidad vista por el especialista Dominio de Conocimiento Datos Resultado Interpretación Admisibilidad Selección del modelo matemático Abstracción Leyes, observaciones, experiencias Resultado matemático Retroalimentación

17 Este proceso consta de 5 etapas fundamentales
Etapa 1.- Formulación del problema Etapa 2.- Formalización del problema Etapa 3.- Selección del modo de solución del problema Etapa 4.- Solución del problema expresado en términos matemáticos Etapa 5.- Análisis e interpretación de los resultados respecto al problema

18 Etapa 1.- Formulación del problema
En esta etapa el especialista del área de aplicación (o los especialistas) tiene(n) una mayor participación porque es(son) quien(es) expresa(n) en su lenguaje el problema a resolver. Objetivo de la investigación Objetos de investigación Propiedades que caracterizan a los objetos Características de dichas propiedades Relaciones entre los objetos y sus propiedades Hipótesis en que se fundamenta el trabajo a realizar Fuentes de información

19 ¿Qué información es relevante, si esto se conoce?
¿Cómo se recolecta la información? ¿Cómo se interpreta y manipula la información? ¿Cómo se requiere que se presenten los resultados? Identificación de ruidos y distorsiones de la información Valoración de los errores en la información en su entrada, procesamiento y salida Conjunto de descripciones de los objetos a estudiar (formación de la matriz de entrenamiento)

20 Etapa 2.- Formalización del problema
Esta etapa es posible que mentalmente se lleve a cabo a medida que el especialista del área de aplicación formula el problema. Es compleja porque se requiere "traducir" del lenguaje del especialista al lenguaje formal de la Matemática, de tal manera que de la etapa anterior queden reflejados los objetivos, objetos, propiedades y su escala de medición, características, relaciones entre objetos y entre propiedades, el concepto de clase de objetos, propiedades de las mismas, los conceptos de analogía, la evaluación de los errores, etc.

21 En esta etapa se realiza:
A) la selección del espacio de representación de los objetos de investigación, B) la determinación de las funciones que modelarán los criterios de comparación de valores de cada variable así como entre las descripciones de los objetos. Esto es, formalizar el concepto de analogía; C) el análisis desde el punto de vista formal de los requisitos de la solución que el especialista del área de aplicación impone a los resultados, D) la evaluación que dicho especialista da a los datos.

22 Etapa 3.- Selección del modo de solución del problema (matemático)
El proceso de formalización muchas veces restringe fuertemente el área de búsqueda de las técnicas de solución. En esta etapa un papel decisivo lo desempeña el análisis de la muestra de aprendizaje, para entre otros aspectos: A) detectar errores cometidos en la formación de la MA, B) analizar la calidad de los datos, C) variabilidad de los datos para detectar objetos anómalos, D) la posible necesidad de cambio de escala, E) el posible cambio de codificación.

23 Se debe considerar que:
los modelos matemáticos tienen su área de aplicabilidad donde resultan confiables, B) no es fácil señalar el área de aplicación de un modelo, C) los modelos son consistentes, los errores se dan por usarlos donde no se debe, D) cualquier herramienta que se use dará una información de salida para una cierta información de entrada, E) se debe evaluar el tratamiento de la ausencia de información.

24 Etapa 4.- Solución del problema expresado en términos matemáticos (se obtiene un resultado matemático) Tomando como base los datos formalizados y el tipo de algoritmo a utilizar, se elabora el sistema computarizado (si lo amerita el caso) y se obtiene la solución del problema matemático. Se analiza la concordancia del resultado matemático alcanzado con los objetivos formalizados del problema matemático teniendo como herramienta fundamental la formalización de los criterios para la evaluación de resultados de la segunda etapa.

25 Etapa 5.- Análisis e interpretación de los resultados respecto al problema
Los resultados matemáticos se interpretan "traduciendo" del lenguaje matemático al lenguaje del especialista, en forma similar a lo que se hizo en su contraparte en la segunda etapa. Después de la correspondencia del resultado matemático con el problema matemático en la etapa anterior, se hace necesario el análisis entre la interpretación del resultado matemático y el problema formulado por el especialista del área de la aplicación. Las acciones resolutivas obtenidas son variadas y dependen de los resultados de dicho análisis. El especialista del área de aplicación también es el máximo responsable de esta etapa y debe ser ejecutada en conjunto con los elementos del equipo multidisciplinano.

26 Nota aclaratoria.- Hay tres etapas más, al menos en las Geociencias, a las que aquí no hacemos referencia, que en buena medida son propias del trabajo previo y posterior, a saber, la formación del modelo del especialista no matemático; la obtención (adquisición) de los datos necesarios para la solución del problema y la comprobación en las condiciones de gabinete y campo de los resultados obtenidos.

27 En resumen la metodología que se ha presentado está basada sobre los siguientes principios:
1. No se puede modelar lo que no se conoce. 2. Los especialistas no matemáticos no tienen que dominar el lenguaje de la Matemática. 3. El problema no matemático se formula estrictamente en el lenguaje de la ciencia en particular. 4. No se va a experimentar con los datos para ver si la respuesta le conviene. 5. La frecuencia está en la base del conocimiento en las ciencias poco formalizadas. 6. La analogía está en la base del conocimiento en las ciencias poco formalizadas.

28 7. Debe haber una comprensión mutua de los elementos esenciales.
8. Discutir el modelo no-matemático es una necesidad del matemático. 9. Discutir el modelo matemático ayuda a que se aplique la solución que se alcance. 10. Al modelo matemático se llega, no se parte de él. 11. Se pretende construir un sistema que constituya una herramienta más del trabajo del especialista (no matemático). Lo llamaremos sistema herramienta. 12. El sistema herramienta no sustituye al especialista del área de aplicación, lo potencia en su trabajo rutinario y en sus investigaciones.

29 13. Se cree en las cajas negras cuando nunca se equivocan, pero esto no siempre ocurre.
14. Para manejar un sistema herramienta no se necesita saber Computación, tampoco Matemática. 15. El sistema debe aspirar a la automatización del proceso de modelación matemática, según las concepciones metodológicas propuestas (eso no lo hemos logrado aún). 16. La modelación matemática de un fenómeno sólo puede acometerse con un equipo multidisciplinario. 17. La regla fundamental de un equipo multidisciplinario debe ser la honestidad. 18. Se debe tener un lenguaje común en el equipo multidisciplinario. 19. Se deben definir obligaciones y funciones específicas para cada miembro del equipo, sin menoscabo de la responsabilidad colectiva.

30 Responsablemente queremos expresar que este proceso, que puede parecerle a algunos engorroso, aburrido, innecesario, ha dado frutos antes de llegar a clasificar; antes de procesar los datos. Es opinión de los geocientíficos con los que hemos trabajado, que el proceso de modelación les resultó beneficioso para sus hipótesis, concepciones, para depurar e incluso aumentar la calidad de sus modelos. Esto no significa que no haya mucho aún por hacer en el plano metodológico. Esta metodología de la modelación matemática de problemas de Reconocimiento de Patrones para ciencias poco formalizadas, es sólo un punto de partida.

31 ¿Teoría vs Aplicaciones?
No hay razones para plantear una dicotomía entre un tipo y otro de investigación, por el contrario ambas pueden y deben retroalimentarse Quizás un problema a precisar es qué debe considerarse una investigación aplicada y qué un trabajo profesional Si partimos del problema a resolver y no lo distorsionamos para meterlo dentro de ciertos modelos matemáticos preconcebidos, tenemos la posibilidad de que aparezcan problemas teóricos incluso de muy alta complejidad Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

32 Un levantamiento de lo que se hace, quién lo hace y cuáles son las perspectivas de desarrollo futuro, es una información de un alto valor práctico en cualquier país Análogamente, un inventario de lo que se necesita, de lo que se podría hacer y una proyección de lo que se necesitaría, es también una información altamente valiosa La combinación de estas dos informaciones podría producir un cambio cualitativo sustancial en el desarrollo a mediano y largo plazo en el país Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

33 Una dinámica que combine el acceso a la información y experiencia mundiales, la posibilidad de realizar el proceso de modelación matemática de los problemas aplicados, podría ser de alta utilidad para el desarrollo de las investigaciones teóricas y las aplicadas y también de la formación de nuevos especialistas en el país Las investigaciones aplicadas pueden constituir una fuente inapreciable de problemas teóricos En nuestra experiencia la conjugación de estos dos tipos de investigaciones es la garantía de resolver nuestros problemas concretos aplicados y, simultáneamente, del desarrollo de la ciencia y la técnica en el país Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

34 MUCHAS GRACIAS POR SU ATENCIÓN
¿Alguna pregunta?


Descargar ppt "Centro de Aplicaciones de Tecnologías de Avanzada"

Presentaciones similares


Anuncios Google