Centro de Aplicaciones de Tecnologías de Avanzada

Slides:



Advertisements
Presentaciones similares
¿ Que es una muestra?.
Advertisements

ENCUENTRO DE MUJERES MUNÍCIPES
Planteamiento del Problema
Ricardo Lopez Ingunza, MV, MPVM Profesor
SistematizaciÓn DE EXPERIENCIAS.
Metodología de la Investigación Social
Los proyectos de Ingeniería
Los proyectos de Ingeniería
Ejemplo La empresa Producciones Valencianas, en el análisis de sus operaciones del último trimestre, muestra una disminución de la producción en comparación.
Estudios de usuarios de archivo TEMA 12. Estudios de usuarios de archivo Entendemos por estudio de usuarios a: las herramientas de planificación, análisis.
La investigación La construcción del conocimiento.
PLAN DE INVESTIGACIÓN.
UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS ECONÓMICAS
Instituto Superior de Formación Docente Nº 127 “Ciudad del Acuerdo”-San Nicolás- “Postítulo de Actualización Académica en la Enseñanza de Biología-Nivel.
SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Para poder entender que son las Técnicas.
La Investigación Cuantitativa y Cualitativa
Elementos del diseño Instruccional Ampliado
TIPOS O ENFOQUES DE INVESTIGACION
FORMULACION DEL DISEÑO DE LA INVESTIGACION
PARADIGMAS DE LA EVALUACIÓN
MÉTODOS DE INVESTIGACIÓN
DISEÑO METODOLÓGICO También denominada “material y métodos” o “procedimientos” El diseño metodológico es la descripción de cómo se va a realizar la investigación,
LAS CARAS DE LA EVALUACION
Entrada de bloque Primera sesión (ver dosificación)
PLANTEAMIENTO DEL PROBLEMA
Metodología Investigación Científica
Proceso de la Investigación
EL CICLO, FASES Y ETAPAS DE LA INVESTIGACIÓN ACCIÓN
Metodo Cientifico: REPÙBLICA BOLIVARIA DE VENEZUELA
Población y Muestra.
GESTION DEL TALENTO HUMANO. ANÁLISIS DE LA SITUACIÓN (Estudio de Necesidades de Capacitación  Con esta etapa se cumple con la detección de necesidades.
Marco teórico Compendio de elementos conceptuales que sirven de base a la investigación Las funciones del marco teórico son: • Delimitar el área de la.
PRUEBA SABER MATEMÁTICAS 3° Y 5°
Métodos y Diseño de Investigación II
Seminario Trabajo de Grado
INVESTIGACIÓN CIENTÍFICA
5.3 APROXIMACIONES AL DISEÑO
SEMINARIO DE INVESTIGACIÓN
Unidad VI Documentación
Investigación Experimental
Investigación en procesos de Aprendizaje Abordaje desde el AEC
Validez y Confiabilidad de Instrumentos
La Investigación científica
Enfoque cuantitativo y Enfoque cualitativo
Práctica de Investigación
Si las competencias tienen expresión en un saber hacer Fundamentado en un saber la evaluación debe considerar no sólo lo que el estudiante sabe sino lo.
PLANEAMIENTO DE LA INVESTIGACIÓN
METODOLOGÍA DE INVESTIGACIÓN SOCIAL
EL EXPERIMENTO CIENTÍFICO
METODOLOGÍA DE INVESTIGACIÓN SOCIAL Titular: Agustín Salvia MÓDULO 1: INVARIANTES Y COMPONENTES DEL PROCESO DE INVESTIGACIÓN SEMINARIO DE POSGRADO.
“Introducción a las Ciencias de la Informática”
La pregunta y el problema de investigación
El Proyecto     Proyectar acciones sistemáticas y fundamentadas, con un objeto definido y metas claras y factibles. Surge como una intervención grupal.
PRESENTACIÓN Este trabajo se desarrolla sobre el tema de competencias, y basado en el Marco de Fundamentacion Conceptual Especificaciones de la Pruebas.
LA INVESTIGACION COMO UN PROCESO DE CONSTRUCCION SOCIAL
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
TIPOS DE INVESTIGACIÓN CUANTITATIVA Y CUALITATIVA
Los proyectos de Ingeniería
METODOLOGÍA DE LA INVESTIGACIÓN . Tema y Problema
Elementos de información
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
OPERACIONES O MOMENTOS DEL PENSAR DE UN INVESTIGADOR
Benemérita Universidad Autónoma Facultad de Enfermería Contenido de los Informes de Investigación.
2. El Nacimiento de un proyecto de investigación
Los proyectos de Ingeniería
LA RESPONSABILIDAD SOCIAL CORPORATIVA: UN ANÁLISIS INTEGRAL DE SUS DIMENSIONES Sandra Eloina Campos López, Universidad de Guadalajara.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
FORMULACIÓN DE PROYECTOS Sandra Yadira Paredes. Universidad del Valle EIDENAR.
OBJETIVOS DE LOS PROGRAMAS DE ESTUDIO: SESIÓN DE TRABAJO 3 DE SEPTIEMBRE DE 2013 SECRETARÍA GENERAL SECRETARÍA DE APOYO A LA DOCENCIA.
Introducción a la Metodología de la Investigación.
Transcripción de la presentación:

Centro de Aplicaciones de Tecnologías de Avanzada ¿Investigación Teórica vs Investigación Aplicada? Dr. José Ruiz-Shulcloper CENATAV, MINBAS, CUBA jshulcloper@cenatav.co.cu

Contenido ¿Qué es el CENATAV? ¿Cuál es su política científica? ¿En qué consiste la modelación matemática de los problemas de RP y MD? ¿Teoría vs Aplicaciones?

(Fecha oficial Enero del 2004) (Fecha real Marzo del 2003) El Centro de Aplicaciones de Tecnologías de Avanzada (CENATAV) es un centro adscrito al MINBAS, que fue creado (Fecha oficial Enero del 2004) (Fecha real Marzo del 2003) para desarrollar investigaciones teóricas y aplicadas en Reconocimiento de Patrones (RP) y Minería de Datos (MD) y que funciona en un régimen económico presupuestado no lucrativo, financiado por la Caja Central del Estado, sin beneficios económicos ni superávit financiero.

LÍNEAS DE INV. PARA LA SOLUCIÓN DE NUESTROS PROBLEMAS DESARROLLO MUNDIAL LÍNEAS DE INV. PARA LA SOLUCIÓN DE NUESTROS PROBLEMAS INVESTIGACIONES TEÓRICAS FORMACIÓN ESPECIALISTAS EN RP Y MD CENATAV CARPETA PROB. INVESTIGACIONES APLICADAS LEVANTAMIENTO CARPETA PROB. NECESIDADES DEL PAÍS

Líneas de Investigación – Dpto Minería de Datos Algoritmos de agrupamiento Objetivo general: Desarrollar algoritmos, así como componentes y/o servicios a ser utilizados por diferentes sistemas, que garanticen mejor eficiencia en el agrupamiento de datos. Tema 1.1: Agrupamiento en datos estructurados, semiestructurados y no estructurados: textos planos, documentos Web y Bases de Datos (datos categóricos y numéricos). Marzo 2005

Líneas de Investigación – Dpto Minería de Datos Tema 1.2: Agrupamiento incremental. Tema 1.3: Agrupamiento no duro (difuso, etc.). Tema 1.4: Agrupamiento en grandes volúmenes de datos aplicando procesamiento en paralelo. Tema 1.5: Agrupamiento a partir de reglas de asociación. Marzo 2005

Líneas de Investigación – Dpto Minería de Datos Algoritmos de generación de reglas de asociación Objetivo general: Desarrollar algoritmos, así como componentes y/o servicios a ser utilizados por diferentes sistemas, que garanticen mejor eficiencia en la generación de Reglas de Asociación (RA). Tema 2.1: Generación de RA en datos estructurados, semi-estructurados y no estructurados: textos planos, documentos Web y Bases de Datos (datos categóricos y numéricos). Marzo 2005

Líneas de Investigación – Dpto Minería de Datos Tema 2.2: Generación incremental de RA. Tema 2.3: Generación de RA en grandes volúmenes de datos aplicando procesamiento en paralelo. Tema 2.4: Métodos de reducción de la dimensionalidad de los rasgos para la generación de reglas de asociación. Tema 2.5: Generación de RA a partir de agrupamientos. Tema 2.6: Generación de RA con diferentes medidas de interés. Marzo 2005

Líneas de Investigación – Dpto Minería de Datos Caracterización de documentos Objetivo general: Evaluar las diferentes formas de representación de los documentos, programando componentes y/o servicios con las mejores o nuevas formas seleccionadas. Tema 3.1: Formas de representación que garanticen medidas superiores de semejanza o distancia entre documentos. Tema 3.2: Métodos para reducir la cantidad de rasgos en las representaciones de documentos. Marzo 2005

Líneas de Investigación – Dpto Minería de Datos Búsqueda de documentos Objetivo general: Evaluar los diferentes métodos de búsqueda de documentos, programando componentes y/o servicios con los mejores o nuevos métodos seleccionados. Tema 4.1: Métodos superiores de búsqueda en la Web o localmente. Tema 4.2: Métodos que permitan personalizar, reconocer y generar automatizadamente los intereses de los usuarios. Tema 4.3: Métodos de búsqueda en ambientes paralelos o distribuidos. Marzo 2005

Líneas de Investigación – Dpto Reconocimiento de Patrones Análisis de textura Aplicación del análisis de texturas en Huellas digitales. Aplicación del análisis de texturas en Iris. Aplicación de la transformada de Gabor. Aplicación de la transformada de Wavelet. Marzo 2005

Líneas de Investigación – Dpto Reconocimiento de Patrones Macheo de grafos Inferencia gramatical de grafos utilizando redes neuronales y algoritmos de estimación de distribuciones. Macheo inexacto de grafos utilizando redes neuronales y algoritmos de estimación de distribuciones. Marzo 2005

Líneas de Investigación – Dpto Reconocimiento de Patrones Máquinas de Soporte Vectorial (SVM) Mejoramiento de la sensibilidad y la especificidad (precisión , recall) de los resultados de las SVM. Métodos de reducción del tiempo de entrenamiento. Generalización de las máquinas de soporte vectorial al caso multiclase. SVM para regresión. CSVM (Clifford SVM) como generalización de las SVM usando el algebra geométrica de Clifford. Marzo 2005

Líneas de Investigación – Dpto Reconocimiento de Patrones Reconocimiento Lógico Combinatorio de Patrones Edición de matrices de entrenamiento Desarrollo de algoritmos basados en funciones de similaridad no duales de distancias Esquemas de edición para datos mezclados e incompletos Sistemas de multiclasificadores Algoritmos conceptuales Estas líneas de investigación son problemas actuales de la disciplina en el nivel mundial pero además responden a problemas prácticos que tenemos que resolver en el país Marzo 2005

PLAN DE CIENCIA Y TECNOLOGÍA DEL CENATAV PARA EL AÑO 2005 Se concluyó la primera versión del Sistema para el procesamiento de noticias No. PROYECTOS APLICADOS 1 Sistema para el diseño y procesamiento de encuestas (UCLV/UO) 2 Sistema de identificación balística (ISPJAE/UCI) 3 Sistema de identificación dactiloscópica (ISPJAE/UCI) 4 Sistema de lectura y comparación de perfiles de ADN (UCI) 5 Sistema para la detección de falsificación de documentos Y otros que aún no empezamos por falta de recursos humanos ¿Cómo hemos definido las investigaciones teóricas a partir de los problemas concretos? Mediante el proceso de modelación matemática

¿En qué consiste la modelación matemática de los problemas de RP y MD? Consolidación del Conocimiento Descubierto Problema Realidad vista por el especialista Dominio de Conocimiento Datos Resultado Interpretación Admisibilidad Selección del modelo matemático Abstracción Leyes, observaciones, experiencias Resultado matemático Retroalimentación

Este proceso consta de 5 etapas fundamentales Etapa 1.- Formulación del problema Etapa 2.- Formalización del problema Etapa 3.- Selección del modo de solución del problema Etapa 4.- Solución del problema expresado en términos matemáticos Etapa 5.- Análisis e interpretación de los resultados respecto al problema

Etapa 1.- Formulación del problema En esta etapa el especialista del área de aplicación (o los especialistas) tiene(n) una mayor participación porque es(son) quien(es) expresa(n) en su lenguaje el problema a resolver. Objetivo de la investigación Objetos de investigación Propiedades que caracterizan a los objetos Características de dichas propiedades Relaciones entre los objetos y sus propiedades Hipótesis en que se fundamenta el trabajo a realizar Fuentes de información

¿Qué información es relevante, si esto se conoce? ¿Cómo se recolecta la información? ¿Cómo se interpreta y manipula la información? ¿Cómo se requiere que se presenten los resultados? Identificación de ruidos y distorsiones de la información Valoración de los errores en la información en su entrada, procesamiento y salida Conjunto de descripciones de los objetos a estudiar (formación de la matriz de entrenamiento)

Etapa 2.- Formalización del problema Esta etapa es posible que mentalmente se lleve a cabo a medida que el especialista del área de aplicación formula el problema. Es compleja porque se requiere "traducir" del lenguaje del especialista al lenguaje formal de la Matemática, de tal manera que de la etapa anterior queden reflejados los objetivos, objetos, propiedades y su escala de medición, características, relaciones entre objetos y entre propiedades, el concepto de clase de objetos, propiedades de las mismas, los conceptos de analogía, la evaluación de los errores, etc.

En esta etapa se realiza: A) la selección del espacio de representación de los objetos de investigación, B) la determinación de las funciones que modelarán los criterios de comparación de valores de cada variable así como entre las descripciones de los objetos. Esto es, formalizar el concepto de analogía; C) el análisis desde el punto de vista formal de los requisitos de la solución que el especialista del área de aplicación impone a los resultados, D) la evaluación que dicho especialista da a los datos.

Etapa 3.- Selección del modo de solución del problema (matemático) El proceso de formalización muchas veces restringe fuertemente el área de búsqueda de las técnicas de solución. En esta etapa un papel decisivo lo desempeña el análisis de la muestra de aprendizaje, para entre otros aspectos: A) detectar errores cometidos en la formación de la MA, B) analizar la calidad de los datos, C) variabilidad de los datos para detectar objetos anómalos, D) la posible necesidad de cambio de escala, E) el posible cambio de codificación.

Se debe considerar que: los modelos matemáticos tienen su área de aplicabilidad donde resultan confiables, B) no es fácil señalar el área de aplicación de un modelo, C) los modelos son consistentes, los errores se dan por usarlos donde no se debe, D) cualquier herramienta que se use dará una información de salida para una cierta información de entrada, E) se debe evaluar el tratamiento de la ausencia de información.

Etapa 4.- Solución del problema expresado en términos matemáticos (se obtiene un resultado matemático) Tomando como base los datos formalizados y el tipo de algoritmo a utilizar, se elabora el sistema computarizado (si lo amerita el caso) y se obtiene la solución del problema matemático. Se analiza la concordancia del resultado matemático alcanzado con los objetivos formalizados del problema matemático teniendo como herramienta fundamental la formalización de los criterios para la evaluación de resultados de la segunda etapa.

Etapa 5.- Análisis e interpretación de los resultados respecto al problema Los resultados matemáticos se interpretan "traduciendo" del lenguaje matemático al lenguaje del especialista, en forma similar a lo que se hizo en su contraparte en la segunda etapa. Después de la correspondencia del resultado matemático con el problema matemático en la etapa anterior, se hace necesario el análisis entre la interpretación del resultado matemático y el problema formulado por el especialista del área de la aplicación. Las acciones resolutivas obtenidas son variadas y dependen de los resultados de dicho análisis. El especialista del área de aplicación también es el máximo responsable de esta etapa y debe ser ejecutada en conjunto con los elementos del equipo multidisciplinano.

Nota aclaratoria.- Hay tres etapas más, al menos en las Geociencias, a las que aquí no hacemos referencia, que en buena medida son propias del trabajo previo y posterior, a saber, la formación del modelo del especialista no matemático; la obtención (adquisición) de los datos necesarios para la solución del problema y la comprobación en las condiciones de gabinete y campo de los resultados obtenidos.

En resumen la metodología que se ha presentado está basada sobre los siguientes principios: 1. No se puede modelar lo que no se conoce. 2. Los especialistas no matemáticos no tienen que dominar el lenguaje de la Matemática. 3. El problema no matemático se formula estrictamente en el lenguaje de la ciencia en particular. 4. No se va a experimentar con los datos para ver si la respuesta le conviene. 5. La frecuencia está en la base del conocimiento en las ciencias poco formalizadas. 6. La analogía está en la base del conocimiento en las ciencias poco formalizadas.

7. Debe haber una comprensión mutua de los elementos esenciales. 8. Discutir el modelo no-matemático es una necesidad del matemático. 9. Discutir el modelo matemático ayuda a que se aplique la solución que se alcance. 10. Al modelo matemático se llega, no se parte de él. 11. Se pretende construir un sistema que constituya una herramienta más del trabajo del especialista (no matemático). Lo llamaremos sistema herramienta. 12. El sistema herramienta no sustituye al especialista del área de aplicación, lo potencia en su trabajo rutinario y en sus investigaciones.

13. Se cree en las cajas negras cuando nunca se equivocan, pero esto no siempre ocurre. 14. Para manejar un sistema herramienta no se necesita saber Computación, tampoco Matemática. 15. El sistema debe aspirar a la automatización del proceso de modelación matemática, según las concepciones metodológicas propuestas (eso no lo hemos logrado aún). 16. La modelación matemática de un fenómeno sólo puede acometerse con un equipo multidisciplinario. 17. La regla fundamental de un equipo multidisciplinario debe ser la honestidad. 18. Se debe tener un lenguaje común en el equipo multidisciplinario. 19. Se deben definir obligaciones y funciones específicas para cada miembro del equipo, sin menoscabo de la responsabilidad colectiva.

Responsablemente queremos expresar que este proceso, que puede parecerle a algunos engorroso, aburrido, innecesario, ha dado frutos antes de llegar a clasificar; antes de procesar los datos. Es opinión de los geocientíficos con los que hemos trabajado, que el proceso de modelación les resultó beneficioso para sus hipótesis, concepciones, para depurar e incluso aumentar la calidad de sus modelos. Esto no significa que no haya mucho aún por hacer en el plano metodológico. Esta metodología de la modelación matemática de problemas de Reconocimiento de Patrones para ciencias poco formalizadas, es sólo un punto de partida.

¿Teoría vs Aplicaciones? No hay razones para plantear una dicotomía entre un tipo y otro de investigación, por el contrario ambas pueden y deben retroalimentarse Quizás un problema a precisar es qué debe considerarse una investigación aplicada y qué un trabajo profesional Si partimos del problema a resolver y no lo distorsionamos para meterlo dentro de ciertos modelos matemáticos preconcebidos, tenemos la posibilidad de que aparezcan problemas teóricos incluso de muy alta complejidad Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

Un levantamiento de lo que se hace, quién lo hace y cuáles son las perspectivas de desarrollo futuro, es una información de un alto valor práctico en cualquier país Análogamente, un inventario de lo que se necesita, de lo que se podría hacer y una proyección de lo que se necesitaría, es también una información altamente valiosa La combinación de estas dos informaciones podría producir un cambio cualitativo sustancial en el desarrollo a mediano y largo plazo en el país Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

Una dinámica que combine el acceso a la información y experiencia mundiales, la posibilidad de realizar el proceso de modelación matemática de los problemas aplicados, podría ser de alta utilidad para el desarrollo de las investigaciones teóricas y las aplicadas y también de la formación de nuevos especialistas en el país Las investigaciones aplicadas pueden constituir una fuente inapreciable de problemas teóricos En nuestra experiencia la conjugación de estos dos tipos de investigaciones es la garantía de resolver nuestros problemas concretos aplicados y, simultáneamente, del desarrollo de la ciencia y la técnica en el país Bases de datos con millones de campos y tablas , millones de objetos (records) y un tamaño multigigabyte y terabytes (1012 bytes). Un gran número de campos crea problemas en término del incremento de la magnitud del espacio de búsqueda para el modelo de inducción de una manera exponencial explosiva. Cuando un algoritmo busca los mejores parámetros para un modelo particular usando un conjunto limitado de datos de la muestra, se puede sobreajustar la muestra, resultando un desenvolvimiento malo del modelo en la prueba de los datos. Estrategias estadísticas sofisticadas para identificar las variables ocultas y dependencias. Los datos no estacionarios pueden hacer inválidos los patrones descubiertos previamente. Además las magnitudes de las variables en una aplicación dada pueden ser modificadas, eliminadas o aumentadas con nuevas medidas. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratar los cambios como una oportunidad para descubrir buscando sólo los patrones de cambios. En muchas aplicaciones es importante hacer descubrimientos que sean fácilmente entendibles por los humanos. Las posibles soluciones incluyen representaciones gráficas, generación de lenguaje natural y técnicas de visualización de los datos Deben integrarse con sistemas manejadores de Bases de Datos, interacción con tabuladores electrónicos, etc

MUCHAS GRACIAS POR SU ATENCIÓN ¿Alguna pregunta?