Angel Navia Vázquez MLG/

Slides:



Advertisements
Presentaciones similares
Juan F. Velazquez Mayra E. Beltran Jaime Lopez
Advertisements

Metodología de programación paralela
Subrutinas y Funciones Leonel Morales Díaz Ingeniería Simple Disponible en: Copyright.
Windows Presentation Foundation
Productividad personal Estar al día Colaboración Limitada.
Single Table Inheritance
Subredes clase B Red subredes y 1000 host c/u 1.
2003 HYPACK MAX Training Seminar1 Sample Case la Entrada manual de Datos de la Línea de la costa El Metodo de MANUAL –DIG Objectos –Boya (Roja)
PIPELINING - INTRODUCCION
ARQUITECTURA DE COMPUTADORES - PIPELINING
Programación con OpenMP* Intel Software College. Copyright © 2006, Intel Corporation. All rights reserved. Intel and the Intel logo are trademarks or.
1 Las Nuevas Arquitecturas Multicore. 2 Una Nueva Revolución está aquí Recordando: El nuevo Procesador Pentium de Intel revolucionará la industria de.
Grupo de Repositorios Institucionales y Visibilidad de la Ciencia Institutional Repositories and Science Visibility Group Red Alfa/Biblioteca Babel 3ª
generic constraint development environment
ESTAMOS YOIGUIZADOS. La YOIGUIZACIÓN: NUESTRO MODELO El cliente optimiza su gasto para pagar sólo por lo que usa, con mucha libertad para construir su.
Ensayo de Rendimiento DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES.
Redes de Datos Fundamentos Básicos. Telecomunicaciones y Redes de Datos Las telecomunicaciones hoy La convergencia entre telecomunicaciones e informática.
Eurowin 2013 Gestión de Proyectos y Obras
LA DEMANDA Y LA OFERTA.
Lenguajes de Programación Soluciones a pruebas de nivel
1 desde el Dpt Psicología Básica UJI. en colaboración Servicio Radiología de ERESA Y en coordinación con el grupo de CAMBRIDGE dirigido por Friedemann.
LA DEMANDA Y LA OFERTA. 1.Los mercados y la competencia OFERTA y DEMANDA son las dos palabras más utilizadas por los economistas. Oferta y demanda son.
Conectores gramaticales
COMO USAR LA PC POR PIMERA VEZ SARAITH MACHORRO PACHECO 28 JOSE ALBERTO LOPEZ RAMIREZ 27 CAPACITACION DE INFORMATICA GRUPO 302.
Examen FRAD Empezar. 1. ¿Cu á l es la diferencia entre FRAD y FRANAR? 1.FRAD son las siglas de un grupo de trabajo de OCLC y FRANAR las siglas de un grupo.
ECONOMIA EMPRESARIAL NOMBRE: Edi Alejandro Ruiz Nango
EPI-Control Programa para la Vigilancia Epidemiológica Hospitalaria Ampliada y el Control de Infecciones Versión 7.0 Contacto Teléfono.
Comité de Elche 2011 Una propuesta de Construcción de Ciudadanía Crítica, Comprometida y Participativa.
ERASMO AGUILAR SIG FARQ UNI
MATLAB.
Visual basic Curso de Habilitación Laboral IV. ¿Qué es Visual Basic Visual Basic es uno de los tantos lenguajes de programación que podemos encontrar.
Un constructor es un método que inicia un objeto inmediatamente después de su creación. De esta forma nos evitamos el tener que iniciar las variables.
Avances de Microsoft PowerPoint y Office
Análisis de la Dinámica no Lineal y Cambios de Complejidad en
PROYECTO FIN DE CARRERA
TALLER BÁSICO DE VISUAL BASIC Por: Juan Alfredo Garduño Arias.
CONSTRUCCIÓN Y ARQUITECTURA DEL SOFTWARE
A.E.D. Tema 0-2. Algorítmica Programa de teoría Parte I. Estructuras de Datos. 1. Abstracciones y especificaciones. 2. Conjuntos y diccionarios. 3. Representación.
SEMEJANZA APM.
TEORÍAS DE LA ENSEÑANZA- APRENDIZAJE EN LÍNEA OBJETIVOS Poner en común las teorías personales sobre la enseñanza-aprendizaje A partir de lo anterior,
El BLOCK DE APUNTES – ADIESTRAMIENTO FUERA DEL AULA los acompañará diariamente | tendrá un formato definido por la cátedra, acordado con los alumnos |
Prof. Fidel Gonzales Quincho
Pilas Laboratorio de Programación II. Definición de pila Consideremos una pila de platos: Si se añade un plato a la pila, los que están más abajo son.
Sistemas de ventilación y aire acondicionado
Informática Extracurricular Universidad Nacional Arturo Jauretche.
Cuanto si puede ahorrar de energía
Ciclo de jornadas sobre la importancia de la Formación en Seguridad Vial en España Evolución de la siniestralidad tras la implantación del permiso por.
Superintendencia de Electricidad y Combustibles Ranking 2007 de Calidad de Servicio de las Empresas de Distribución de Electricidad. Octubre 2007.
¿Qué tipo de informes personalizados pueden obtenerse?
LOGO V IVAS A CTIVAS P RODUCTIVAS UNIÓN GUATEMALTECA.
Sistema de Información INDICES 2011
2. En la figura siguiente se representan los mapas de densidades provinciales de población correspondientes a 1900 y Analícelos y responda a las.
Simulación.
Crecimiento del prescolar Dra. Beatriz Dam P. Médico cirujano. Especialista en Puericultura y pediatría. Especialista en Higiene mental Infanto Juvenil.
Tecnológica, posibilidad tecnológica de provisión sobre múltiples redes tanto de los servicios tradicionales de comunicaciones así como de sus innovaciones.
Animaciones en la Web Animación GIF Animación Shockwave Flash
Características de películas en B/N
Tema 5 – Relaciones Laborales
O Skydrive o Características Características o Privacidad Privacidad o App App o Ventajas Ventajas o Desventajas Desventajas o Movie Maker Movie Maker.
El poder y la velocidad de una imagen digital
Procedimientos Almacenados y Disparadores
CAPACITACIÓN DOCENTE Utilización de las Netbooks del Programa Conectar Igualdad Situación Institucional.
GRAFICACIÓN POR COMPUTADORA
Introducción al VHDL VHDL orientado a la síntesis de circuitos en Dispositivo Lógicos Programables.
Copyright © 2008, Solid Quality Mentors. All rights reserved. PerformancePoint Server Implementar una solución PPS-Monitoring Pablo Ahumada Koschitzky.
BranchCache Paulo Dias IT Pro Evangelist Microsoft Fernando Guillot IT Pro Evangelist Microsoft
ESTRUCTURAS DE CONTROL
Circuitos Digitales II
Introducción Program Slicing Pattern Matching Problema: Pérdida de precisión Solución Conclusiones Peculiaridades de Erlang Erlang Dependence Graph.
Funciones de Transferencia Presentado por: Niyireth Villabón Molina. Nora Juliana Solanilla V. Jesús Albeiro Agudelo.
Transcripción de la presentación:

Angel Navia Vázquez MLG/18-02-2013 Deep Learning Feature Learning Representation Learning Generative Learning Angel Navia Vázquez MLG/18-02-2013

Contenido Sobre las características Sobre las arquitecturas Cronología Deep Learning Casos de éxito Deep Belief Nets (Restricted) Boltzman Machines Autoencoders Ejemplos y aplicaciones

Sobre las características Esquema habitual: extracción manual de características (feature engineering) + ML (clasificación, agrupamiento, estimación, …) La calidad de las características es clave en las prestaciones Muchos métodos ML fracasan en la extracción automática de buenas características Métodos ML vs. características. Ej Caltech-256 Object Category Dataset Multi Kernel Learning sólo mejora levemente al promediado de características Son las características las que hacen la mayor aportación

Sobre las arquitecturas Profundidad 2 (SVMs, RBF, MLP(2)) es suficiente en muchos casos, pero puede ser necesario un número excesivo de nodos (crecimiento exponencial para algunas familias) La existencia de una representación profunda y compacta indica existencia de una estructura interna que permitirá una muy buena generalización Cerebro (cortex visual) tiene esta estructura: jerárquico con diferentes niveles de abstracción, pasando de características más simples a más complejas Antes de 2006 no funcionaba el entrenamiento con capas profundas, hasta el desarrollo de las Deep Belief Networks (DBN), Hinton.

Sobre las arquitecturas (II) En general: Se usa aprendizaje no supervisado de representaciones para un pre-entrenamiento de cada capa, y acumulación de capas Aprendizaje supervisado para ajuste fino de todas las capas (ocultas y de salida para predicciones) Se puede demostrar que cada vez que se añade una capa de características se mejora una cota inferior variacional sobre la log probabilidad de los datos de entrenamiento.

Cronología Hinton, G. E., Osindero, S. and Teh, Y., A fast learning algorithm for deep belief nets Neural Computation 18:1527-1554, 2006 Uso de RBMs para el entrenamiento de capas internas Yoshua Bengio, Pascal Lamblin, Dan Popovici and Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 153-160, MIT Press, 2007 Comparación de RBMs y autoencoders. Marc’Aurelio Ranzato, Christopher Poultney, Sumit Chopra and Yann LeCun Efficient Learning of Sparse Representations with an Energy-Based Model, in J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007 Uso de sparse autoencoder en una estructura convolucional Bengio, Y. Learning deep architectures for {AI}. Foundations and Trends in Machine Learning, vol 2, no 1 , 2009. Yoshua Bengio, Aaron Courville, Pascal Vincent. Representation Learning: A Review and New Perspectives. (draft?)

Ejemplos de éxito DL Reconocimiento de voz. Microsoft usa DL en su MAVIS (Microsoft Audio Video Indexing Service), reducción de un 30% el error. Procesamiento musical (transcripción polifónica): mejora entre 5% y 30% Dígitos manuscritos (MNIST): 0.27% vs SVM 1.4% Reconocimiento de objetos en imágenes naturales: 26.1% -> 15.3% Procesamiento Lenguaje Natural: SENNA system (NEC labs) comparte tareas como POS tagging, chunking, NER, semantic role labeling y syntactic parsing, mejorando estado del arte con coste computacional menor. También en word sense disambiguation (acierto de 67.8% -> 70.2%) y mejora estado del arte en sentiment analysis.

Deep Belief Nets (DBN) Hinton, Osindero, Teh 2006 Algoritmo rápido, “greedy” y escalable que usa priors complementarios para entrenar una a una las capas ocultas de una red profunda. Es no supervisado, pero puede aprender un modelo {datos, etiquetas}. Uso para inicializar la red y luego hacer un ajuste más fino de los pesos Aplicación: una red de 3 capas produce un modelo generativo de la distribución conjunta de dígitos manuscritos y sus etiquetas que es más preciso que el mejor modelo discriminativo disponible (SVMs). 2000 top-level neurons 500 neurons 28 x 28 pixel image 10 label neurons Las dos últimas capas forman una memoria asociativa (Restricted Boltzman Machine, RBM). Las demás capas forman un DAG (Belief network ) DEMO: http://www.cs.toronto.edu/~hinton/adi/index.htm

Boltzman Machine Un tipo de red neuronal recurrente (Hinton, Sejnowski, 1986) Las unidades son de dos tipos: visibles y ocultas Análogas a las redes de Hopfield, pero las unidades son estocásticas Cuando no tienen restricciones en la conectividad son difíciles de manejar y de utilidad limitada El entrenamiento es mediante ascenso de gradiente en log-verosimilitud de los datos observados Problema: dicho entrenamiento deja de funcionar para redes mayores que ejemplos triviales Solución: RBM (restricted Boltzman Machine) 1

Restricted Boltzmann machine Red neuronal generativa estocástica que puede aprender una distribución de probabilidad asociada a sus entradas No permite conexiones intracapa (tanto en las visibles como en las ocultas): son un grafo bipartito Permiten acumular múltiples capas, usando los nodos ocultos como entrada para la siguiente capa Hay extensiones para valores reales en vez de binarios El algoritmo de entrenamiento es la divergencia de contraste (Contrastive Divergence, CD), una forma de Gibbs sampling dentro de un procedimiento de descenso según gradiente Pesos -> Energía -> Probabilidad (log Prob es una función lineal de los pesos). El mapa de energía tiene valles, y si se usan etiquetas, cada clase tendrá su valle. Función de energía: ocultas i j visibles

Aprendizaje Máxima Verosimilitud en RBM t = 0 t = 1 t = 2 t = infinity (100) Comenzar con un vector de entrenamiento en las unidades visibles Alternar entre actualizar todas las unidades ocultas en paralelo y actualizar todas las unidades visibles en paralelo

Versión rápida Comenzar con un vector de entrenamiento en las unidades visibles. Actualizar todas las unidades ocultas en paralelo Actualizar todas las unidades visibles para obtener una “reconstrucción”. Actualizar las ocultas de nuevo. j j i i t = 0 t = 1 data reconstrucción No sigue el gradiente de la log verosimilitud pero funciona bien. Sigue de forma aproximada el gradiente de otra función objetivo (Contrastive Divergence) (Carreira-Perpinan & Hinton, 2005).

Entrenando una red profunda En primer lugar, entrenar una capa de características que reciben entradas directamente de los píxeles Luego tomar activaciones de las características entrenadas como si fueran píxeles y aprender una segunda capa de características. Finalmente, usar backpropagation para un ajuste fino de los pesos: Tiene sentido cuando las capas intermedias están preentrenadas, de otro modo no produce resultados La información de las etiquetas de clase se usa para este ajuste fino, no necesita redescubrir características, sólo las refina. Este esquema funciona bien aún cuando buena parte de los datos son no etiquetados También se puede usar “contrastive wake-sleep” para el ajuste fino.

Variantes Deep Belief Network (Hinton et al., 2006): la capa superior es un RBM y las inferiores son “Belief networks” dirigidas y sigmoidales. Deep Autoencoder (Salakhutdinov, Hinton 2006): apilar RBMs o autoencoders. Deep Boltzman Machine (Salakhutdinov, Hinton 2009): se combinan RBM en una DBM desdoblando pesos y luego se ajusta por ML aproximada. Free energy function (Ngiam et al. 2011): construcción iterativa sin variables latentes explícitas.

Ejemplos Deep autoencoders RBM para filtrado colaborativo (Netflix) Visualización documentos Hash documentos Recuperación información RBM para filtrado colaborativo (Netflix) Generación musical con RBM Modelado de estilos de movimiento Transfer Learning

Deep autoencoders Arquitectura interesante para reducción de dimensionalidad Imposible optimizar usando backprop: Si iniciamos con pesos pequeños, los gradientes se diluyen Con pesos grandes, fijamos un mínimo local del que es muy difícil salr Factible si entrenamos 4 pilas de RBMs Las “desenrollamos” Ajustamos fino con backprop

Ejemplo con vectores de documentos LSI

Document retrieval El ruido inyectado fuerza representaciones binarias Se obtiene una función hash aprendida de los datos Se puede usar para encontrar documentos similares (“bit-flip”) Mejores curvas P-R que TF-IDF y es mejor y 50 veces más rápido que “locality sensitive hashing”

RBM para filtrado colaborativo (Netflix) Cada usuario es un caso de entrenamiento, definido por el vector de ratings. Hay una unidad visible por película y 100 ocultas binarias (5-way softmax) Una RBM para cada usuario, sólo tiene unidades visibles de las películas que ese usuario ha puntuado Todas las RBM comparten pesos. El grupo ganador ha usado el promedio de 100 modelos RBM y de factorización de matrices.

Generación musical Partimos de un fichero MIDI y se discretiza el tiempo en fracciones 1/32 Se fragmenta en trozos de 64 notas Se alimenta un RBM de tamaño N-800-400-2 Las dos unidades finales se sincronizan con las coordenadas (x,y) del ratón. http://www.youtube.com/watch?v=_Gpk64QC22E (Generation min. 1:38)

Modelado de estilos de movimiento RBM factorizada y condicionada Se entrena con el sujeto 137 de CMU Motion Capture Database: 10 estilos: cat, chicken, dinosaur, drunk, gangly, graceful, normal, old-man, sexy and strong. Las variables de estilo permiten controlar el resultado del modelo DEMO: http://www.uoguelph.ca/~gwtaylor/publications/icml2009/

Transfer learning Explota información común entre diferentes tareas sobre los mismos datos Transfer Learning Challenges 2011: ambos los ganaron algoritmos de DL

Conclusiones DL parece funcionar muy bien en determinados problemas (manifold) La clave es la extracción no supervisada de características (multicapa) y el uso de etiquetas para un ajuste fino La compartición de pesos y el promediado de modelos es beneficioso (boosting)

Gracias!