La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería de datos y sus tendencias actuales

Presentaciones similares


Presentación del tema: "Minería de datos y sus tendencias actuales"— Transcripción de la presentación:

1 Minería de datos y sus tendencias actuales
Dr. Rafael Bello Pérez Departamento de Ciencias de la Computación Universidad Central de Las Villas, Cuba Tomando de conferencias de Dr. Francisco Herrera, Universidad de Granada, España.

2 Construcción de sistemas inteligentes: Extracción de conocimiento
Sistemas Expertos convencionales: (algunos) Sistemas Expertos de segunda generación: Experiencia Reglas Ingeniero de conocimiento Experiencia Reglas Algoritmo de aprendizage

3 Comentarios Finales Gracias!!! El Roto
El Roto Viñeta de El Roto 3 de diciembre de 2013 Gracias!!!

4 Que hacer con los Datos Minería de Datos Somos Ricos en Datos, pero
Pobres en información Data mining- buscar conocimiento (patrones interesantes) en los datos.

5 Minería de Datos La Minería de Datos es una forma de aprender del pasado para tomar mejores decisiones en el futuro Anteriormente hemos visto una definición de md simplificada en cuatro etapas. En esta sección veremos la md como un proceso técnico

6 Nuevas necesidades de análisis datos
¿Qué es la Minería de Datos? ¿Para qué se utiliza el ‘conocimiento’ obtenido? hacer predicciones sobre nuevos datos explicar los datos existentes resumir una base de datos masiva para facilitar la toma de decisiones visualizar datos altamente dimensionales, extrayendo estructura local simplificada, … Nuevas necesidades de análisis datos

7 Minería de Datos. Áreas de aplicación
Aplicaciones empresariales / industriales Toma de decisiones en banca, seguros, finanzas, marketing, control de calidad, retención de clientes, predicción, políticas de acción (sanidad, etc.), … Aplicaciones en investigación científica Medicina, astronomía, geografía, genética, bioquímica, meteorología, etc. Aplicaciones en Internet/Redes Sociales Minería de textos y de datos en la web

8 Sistemas inteligentes para la toma de decisiones.
Los Sistemas de ayuda a la decisión (Decision Support Systems, DSS) son sistemas usados para analizar los datos y crear reportes. Ellos apoyan la toma de decisiones mediante medios para obtener la información precisa cuando se necesita. Un DSS exitoso tiene que brindar al usuario acceso flexible a los datos y herramientas para manipular y presentar los datos en cualquier clase de reporte.

9 Evolución de los DSS. DBMS Métodos Estadísticos
Investigación de Operaciones Datos Modelos Sistema de ayuda a la decisión.

10 Evolución de los DSS. Continuación.
DBMS Métodos Estadísticos Investigación de Operaciones Inteligencia Artificial Datos y Modelos Conocimiento Sistema inteligente de ayuda a la decisión.

11 Evolución de los DSS. Continuación.
DBMS Métodos Estadísticos Investigación de Operaciones Inteligencia Artificial Datos y Modelos Conocimiento Minería de datos Sistema inteligente de ayuda a la decisión con aprendizaje.

12 DEFINICIONES PARA EL TERMINO
El descubrimiento de conocimiento es la extracción no trivial de información implícita, desconocida previamente y potencialmente útil a partir de los datos. La minería de datos es el proceso de escudriñar a través de enormes cantidades de datos, y mediante incansables e implacables búsquedas poder encontrar pequeñas pepitas de oro en una montaña de escoria. La minería de datos ayuda a examinar vastas cantidades de información buscando patrones valiosos en los datos. La minería de datos es el proceso de descubrir patrones insospechados.

13 Etapas en un proceso de KDD
¿Qué es la Minería de Datos? Etapas en un proceso de KDD Minería de Datos Informalmente se asocia Minería de Datos con KDD

14 Descubrimiento de conocimiento
Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento. Conocimiento Patrones/ Modelos Datos Preprocesados Interpretación Evaluación Datos para Análisis Minería de Datos Preprocesamiento Anteriormente hemos visto una definición de md simplificada en cuatro etapas. En esta sección veremos la md como un proceso técnico Selección Problema/ Datos Brutos

15 Preprocesamiento de Datos
Granulación de la información Nuevo!

16 Descubrimiento de conocimiento
Procesamiento de datos: Disponer de datos de calidad previos al uso de algoritmos de extracción de conocimiento. Conocimiento Patrones/ Modelos Datos Preprocesados Interpretación Evaluación Datos para Análisis Minería de Datos Preprocesamiento Anteriormente hemos visto una definición de md simplificada en cuatro etapas. En esta sección veremos la md como un proceso técnico Selección Problema/ Datos Brutos

17 TIPO DE CONOCIMIENTO A DESCUBRIR
Clasificación. Creación de conceptos. Asociación. Relaciones funcionales. Dependencias funcionales. Relaciones causales.

18 CLASIFICACION Reglas que particionan los datos en grupos disjuntos.
Clientes con edad entre 24 y 45 años y con ingreso superior a los USD anuales Deben responder afirmativamente a esta oferta. Si (24  Edad 45) and (Salario40000) entonces Respuesta=Si.

19 APRENDIZAJE DE CONCEPTOS
Un concepto es una descripción de algún subconjunto de objetos o eventos definidos en un conjunto mayor. Buscar a través de un espacio predefinido de hipótesis potenciales aquellas que mejor encaja al conjunto de entrenamiento.

20 REGLAS DE ASOCIACION La esencia es buscar patrones donde la presencia de alguna cosa implique la presencia de otra. Una regla de asociación es una implicación de la forma X  Ij, (c) Por ejemplo, el 90 por ciento de las operaciones de compra de pan y mantequilla también incluye leche. Pan y Mantequilla  Leche : 90.

21 RELACIONES FUNCIONALES
Una relación funcional describe el valor de uno o más atributos como función de otros atributos. Por ejemplo, y2x+3z.

22 DEPENDENCIAS FUNCIONALES
Dados dos conjuntos de atributos X e Y en una base de datos, una dependencia funcional (denotada por X  Y) enuncia que cualquier par de tuplos t1 y t2, si t1(X)t2(X) entonces t1(Y)t2(Y). Ejemplo: Código del curso  nombre del curso.

23 SECUENCIAS TEMPORALES
Reglas cuyos antecedentes y consecuentes contienen literales que son relacionadas a través de componentes temporales. Ejemplos: Cuando las acciones de la compañía A crecen dos días consecutivos y los de la compañía B no caen durante ese período, entonces las acciones de la compañía C crecerán el siguiente día. La compra de ropa va seguida por la compra de zapatos.

24 Métodos de Minería de Datos
Métodos predictivos Se utilizan algunas variables para predecir valores desconocidos de otras variables Métodos descriptivos Encuentran patrones interpretables que describen los datos

25 Aprendizaje Supervisado vs No Supervisado
Aprendizaje supervisado: Aprende, a partir de un conjunto de instancias pre-etiquetadas un método para predecir (Ejemplo, clasificación: la clase a que pertenece una nueva instancia)

26 APRENDIZAJE A PARTIR DE EJEMPLOS
Conjunto de objetos (instancias): ejemplos de problemas resueltos. Objetos: descritos mediante un conjunto de rasgos. CO = Conjunto de entrenamiento + Conjunto de control. Capacidad de generalización: resolver problema no vistos antes.

27 Sistema de Información
Definición: (Sistema de Información) Sea un conjunto de atributos A=A1, A2,...,An y un conjunto U no vacío llamado universo de ejemplos (objetos, entidades, situaciones o estados, etc.) descritos usando los atributos Ai. Al par (U,A) se le denomina Sistema de información. Definición: (Sistema de decisión) Si a cada elemento de U se le agrega un nuevo atributo d llamado decisión indicando la decisión tomada en ese estado o situación entonces se obtiene un Sistema de decisión (U, A{d}, donde dA).

28 APRENDIZAJE INDUCTIVO.
Genera conocimiento formulado en forma de descripciones intencionales a partir de ejemplos. CE((x, f(x))) ⇒ función h que aproxima f.

29 APRENDIZAJE INDUCTIVO: formas de la función h.
CE((x, f(x))) ⇒ función h que aproxima f. Expresión matemática (relación funcional). Conjunto de reglas. Árbol de decisión Red neuronal artificial.

30 Clasificación Clasificación
El problema fundamental de la clasificación está directamente relacionado con la separabilidad de las clases.

31 Regresión El problema fundamental de la predicción está en modelar la relación entre las variables de estado para obtener el valor de la variable de control.

32 METODOS de Clasificación
Se pueden construir distintos tipos de clasificadores: Modelos Interpretables: Árboles de decisión Reglas (p.ej. listas de decisión) Modelos no interpretables: Clasificadores basados en casos (k-NN) Redes neuronales Redes bayesianas SVMs (Support Vector Machines)

33 EJEMPLO DE CONJUNTO DE ENTRENAMIENTO
COLOR TAMANO PELAMBRE PELIGROSO Negro Grande largo + Carmelita corto Medio - Pequeño

34 EJEMPLOS DE REGLAS INDUCIDAS POR ID3
If Tamaño es Grande then Peligroso. If Tamaño es Medio y Color es Negro then NO Peligroso. If Tamaño es Pequeño y Color es Negro then NO Peligroso. If Tamaño es Medio y Color es Carmelita y Pelambre es Corto then Peligroso. If Tamaño es Medio y Color es Carmelita y Pelambre es Largo then NO Peligroso. If Tamaño es Pequeño y Color es Carmelita y Pelambre es Corto then NO Peligroso. If Tamaño es Pequeño y Color es Carmelita y Pelambre es Largo then Peligroso.

35 Un árbol de Decisión no blue diesel 3-6 Japan 3. yes red 6-10 2. white
Germany 1. Easy to sell Colour Engine Age Country Se quiere predecir la propiedad de Easy to sell para nuevos ejemplos basado en los rasgos’ Country, Age, Engine and Colour.

36 Usando los AD MEJOR: cada camino del AD una regla
Cada fila de la matriz una regla MEJOR: cada camino del AD una regla Author Thread Length Reads 1 known new short true 2 unknown long IF (Author = known) and (Thread = new) and (Length = short) THEN (Reads = true) IF (Author = unknown) and (Thread = new) and (Length = long) IF (Author = known) THEN (Reads = true) IF (Author = unknown) and (Thread = new) IF (Author = unknown) and (Thread = old) THEN (Reads = false)

37 Esencia del aprendizaje perezoso
Un nuevo problema se puede resolver Recuperando problemas similares adaptando las soluciones recuperadas Problemas similares tienen soluciones similares P ? S X © The Robert Gordon University, Aberdeen

38 Ejemplo de Clasificador: k-NN

39 Solución de problemas usando prototipos
P1: Calcular la similaridad entre el nuevo problema y cada objeto. P2: Encontrar el conjunto de objetos más similares al problema. P3: Calcular el valor de salida utilizando los valores del rasgo objetivo de los objetos recuperados.

40 Construcción de prototipos
Procedimiento para construir prototipos (se puede clasificar como de remplazo, reducción, y no-determinístico) ¿Cómo construir clases de similaridad? Clase de Similaridad Relaciones de Similaridad prototipos

41 Nuevos modelos de aprendizaje: según rasgo objetivo
Clasificación multi-etiqueta. Clasificación jerárquica. Clasificación ordinal.

42 Nuevos modelos de aprendizaje: según rasgos predictores
Dominios discretos. Datos mezclados. Nuevos enfoques: Multi-way. Datos desbalanceados. Multi-instances learning. Texto.

43 Aprendizaje Supervisado vs No Supervisado
Aprendizaje no supervisado: No hay conocimiento a priori sobre el problema, no hay instancias etiquetadas, no hay supervisión sobre el procedimiento. (Ejemplo, clustering: Encuentra un agrupamiento de instancias “natural” dado un conjunto de instancias no etiquetadas)

44 Agrupamiento Hay problemas en los que deseamos agrupar las instancias creando clusters de similares características Ej. Segmentación de clientes de una empresa

45 Agrupamiento Objetivo Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos [clusters].

46 Agrupamiento. Niveles k = 2 k = 6 k = 4
La decisión del número de clusters es uno de los retos en agrupamiento

47 Descubrimiento de Asociaciones
Descubrimiento de reglas de asociación: Búsqueda de patrones frecuentes, asociaciones, correlaciones, o estructuras causales entre conjuntos de artículos u objetos (datos) a partir de bases de datos transaccionales, relacionales y otros conjuntos de datos Búsqueda de secuencias o patrones temporales Aplicaciones: análisis de cestas de la compra (Market Basket analysis) diseño de catálogos,… ¿Qué hay en la cesta? Libros de Jazz ¿Qué podría haber en la cesta? El último CD de Jazz ¿Cómo motivar al cliente a comprar los artículos que es probable que le gusten?

48 Descubrimiento de asociaciones Market Basket Analysis
Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

49 Sumarización lingüística de datos (Linguistic Data Summaries, LDS )
LDS: propuesta por Yager y desarrollada por Kacprzyk-Yager. Esencia de LDS: Datos numéricos (salarios, costos, edad,…) pueden ser resumidos lingüísticamente con respecto a un conjunto de atributos seleccionados mediante proposiciones. Ejemplo: La mayoría de los jóvenes y altamente calificados empleados son bien pagados. Yager, R.R.: A new approach to the summarization of data. Information Sciences28, 69– R.R. Yager R.R.: On linguistic summaries of data. InW. Frawley and G. Piatetsky-Shapiro (Eds.): Knowledge Discovery in Databases. AAAI/MIT Press, pp , 1991. J. Kacprzyk and R.R. Yager. Linguistic summaries of data using fuzzy logic. International Journal of General Systems, 30, , 2001.

50 Sumarización lingüística de datos EJEMPLO 1
Datos sobre la gestión de una empresa. CP: Costo de producción (en miles de pesos). VI: Volumen de inventarios (en miles de pesos) VP: Valor de la producción (en millones de pesos) PH: Productividad por hombre (pesos por hombre/día) El director: Que hacer para mejorar la productividad de la empresa?

51 Sumarización lingüística de datos EJEMPLO 1. Continuación.
Datos sobre la gestión de una empresa: CP: Costo de producción; VI: Volumen de inventarios; VP: 3: Valor de la producción; PH: Productividad por hombre. Sumarización lingüística: La mayoría de las empresas con un alto inventario tienen una baja productividad.

52 Herramientas, Lenguajes, Kaggle
KNIME (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. KNIME está desarrollado sobre la plataforma Eclipse y programado, esencialmente, en java. Fue desarrollado originalmente en el departamento de bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo la supervisión del profesor Michael Berthold. En la actualidad, la empresa KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de prestar servicios de formación y consultoría.

53 Weka Herramientas, Lenguajes, Kaggle
The University of Waikato, New Zealand Machine learning software in Java implementation

54 KEEL Herramientas, Lenguajes, Kaggle University of Granada
Machine learning software in Java implementation

55 datos estructurados y datos no estructurados, imágenes, vídeos …
Muchas y nuevas fuentes de datos There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure. datos estructurados y datos no estructurados, imágenes, vídeos …

56 Datos  Economía del conocimiento
Datos son el centro de la futura sociedad de la economía del conocimiento

57 Data Mining: nueva tendencia  Big Data
Explorar grandes volúmenes de datos para extraer información útil para dar respuestas rápidas en tiempo real. Big Data parte grandes volúmenes de datos, heterogéneos (tipos y dimensiones diversas), de fuentes autónomas con control distribuido y descentralizado, y trata de explorar relaciones complejas y dinámicas entre los datos. Data Mining with Big Data. Xindong Wu, Xingquan Zhu. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 1, JANUARY 2014

58 Data Mining y Big Data: un ejemplo
Representación de una persona en Salud. Genero, Edad, Historia medica familiar, Rayos X (imágenes), Tag (videos), Código genético (imágenes y secuencias de Microarray DNA), + Cada centro de salud tiene su propio esquema de representación. Como agregar la información heterogénea desde diferentes fuentes? Data Mining with Big Data. Xindong Wu, Xingquan Zhu. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 26, NO. 1, JANUARY 2014

59 Big Data: su inicio Adaptaciones de las técnicas de descubrimiento de conocimiento a los requerimientos de BD. On the use of MapReduce for imbalanced big data using Random Forest. Sara del Río, Victoria López, José Manuel Benítez, Francisco Herrera. Information Sciences 285 (2014) 112–137

60 ¿Qué es Big Data? No hay una definición estándar
Big data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales “Big Data” son datos cuyo volumen, diversidad y complejidad requieren nueva arquitectura, técnicas, algoritmos y análisis para gestionar y extraer valor y conocimiento oculto en ellos ... There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.

61 BD BD obliga a: Trabajar con mucha informacion privada y romper con los enfoques clasicos de seguridad de los datos. Manipular enormes cantidades de datos no estructurados. Mucho intercambio y cooperacion internacional. Romper con el enfoque relacional de las bases de datos. Buscar nuevas alternativas para el procesamiento paralelo. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data C.L. Philip Chen, Chun-Yang Zhang, Information Sciences 275 (2014) 314–347 Richard T. Kouzes, Gordon A. Anderson, Stephen T. Elbert, Ian Gorton, Deborah K. Gracio, The changing paradigm of data-intensive computing, Computer 42 (1) (2009) 26–34.

62 ¿Qué es Big Data? Las 3 V’s de Big Data Variedad Volumen Velocidad
There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.

63 ¿Qué es Big Data? 3 V’s de Big Data
1ª:Volumen El volumen de datos crece exponencialmente Crecimiento x 44 de 2009 a 2020 De 0.8 zettabytes a 35ZB There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure. Crecimiento exponencial en los datos generados/almacenados

64 ¿Qué es Big Data? 3 V’s de Big Data
2ª:Velocidad Los DATOS se generan muy rápido y necesitan ser procesados rápidamente Online Data Analytics Decisiones tardías  oportunidades perdidas A diferencia del clásico data warehouses que generalmente “almacena” data, big data es más dinámico, las decisiones tomadas usando BD pueden afectar los próximos datos. Ejemplos: E-Promociones: Basadas en la posición actual e historial de compra  envío de promociones en el momento de comercios cercanos a la posición Monitorización/vigilancia sanitaria: Monitorización sensorial de las actividades del cuerpo  cualquier medida anormal requiere una reacción inmediata There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.

65 ¿Qué es Big Data? 3 V’s de Big Data
3ª:Variedad Varios formatos y estructuras: Texto, numéricos, imágenes, audio, video, secuencias, series temporales … Una sola aplicación puede generar muchos tipos de datos There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure. Extracción de conocimiento  Todos estos tipos de datos necesitan ser analizados conjuntamente

66 ¿Qué es Big Data? 4ª V Veracidad 4ªV Veracidad
There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure.

67 ¿Qué es Big Data? 5 V’s --> Valor 5ªV = Valor Aproximaciones
y tecnologías innovativas There are mainly two approaches: structure based clustering and OLAP-style graph aggregation. Structure based clustering includes, for example, normalized cuts by Shi and Malik, modularity by Newman and Girvan and Scan by Xu et al.. It only considers structure similarity but ignore the vertex attribute. Therefore, the clusters generated have a rather random distribution of vertex properties within clusters. For the second approach, there is a recent study K-SNAP by Tian et al.. It follows the attributes compatible grouping. As a result, the clusters generated have a rather loose intra-cluster structure. 5ªV = Valor

68 Big Data. Aplicaciones Astronomía Genómica Telefonía
Transacciones de tarjetas de crédito Tráfico en Internet Procesamiento de información WEB

69 Aplicaciones: BBVA Bank

70 Tratamiento computacional
MapReduce: Paradigma de Programación para Big Data (Google) Plataforma Hadoop (Open access) Librería Mahout para Big Data. Otras librerías

71 MapReduce MapReduce Creado por Google (2004)
Escalabilidad de grandes cantidades de datos Exploración 100 TB en 1 50 MB/sec = 23 días Exploración en un clúster de 1000 nodos = 33 minutos Solución  Divide-Y-Vencerás MapReduce Modelo de programación de datos paralela Concepto simple, elegante, extensible para múltiples aplicaciones Creado por Google (2004) Procesa 20 PB de datos por día (2004) Popularizado por el proyecto de codigo abierto Hadoop Usado por Yahoo!, Facebook, Amazon, …

72 MapReduce Características Paralelización automática: Escalabilidad:
Dependiendo del tamaño de ENTRADA DE DATOS se crean mutiples tareas MAP Dependiendo del número de intermedio <clave, valor> particiones  se crean tareas REDUCE Escalabilidad: Funciona sobre cualquier cluster de nodos/procesadores Puede trabajar desde 2 a 10,000 máquinas Transparencia programación Manejo de los fallos de la máquina Gestión de comunicación entre máquina

73 MapReduce MapReduce es el entorno más popular para Big Data
Basado en la estructura Valor-llave. Dos operaciones: Función Map : Procesa bloques de información Función Reduce function: Fusiona los resultados previos de acuerdo a su llave. + Una etapa intermedia de agrupamiento por llave input map Shuffling: group values by keys reduce output map (k, v) → list (k’, v’) reduce (k’, list(v’)) → v’’ (k , v) (k’, v’) k’, list(v’) v’’ J. Dean, S. Ghemawat, MapReduce: Simplified data processing on large clusters, Communications of the ACM 51 (1) (2008)

74 Hadoop Hadoop es una implementación de código abierto del paradigma computacional MapReduce

75 Hadoop Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop Task tracker Task tracker Job tracker Map Reduce Layer Name node HDFS Layer Data node Data node Creado por Doug Cutting (chairman of board of directors of the Apache Software Foundation, 2010)

76 Mahout Cuatro grandes áreas de aplicación Clasificación Sistemas de
Recomendaciones Agrupamiento Asociación

77 Hadoop Mahout MapReduce Decision trees (C4.5, Cart)(MReC4.5) K-Means
¿Qué algoritmos puedo encontrar para Hadoop? Analizamos 10 algoritmos muy conocidos Decision trees (C4.5, Cart)(MReC4.5) K-Means SVM Apriori kNN Naïve Bayes EM (Expectation Maximization) PageRank Adaboost No disponibles MapReduce Palit, I., Reddy, C.K., Scalable and parallel boosting with mapReduce. IEEE TKDE 24 (10), pp (Amazon EC2 cloud, CGL-MapReduce: (modelos iterativos de MapReduce)

78 Algorithms Not Available
Generation 1st Generation 2nd Generation 3nd Generation Examples SAS, R, Weka, SPSS, KEEL Mahout, Pentaho, Cascading Spark, Haloop, GraphLab, Pregel, Giraph, ML over Storm Scalability Vertical Horizontal (over Hadoop) Horizontal (Beyond Hadoop) Algorithms Available Huge collection of algorithms Small subset: sequential logistic regression, linear SVMs, Stochastic Gradient Descendent, k-means clustering, Random forest, etc. Much wider: CGD, ALS, collaborative filtering, kernel SVM, matrix factorization, Gibbs sampling, etc. Algorithms Not Available Practically nothing Vast no.: Kernel SVMs, Multivariate Logistic Regression, Conjugate Gradient Descendent, ALS, etc. Multivariate logistic regression in general form, k-means clustering, etc. – Work in progress to expand the set of available algorithms Fault-Tolerance Single point of failure Most tools are FT, as they are built on top of Hadoop FT: HaLoop, Spark Not FT: Pregel, GraphLab, Giraph

79 Ciencia de Datos Data Science o la Ciencia de Datos incorpora diferentes elementos y se basa en las técnicas y teorías de muchos campos, incluyendo las matemáticas, estadística, ingeniería de datos, reconocimiento de patrones y aprendizaje, computación avanzada, visualización, modelado de la incertidumbre, almacenamiento de datos y la informática de alto rendimiento con el objetivo de extraer el significado de datos y la creación de productos de datos.

80 Ciencia de Datos ¿Qué es un Científico de Datos?
Un científico de datos es un profesional que debe dominar las ciencias matemáticas y  la estadística, acabados conocimientos de programación (y sus múltiples lenguajes), ciencias de la computación y analítica.

81 CIENTIFICO DE DATOS Científico de Datos
Surge como profesión el “Científico de Datos” Científico de Datos Oportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013) Fuente:

82 Demanda de profesionales
Una demanda creciente de profesionales en “Big Data” y “Ciencia de Datos” Oportunidades en Big Data (en España) “Existe una demanda mundial para formar a 4,4 millones de profesionales de la gestión Big Data desde ingenieros, gestores y científicos de datos”, comenta Antón. Sin embargo, “las empresas todavía no ven en el Big Data un modelo de negocio”, lamenta. “Solo se extrae un 1% de los datos disponibles en la red”, añade. “Hace falta formación y concienciación.

83 Big data 3.0 Big Data 3.0: Intelligent
Una combinación de datos, con enormes bases de conocimiento y algoritmos de recopilación de información muy grandes, capaces de alcanzar el nivel de una verdadera inteligencia. Se pueden ver ejemplos pioneros de esto ya: Google Now, Watson, … Big Data 3.0: Intelligent

84 Comentarios Finales Oportunidades en Big Data
Big Data es un área emergente y en expansión. Las posibilidades de desarrollo de algoritmos para nuevos datos, aplicaciones reales … es un nicho de investigación y desarrollo en los próximos años.


Descargar ppt "Minería de datos y sus tendencias actuales"

Presentaciones similares


Anuncios Google