Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Desde Big data a la Analítica de Datos
Estevan Gómez, PhD (c ) UNLP
2
Agenda Una Explosión de Datos
La situación actual y a futuro de BigData Porqué necesitamos soluciones de Big data? Estructura para procesamiento de Big Data Principios de una Estrategia de Datos Exitosa Transformación de la Información en Conocimiento Big Data y las Oportunidades para los DBAs Herramientas Casos de Estudio
3
Una Explosión de Datos Los datos son cada vez más baratos y ubicuos.
Ahora estamos: Digitalizando contenido analógico creado en siglos pasados Recopilando una gran cantidad de nuevos tipos de datos: registros web, dispositivos móviles, sensores, instrumentos, transacciones,etc
4
Qué es y cómo se genera el Big Data?
Big data, macrodatos o datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos
5
La Era de los datos
7
Porqué necesitamos soluciones de Big data
El crecimiento anual de datos es exponencial, y continuará en el futuro. La habilidad de manejar apropiadamente y analizar estos grupos de datos es la clave para el crecimiento y expansión de los negocios
8
Evaluando la necesidad de Big Data
9
Necesidad de usar Big Data
Se requiere la habilidad de manejar Velocidad de datos? La solución involucra datos de: SENSORES Monitoreo de Tráfico Transmisión Multimedia Dispositivos Móviles Análisis Web La tasa de ingreso de datos es alta Se puede esperar del flujo de datos: grandes volúmenes y alta velocidad? Gran cantidad de eventos/elementos El volumen medido esta en Tb’s y Pb’s La solución manejará grandes volúmenes de datos? Data Cleaning y otras actividades de mantenimiento es para gran cantidad de datos?
10
Necesidad de usar Big Data
La Distribución de datos, el movimiento y la migración, involucra multiples Data Centers en diverentes áreas geográficas La solución puede manejar complejidad? Requiere datos como elemento principal, basado en la Nube o Hibrida Rendimiento Escalable Cómo se puede optimizar la solución? Efectiva en Costos Fácil de Operar La solución ideal será aquella que involucre todos los tres factores
11
Desafios de Big Data y como enfrentarlos
12
1 2 3 Recolección de datos Selección de datos Limpieza de Datos
PROCESOS PREVIOS 1 Recolección de datos 2 Selección de datos 3 Limpieza de Datos (Duplicados, nulos, Ruido)
13
Aplicación de Algoritmos
PROCESOS PREVIOS 4 Carga 5 Aplicación de Algoritmos 6 Resultados
14
Tratamiento a Grandes Volúmenes de Datos
Big data Aparecen *Grandes volúmenes de datos cambiantes y complejos *los datos se vuelven inmanejables Administración *No puden ser adecuadamente: Almacenados Administrados y Procesados Por los sistemas tradicionales de bases de datos y sus herramientas de software Soluciones-Big Data Se refiere a las soluciones para: Manejar, procesar, y analizar grandes cantidades de datos Además –Sol- Big Data Incluyen el análisis de datos *Estructurados *Semiestructurados *Multiestructurados
15
Estructura para procesamiento de Big Data
“Se Requiere un Software capaz de administrar con herramientas e infraestructura el desafío de los grandes volúmenes de datos” Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Hadoop se inspiró en los documentos Google para MapReduce y Google File System (GFS).
16
El Ecosistema de Hadoop
17
Componentes del Eco Sistema de Hadoop
18
Qué logramos
19
Procesamiento de Big Data- Batch
20
Procesamiento de Big Data- Real Time
21
Procesamiento de Big Data- Real Time
22
Escogiendo las herramientas
23
Escogiendo las herramientas
24
Usos de Big data
25
Usos de Big data
26
Otras Aplicaciones de Big Data
27
Otras Aplicaciones de Big Data- EJEMPLO
El análisis de sentimiento se refiere a entender los sentimientos de las personas más apropiadamente; analizando las claves que dejan los clientes en redes sociales o sitios de compra Por ejemplo analizando la historia de búsqueda y de compras de los clientes Usando las tiendas en línea como Amazon.com, puede proveer valiosa información de acuerdo a que marcas ellos prefieren, que productos usan regularmente, y así por el estilo. Con ésta información, Amazon.com puede rastrear las opiniones de los clientes, con referencia a los productos o servicios, para obtener ideas útiles y así mejorar la experiencia del cliente, Y una mejor orientación de las recomendaciones de productos
28
Hay 4 preguntas que definen una estrategia de análisis de datos
Cómo los datos generan valor en un negocio? Cuáles son los activos críticos de datos? Cuál es su ecosistema de datos? Cómo se gobierna los datos? EE
29
Cómo los datos generar valor en un negocio?
La estrategia de datos debe ser impulsada por una comprensión de cómo la información puede habilitar o mejorar un proceso de negocio. Por ejemplo, aumento de las ventas en varios canales (un valor de negocio) requiere datos sobre sus clientes actuales y los productos que poseen (los datos); o Reducir el costo de conciliación manual de la información financiera (el valor comercial) Requiere estandarización y consolidación de datos redundantes e inconsistentes a través de aplicaciones de negocio (los datos).
30
Cuáles son los activos críticos de datos?
No todos los datos en la empresa SON CRITICOS. De hecho, la mayoría son datos específicos de una aplicación, la función comercial o transacción. Los datos que son típicamente tiene dos características fundamentales:
31
Cuál es su ecosistema de datos?
Utilizamos una arquitectura de negocios (no es una arquitectura de tecnología) para definir las capacidades de datos centrales que empresas y TI deben crear juntos Estas capacidades organiza plataformas tecnológicas y procesos de negocio basados en su función en el ecosistema: Creación y captura de datos, limpieza y organización, conocimiento del negocio, y el uso de esos puntos de vista inteligentes para impulsar acciones de la empresa.
32
Herramientas Disponibles
R y R Studio Rapid Miner Orange Knime Oracle Dataminer
33
Analisis de Sentimiento con Rapid Miner
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.