La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Historia, Evolución y Casos de Uso de Big Data Autor: Sergio Muzzupappa Profesora: Ana Darcacha.

Presentaciones similares


Presentación del tema: "Historia, Evolución y Casos de Uso de Big Data Autor: Sergio Muzzupappa Profesora: Ana Darcacha."— Transcripción de la presentación:

1 Historia, Evolución y Casos de Uso de Big Data Autor: Sergio Muzzupappa Profesora: Ana Darcacha

2 Situación Actual de los Datos a Nivel Mundial Expansión mundial de computadoras baratas potentes al alcance del ciudadano corriente. Cada persona e institución utiliza varios artefactos que generan grandes cantidades de datos diarios. Los datos siguen la tendencia de ser guardados en la Nube. Gran parte de la Nube pública tiende a permitir ser usada como fuente de datos. Mayor competitividad exige satisfacer mejor a los clientes. Las empresas necesitan tomar mejores decisiones guiadas por la informática, en menores tiempos, usando grandes volúmenes de datos y tomarlos de variedad de fuentes. Los datos no sólo son estructurados (Ej. SGBD) sino también no estructurados (Web 2.0, clickstream, sensores, GPS, Redes Sociales, etc.

3 Solución Planteada por Google Sistemas que: –Permitan procesar el 100% de los datos. –Escalen fácilmente al orden de los 1000PB. –Puedan ser usados en hardware barato. –Sean redundantes y tolerantes a fallas. –Manejen grandes volúmenes de datos a altas velocidades. –Manejen datos estructurados y no estructurados. –Simples de programar.

4 Solución Planteada por Google Google necesita procesar cantidades masivas de datos de flujo de clicks (clickstream). Entre los años 2003 y 2004 lanza dos papers clave: –Google File System o GFS para delinear la capa de persistencia de su nuevo sistema. –MapReduce para explicar el funcionamiento de su nuevo modelo de programación para procesar los datos.

5 Solución de Código Abierto Por estas épocas un empleado de Yahoo, Doug Cutting, impulsor del Open Source trabajaba en un buscador Web alternativo. Ni bien fueron publicados esos papers comienza a trabajar en lo que en el 2005 es su versión de código abierto de Mapreduce y un nuevo sistema de archivos distribuido llamado HDFS. En el 2006 el sistema se nombre “Hadoop” gracias a un elefante de juguete al que su hijo había nombrado con este neologismo. Se crea bajo licencia libre incorporado por la Fundación Apache, y permite trabajar con miles de nodos y petabytes de datos.

6 ¿Qué es Hadoop? Es un framework de procesamiento de Big Data. Procesa en forma paralela y altamente escalable. Divide el trabajo en fragmentos pequeños (Map) que se procesan en multitud de nodos y luego los consolida (Reduce). El framework permite que se utilicen varios lenguajes pero se usa mayormente Java. HDFS posee redundancia a nivel de bloque, cada bloque de 64Mb se replica en 3 nodos a la vez. El sistema de archivos es uno solo, aunque distribuido en cientos y hasta miles de nodos.

7 Mapreduce

8

9

10

11 Ecosistema

12 Algunas Fuentes de Datos

13 Casos de Uso Sentimiento social –Minería de datos. –Redes Sociales, chat, email, reviews, etc. –Investigación sobre un producto o persona. –Clasificación de elementos a investigar. –Análisis de afectividad de frases. –Procesamiento de Lenguaje Natural

14 Casos de Uso Comportamiento Web –Análisis de tráfico Web y keywords buscadas. –Análisis de cookies. –Registros del diversos. –Comprender al consumidor para mejorar su experiencia online. –Detectar comportamiento malicioso.

15 Casos de Uso Análisis Forense de Registros de Servidor –Eventos de servicios de Servidor. –Servidores Web son candidatos. –Medición de performance. –Verificaciones de seguridad y compliance. –Búsqueda de errores.

16 Casos de Uso Datos de Máquinas y Sensores –Conversión analógica- digital. –Clima, velocidades, mediciones físicas, luz, cercanía de la pantalla, acelerómetros, GPS. –Salud de las personas. –Casas y ciudades inteligentes.

17 Casos de Uso Datos de Geolocalización –Análisis de variables respecto a un objeto en un lugar y tiempo. –Velocidad, región, GPS. –Análisis de transgresiones. –Comprender eventos de transportes.

18 Casos de Uso Inteligencia en Análisis de Crimen –Fuerzas de Seguridad y Gobiernos. –Disminuir la criminalidad. –Encontrar zonas calientes. –Pelear contra el terrorismo. –Costos políticos por invasión a la privacidad. –Se resigna privacidad por seguridad.

19 Casos de Uso Investigación de Fraudes (Caso EY) –EY es una empresa de auditoría, impuestos, finanzas y contabilidad. –FIDS es el área de investigación y descubrimiento forense. –Minería de datos de distintos países e idiomas. –Se busca información sobre sobornos, pagos, transferencias inusuales, sobrepaso de aprobaciones y protocolos. –Se analizan datos extraídos de compañías. –Se capturan discos de servidores y laptops y se analizan mails, chats, documentos, etc. –Se utilizan programas especiales de descubrimiento forense. –Interviene gente de IT de EY, y abogados, jueces o involucrados quienes encuentran información relevante a fraudes mediante estos programas.

20 Ejemplos de uso de Big Data en EY Marco 1: Investigación global financiera de una institución de un potencial y repentino colapso financiero. Tiempo: 60 días. Implicados: 500 personas. Acciones: Asegurar y mapear más de mil transacciones únicas de diferentes sistemas de ventas y contabilidad. Datos: 3 Terabytes cargados para revisión. Múltiples partes en litigio y distintas investigaciones sobre regulaciones simultáneas. Dificultad: Desplegar un acercamiento teniendo en cuenta los costos para recolectar y analizar emails, datos de ventas de multiples transacciones y obtener pistas y rastrar los fondos perdidos de cuentas de clientes y reportarlas a reguladores en los tiempos requeridos. Marco 2: Una empresa multinacional listada entre las Fortune 100 conduce una revisión global anti corrupción. Tiempo: 120 días. Datos: 310 discos rígidos recolectados en forma forense. 20 Países. 2 Terabytes de datos cargados. Más de 25 millones de documentos, 1,3 millones de ellos revisados. Más de 2000 millones de transacciones financieras revisadas. 20 diferentes sistemas financieros representando 37 unidades de negocios separadas. Dificultad: Integrar las comunicaciones por mail individuales y patrones para cruzar con transacciones financieras para identificar potenciales pagos impropios, además de proveedores y empleados de alto riesgo.

21 Conclusiones Crecimiento mundial exponencial de datos a nivel de Zb gracias a la explosión de la vida online de personas y expansión de tecnologías baratas, en los últimos años se ha generado el 90% de los datos mundiales. Capacidades de procesamiento deben crecer acorde a las necesidades de las organizaciones. El análisis de información en grandes volúmenes, de diversas fuentes, a gran velocidad y con flexibilidad es un factor diferencial que brinda valor al negocio y ventaja competitiva con respecto a otras empresas del mercado. Se tiende a eliminar silos de datos y cada vez a la mayor integración de la información para aumentar el insight y mejorar la experiencia del cliente. Se abren nuevos mercados laborales como administradores, programadores, y científicos de Big Data. La oportunidad para la próxima generación está en adquirir talento analítico que sea capaz de analizar los resultados y aplicarlos al negocio.

22 ¿ PREGUNTAS ?


Descargar ppt "Historia, Evolución y Casos de Uso de Big Data Autor: Sergio Muzzupappa Profesora: Ana Darcacha."

Presentaciones similares


Anuncios Google