Ofelia Cervantes Desarrollo de Herramientas para Automatizar la Extracción de Datos 1.

Slides:



Advertisements
Presentaciones similares
Crea una cuenta en WordPress WordPress es uno de los servicios más usados para la creación de blogs en internet, ya que es una plataforma con una gran.
Advertisements

GUÍA DE USO DEL SISTEMA DE ATENCIÓN Y GESTIÓN TICKETS (SAGT) ANALISTAS Gerencia de Atención al Estado Oficina de Atención al Usuario Octubre, 2010.
Ofelia Cervantes Redes Dinámicas 1. Ofelia Cervantes Redes dinámicas en Gephi REDES DINÁMICAS: se van construyendo y visualizando en tiempo real Pasos.
Ofelia Cervantes Extracción de Datos usando Twecoll 1.
La web 2.0 GRUPO 3  Paola corredor  Ángela rodríguez  Sandra guerrero FLICKR PANORÁMICO DEL.ICI.USTUENTI.
 1. Ingresar a la página  2. Nos registramos en twitter Nombre completo: nombre de usuario Correo electrónico: se verificara.
Aplicación con Angular, Ionic y PHP Por: Luis Salvador.
CardSpace. Índice Comprendiendo la identidad digital Comprendiendo la identidad digital Describiendo la identidad digital Describiendo la identidad digital.
COMUNICACIÓN Y TIC Ángela Espinosa Hayler Peñaranda.
Computación e Informática Contabilidad Ing. Miguel Ángel Ramos Frías Word 2013.
BASE DE DATOS EN LA WEB POR- OSIRYS MARCIAGA JESUS NIETO.
Google Play Store o Play Store para abreviar, es la aplicación que la gente con tabletas y smartphones Android utiliza para descargar juegos, aplicaciones.
WordPress REST API
COMPONENTES DE INTERNET
UNIVERSIDAD CULTURAL INFORMATICA LIC. CINTHYA P. BELMONTES GUEVARA
Como crear una página Web usando CMS
SERVIDOR ESCUELA LINUX
Instituto de Formación Académica del Centro y Sureste A.C.
Capítulo 3 Drag and Drop, arrastrar y soltar
WORD.
Dra. María Jenny Olivera Mendivil Cochabamba - Bolivia
Protección de hojas ,protección de libros, compartir libros
REDES SOCILAES En el ámbito de Internet, las redes sociales son páginas que permiten a las personas conectarse con sus amigos e incluso realizar nuevas.
Sitio web Prezi Funcionamiento Se emplea para diseñar, es plataforma puente entre la información. El texto se coloca sobre plantillas ya prediseñadas,
Tutorial del backoffice PARA inscripción en línea, ACTUALIZACION DE DATOS Y ENVIO DE PAGOS VERSION 2.0 – 4/10/2017.
Tópicos de bases de datos
INTRODUCCIÓN AL PROGRAMA QUARKXPRESS
Wordpress Manual de Usuario sobre EL Blog
Ana Fernanda Rodríguez Hoyos
UNIDAD II INTERNET.
REDES SOCIALES.
Act 3. Herramienta tareas Glosario TIC - Herramienta Tareas
Navarro león Elizabeth grupo:401
CURSO: QUITO “D” FÍSICO MATEMÁTICO
Actividad 3 Herramienta tarea
COMO CREAR UN BLOG EN BLOGGER
BLOGS Creación y manejo de un Blog en Wordpress.
Búsquedas en Internet ¿Qué es un buscador?
PRESENTACION HERRAMIENTAS DE PRESENTACIONES
Gabriel Alonso Navarro Altamar
FUNDAMENTOS DE PROGRAMACION EN ENTORNO WEB. Rodrigo Cabello Ing. Informático Director de proyectos Think – Ideas in Motion FUNDAMENTOS.
DISEÑO WEB Sesion 1.
HERRAMIENTAS DE PROGRAMACIÓN
Instrucciones para abrir el cuestionario de aplicación a empresas de TI A continuación se mencionan los pasos a seguir para poder realizar el cuestionario.
Creación de Blogs en espol
LENGUAJE DE SCRIPTING EN SERVIDORES WEB INTEGRANTES :JOSTIN FRANCO DARYENIS ARAUZ PABLO CANDANEDO.
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICA MARKETING Y EMPRENDIMIENTO – CICLO I 2018 INVESTIGACIÓN : COMO REALIZAR UN ANÁLISIS.
Guía interactiva de usuario final operativo
Excel Macros Macros Automáticas.
Guía interactiva de usuario final operativo
LISTAS PERSONALIZADAS
LISTAS PERSONALIZADAS
NAVEGADOR FINEBROWSER 3.2
Bienvenidos!.
“ENTORNO DE TRABAJO DE ACCESS 2010” ACTIVIDAD DE ADQUISICIÓN DEL CONOCIMIENTO GRISEIDY CLARIBEL VELAZQUEZ RUIZ GPO:423.
Curso de Excel #Intermedio Guillermo Díaz Sanhueza Mail: Web: Team Work Versión:
Lenguajes del lado del cliente
Docente: Valerio Herrera, Luis E. Experiencia Formativa III Semana 4: Servidores Web.
ARQUITECTURA DE UN NAVEGADOR WEB ESTO SE REFIERE AL SOFTWARE O HARDWARE? Un navegador web es un programa que codifica y decodifica una serie de reglas,
SERVICIOS DE ALMACENAMIENTO EN LA NUBE DE QUE SE TRATA El Almacenamiento en la Nube consiste en guardar archivos en un lugar de Internet. Esos lugares.
INTERNET Funcionamiento y Principales Virtualidades “…..En un lapso de 20 años, la tecnología ha venido cambiando radicalmente nuestra forma de vivir….”
PLATAFORMA EDUCATIVA INSTITUCIONAL – BIBLIOTECA VIRTUAL Curso: Estrategias digitales en el manejo de la información Semana 2 Profesora: Tania Briones Linares.
Intr. a la creación y gestión de páginas web
Funciones principales de Excel Online
INTERNET Cuando la gente hace referencia a Internet se está refiriendo normalmente a esta red y a un conjunto de servicios y aplicaciones que permiten.
Gestión de Recursos compartidos.. Aspectos fundamentales del usó compartido Existen dos maneras de compartir archivos y carpetas: desde el equipo y desde.
Tutorial Plataforma OVID IMSS-CONRICYT.
CONEXIÓN SE SIG A BASE DE DATOS EXTERNAS ENLACES ESPACIALES CARTOGRAFICOS MODELOS GEO-REALCONADOS.
Transcripción de la presentación:

Ofelia Cervantes Desarrollo de Herramientas para Automatizar la Extracción de Datos 1

Ofelia Cervantes Desarrollo de Herramientas para Automatizar la Extracción de Datos  Políticas de uso de las redes sociales  Retos de los crowlers  NodeFriends

Ofelia Cervantes Políticas de las Redes Sociales  Las redes sociales regulan el acceso y uso de los datos autorizados.  Las políticas entran en vigor a partir de la primera vez en que se haga uso de los datos autorizados.  Evitan un mal uso de los datos (usos comerciales).  Aseguran la información de los usuarios finales.  Protegen la identidad de los usuarios finales.

Ofelia Cervantes Políticas de las Redes Sociales Twitter: o Límites: No intentar superar o eludir limitaciones de acceso, llamadas y uso de la API de Twitter. o Datos geográficos: No guardar datos de localización y otra información geográfica, excepto que la información esté junto con un Tweet al que se encuentra unida. o Protección del usuario: No ayudar a entidades gubernamentales a vigilar el contenido y obtener información de los usuarios, lo que requiere una orden judicial.

Ofelia Cervantes Políticas de las Redes Sociales Twitter: Obtener consentimiento explícito antes de realizar cualquiera de las siguiente acciones: Publicar contenido, seguir/ dejar de seguir a otros usuarios. Utilizar el contenido de un usuario para promocionar un producto o un servicio comercial. Almacenar contenido que no es público, como mensajes directos u otra información privada y confidencial. Compartir o publicar contenido protegido e información privada o confidencial.

Ofelia Cervantes Uso de APIs Twitter: o API REST Provee una interfaz de acceso para leer y escribir datos en Twitter. Respuestas en formato JSON. La autenticación se realiza empleando OAuth.

Ofelia Cervantes Uso de APIs Twitter: o El API REST permite obtener datos de cuentas de Twitter: Número de tweets. Número de personas siguiendo. Número de seguidores. Número de “me gusta”. IDs de usuarios.

Ofelia Cervantes Uso de APIs - autenticación Twitter: o OAuth Es la forma de autenticación a el API de Twitter. Permite una autorización segura. No es requerido compartir credenciales de usuario. Uso de HTTPS para la comunicación segura.

Ofelia Cervantes Uso de APIs Twitter: Limitaciones del API REST: Sólo permite un número límite de peticiones en un lapso de 15 minutos.

Ofelia Cervantes Uso de APIs Twitter: Ofrece librerías para consumir el API desde diversos lenguajes de programación: –Python: Tweepy. –ASP: Aspwitter. –C++: Twicurl. –Java: Twitter4J –JavaScript: Twitter JSClient. –PHP: Twitterauth

Ofelia Cervantes Políticas de las Redes Sociales Facebook: o Obtener el consentimiento del usuario antes de extraer cualquier tipo de información. o Proporcionar una política de privacidad publica y de fácil acceso que explique que datos se recopilan y que uso se hará de ello. o Solo se podrá utilizar el resto de datos fuera de la aplicación si se tiene consentimiento expreso del usuario. o Obtener consentimiento de los usuarios antes obtener información de forma independiente a Facebook.

Ofelia Cervantes Políticas de las Redes Sociales Facebook: o Proteger la información obtenida frente a un acceso o un uso no autorizados. o Utilizar datos de amigos únicamente cuando la persona en cuestión use la aplicación. o No almacenar ningún tipo de credenciales de usuario. o No vender datos obtenidos de Facebook, ni conceder licencias de estos. o No transferir datos a redes de publicidad o servicios de publicidad o relacionados con la monetización.

Ofelia Cervantes Uso de APIs Facebook: La API Graph: es la principal herramienta de las aplicaciones para leer y escribir en la gráfica social de Facebook. Provee una interfaz de acceso para leer y escribir datos de Facebook. Se trata de un API basada en HTTP. Respuestas en formato JSON. La autenticación se realiza empleando el protocolo OAuth.

Ofelia Cervantes Uso de APIs o API Graph de Facebook permite: –Consultar datos: »Lista de amigos. »Información de cuenta. »Información de likes. »Información de comentarios »Información de lugares. –Publicar contenido. –Subir fotos y videos.

Ofelia Cervantes Autenticación en Facebook Funcionamiento:

Ofelia Cervantes Uso de APIs Limitaciones de Facebook: En un lapso de 60 minutos sólo permiten 200 llamadas a la API por usuario. Para obtener listas de amigos de un usuario debe de haber una autorización previa. En grupos y páginas no se puede obtener el nombre de los usuarios que comentan y comparten.

Ofelia Cervantes Uso de APIs Google + API : o Es la interfaz de programación a Google+. o Sigue un diseño RESTful (Se emplean métodos HTTP estándar). o Permite autorizar a desarrolladores el acceso a los datos de los usuarios de dos maneras: Emplear el protocolo OAuth 2.0. Emplear un API key. o Ej. Obtener el perfil de un usuario, se enviaría la siguiente petición HTTP.

Ofelia Cervantes Uso de APIs Google + API: o Su API está organizada por tipo de recursos: –Personas: Es una lista de recursos de una persona. »Nombre, Imagen de perfil, URL de perfil, –Actividades: Es una nota que un usuario postea en su muro. »Id, imagen, nombre, fecha publicación, contenido, –Comentarios: Es una respuesta a una actividad. »Id, contenido, fecha publicación.

Ofelia Cervantes Retos de los Crawlers  Las APIs oficiales de las redes sociales presentan limitaciones.  Es necesario el uso de nuevas técnicas.  Los Crawlers son la solución perfecta. o Permiten encontrar y descargar nueva información automáticamente.

Ofelia Cervantes Retos de los Crawlers o Escala: Millones de páginas en internet. o Contenido nuevo cada segundo. o No es fácil determinar el número de páginas web en un sitio web.

Ofelia Cervantes Retos de los Crawlers y NodeFriends Formas de extracción: o Extracción sobre una página simple HTML. o La extracción sobre una página HTML que necesite autentificarse con credenciales. o La extracción de la información sobre páginas con contenido dinámico. Contienen programas scripts, que requieren ejecutarse para conocer el contenido de la página.

Ofelia Cervantes Retos de los Crawlers y NodeFriends NodeFriends – desarrollo UDLAP:  Se cuenta con un Crawler con las siguientes características: o Permite extraer la listas de amigos de Facebook, iniciando por un usuario semilla, detectando patrones y procesando información extraída. o Permite almacenar la información en dos archivos CSV (nodos y aristas)

Ofelia Cervantes Retos de los Crawlers y NodeFriends Metodología NodeFriends para extracción de la red de amigos de Facebook: Usuario semilla Paso 1: Exploración de lista de amigos. Paso 2: Extracción de la información. Paso 4: Almacenamiento de información. Paso 3: Procesamiento y clasificación de la información.

Ofelia Cervantes Retos de los Crawlers y NodeFriends NodeFriends: o Explora y extrae la lista de amigos existentes a partir de un usuario semilla. o Para la selección de la lista de amigos se declararon patrones de expresiones regulares los cuales se comparan directamente con el código HTML de cada página de amigos. o Almacena la lista de amigos en archivos CSV (separados por coma).

Ofelia Cervantes Retos de los Crawlers y NodeFriends Tecnologías empleadas de Crawling, para implementar NodeFriends: HtmlUnit: Librería que simula un navegador Web sin interfaz, permite manipular a un alto nivel de sitios Web Escrita en Java. Permite el llenado y envío de datos a formularios mediante simulación de clics en hiperenlaces (autenticar). Extraer código fuente de páginas Web. Visitar cualquier página que contenga código JavaScript.

Ofelia Cervantes Uso de NodeFriends NodeFriends:  NodeFriends es una aplicación desarrollada en Java que permite extraer la lista de amigos, a partir de una cuenta semilla.  Descarga la lista de amigos de forma recursiva hasta el nivel de exploración indicado.  Genera los archivos para poder analizar la red con cualquier visualizador de redes.

Ofelia Cervantes Uso de NodeFriends Requisitos de NodeFriends:  Tener instalada la máquina virtual de Java. o Versión 8 o superior.  Su descarga es gratuita. o

Ofelia Cervantes Uso de NodeFriends Ejecución de NodeFriends – WINDOWS o Descomprimir el archivo “NodeFriendsV0.1.zip” o Abrir el archivo “Windows.bat”

Ofelia Cervantes Uso de NodeFriends Ejecución de NodeFriends – Linux o Descomprimir el archivo “NodeFriendsV0.1.zip”

Ofelia Cervantes Uso de NodeFriends Ejecución de NodeFriends – LInux: o Abrir una consola de comandos. o Introducir el comando “java –jar ” o Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.

Ofelia Cervantes Uso de NodeFriends Ejecución de NodeFriends – MacOSX: o Descomprimir el archivo “NodeFriendsV0.1.zip”

Ofelia Cervantes Uso de NodeFriends Ejecución de NodeFriends – Mac OS: o Presionar la combinación de teclas “CMD+Espacio” e ingresar la palabra “terminal” y presionar Enter. o Introducir el comando “java –jar ” o Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.

Ofelia Cervantes Uso de NodeFriends 1.Ingresar el de la cuenta de Facebook. 2.Ingresa la contraseña de la cuenta de Facebook. 3.Ingresa el nivel de exploración (1-Amigos, 2-Amigos de mis Amigos, 3-Amigos los Amigos de mis Amigos, …).

Ofelia Cervantes Uso de NodeFriends Obtener Datos de una cuenta personal de Facebook:  Presionar el botón «Obtener Datos» para comenzar a descargar los datos de Facebook.  Esto puede tardar un poco, dependiendo el nivel de exploración seleccionado. ingresado.

Ofelia Cervantes Uso de NodeFriends Datos Generados:  Al concluir la descarga de datos serán creados 2 archivos, uno contendrá los nodos (Amigos) y otro los enlaces (Amistades). Archivos Generados Archivo de nodos Archivo de aristas

Ofelia Cervantes Visualización de resultados de NodeFriends Visualización en Gephi  Para iniciar debemos abrir la herramienta, la podemos encontrar en Inicio>Todos los Programas>Gephi.  Iniciar nuevo proyecto:

Ofelia Cervantes Visualización de resultados de NodeFriends Importar Datos a Gephi  La herramienta Gephi permite crear los nodos y las relaciones a partir de archivos parametrizados (CSV).  Importar: Ir a la sección «Laboratorio de datos» en esta sección se podrán ver todos los nodos y relaciones creadas.

Ofelia Cervantes Visualización de resultados de NodeFriends Importar Datos a Gephi:  Importar Nodos: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de nodos, presionar siguiente y luego presionar terminar.

Ofelia Cervantes Visualización de resultados de NodeFriends Importar Datos a Gephi:  Importar Relaciones: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de aristas, presionar siguiente y luego presionar terminar.

Ofelia Cervantes Visualización de resultados de NodeFriends Visualizando los Datos con Gephi:  Para visualizar la red, debemos ir a la sección «Vista General», donde podremos visualizar una red, aun sin una apariencia estética.

Ofelia Cervantes Visualización de resultados de NodeFriends Detección de Comunidades:  La detección de comunidades se realiza con el algoritmo de modularidad el cual ventana de «Estadísticas».  Cambiar el color de los nodos a partir de la comunidad a la que pertenece: En la parte izquierda «Apariencia>Nodos» seleccionar el atributo de «Modularity Class» y presionar en el botón Aplicar.

Ofelia Cervantes Visualización de resultados de NodeFriends Detección de Comunidades en Gephi:  La modularidad le dará un aspecto como el de la siguiente imagen.  Cada color representa una comunidad distinta.

Ofelia Cervantes Visualización de resultados de NodeFriends Visualización de Grado Vector Propio  El algoritmo de vector propio lo aplicamos en la sección de la derecha «Estadísticas».  En la parte izquierda en la sección de Apariencia>Tamaño>Nodos>Atributo seleccionar el atributo de «Eigenvector Centrality» y presionar en el botón Aplicar.

Ofelia Cervantes Visualización de resultados de NodeFriends Visualización de Grado Vector Propio.  Visualizar el tamaño de los nodos dependiendo del grado de vector propio que tiene cada nodo, mostrando nodos más grandes dependiendo del grado calculado:

Ofelia Cervantes Visualización de resultados de NodeFriends Distribución de los Nodos:  Gephi permite aplicar algoritmos de distribución, para dar un aspecto más estético a la red y así poder analizarla mejor. Para aplicar el algoritmo de distribución solo basta ir a la sección de distribución y seleccionar el algoritmo deseado.

Ofelia Cervantes Visualización de resultados de NodeFriends Distribución ForceAtlas2:  Es un modelo de atracción lineal y repulsión lineal con unas pocas aproximaciones.  Ventana “Distribución” seleccionar Forcetlas2.  Configurar su atributos «Evitar Solapamiento» y presionar ejecutar.

Ofelia Cervantes Visualización de resultados de NodeFriends Resultados de aplica la Distribución ForceAtlas2:  Genera un grafo que puede ser analizado más fácilmente.

Ofelia Cervantes Visualización de resultados de NodeFriends Mostrar Etiquetas de Nodos:  Ventana “Grafo”, pestaña “Etiquetas”.  Habilitar la opción “Nodo”.

Ofelia Cervantes Visualización de resultados de NodeFriends Mostrar Etiquetas de Nodos

Ofelia Cervantes Visualización de resultados de NodeFriends Exportar Grafo:  Gephi permite exportar el grafo a una imagen. En el módulo de previsualización podremos configurar diferentes parámetros.

Ofelia Cervantes Visualización de resultados de NodeFriends Exportar Grafo

Ofelia Cervantes Analizando el grafo  Se puede apreciar qué personas son más influyentes (Tamaño del nodo), también se puede identificar a las personas que comparten un patrón de similitud (Color del nodo).

Ofelia Cervantes Analizando el grafo  Se puede visualizar el impacto de una persona dentro de una red, el cual posibilita la conexión con otros miembros de la red y sin él no sería posible llegar a otros nodos (personas).

Ofelia Cervantes Analizando el grafo  Existen personas en la red que tienen una mayor capacidad para controlar la difusión de un mensaje, esto puede ser aprovechado en una campaña de marketing.

Ofelia Cervantes Referencias útiles Twitter API REST: o Políticas de Uso o Documentación o Estructura de los objetos (Tweets, Users, Entities) o Autenticación o Librerías (Varios lenguajes de programación) o Límites de uso

Ofelia Cervantes Referencias útiles Facebook Graph-API: o Políticas de Uso o Documentación o Librerías (Varios lenguajes de programación) o Límites de uso api/advanced/rate-limitinghttps://developers.facebook.com/docs/graph- api/advanced/rate-limiting

Ofelia Cervantes Referencias útiles Google + o Políticas de Uso o Documentación o Autenticación o Librerías (Python) o Límites de uso

Ofelia Cervantes Referencias útiles HTML Unit: o Descarga o Get Started

Ofelia Cervantes