La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Inventario de Fuentes de Datos Abiertos de México

Presentaciones similares


Presentación del tema: "Inventario de Fuentes de Datos Abiertos de México"— Transcripción de la presentación:

1 Inventario de Fuentes de Datos Abiertos de México
METODOLOGÍA En la sección de Introducción se habló de manera breve sobre la metodología que se siguió para elaborar el inventario de las fuentes de datos. En esta sección se profundizará un poco más acerca de los detalles específicos de la metodología y la justificación del porque se realizó de tal o cual manera. Además, al final de la presentación se ofrece una explicación sobre el Esquema de desarrollo de 5 estrellas propuesto por Tim Berners-Lee, inventor de la Web e iniciador de los Datos Enlazados (Linked Data). Además, se hablará sobre el Barómetro de datos abiertos (Open Data Barometer), en que consiste y como aplicarlo para evaluar el nivel de apertura de un Conjunto de Datos. Vale la pena mencionar que estos dos modelos de evaluación son de particular relevancia en el mundo de los Datos Abiertos y en este estudio fueron utilizados para evaluar la calidad de apertura de la información contenida en el inventario de Fuentes de Datos.

2 Problemática Descentralización de la información.
Como ya se ha comentado, a pesar de que existe una gran cantidad de información estadística a nivel nacional, la cual es generada por diversas instituciones, tanto gubernamentales como no gubernamentales, esta se encuentra descentralizada. Ya que el objetivo de la información generada es que pueda sea utilizada por los ciudadanos y en general que se pueda obtener algún beneficio de ella, tener información descentralizada es una problemática, puesto que esto complica a cualquier usuario obtenerla de la web. Entonces, lo ideal sería pasar de estructura de información descentralizada a una más centralizada.

3 ¿Como se resolvió? Se generó una base de datos en donde las fuentes se encuentran clasificadas bajo un esquema claro y general sin perder información relevante. Se trató de ajustar el universo de fuentes y conjuntos de datos en una única estructura. Analizó la información recolectada de manera sistemática. Encontraron características o propiedades similares entre todo el conjunto de datos disponibles. Se propuso una estructura de clasificación. Entonces, Se generó una base de datos en donde las fuentes se encuentran clasificadas bajo un esquema claro y general sin perder información relevante. Para esto, se trató de ajustar el universo de fuentes y conjuntos de datos en una única estructura. - Analizó la información recolectada de manera sistemática. - Encontraron características o propiedades similares entre todo el conjunto de datos disponibles. - Se propuso una estructura de clasificación.

4 Estructura de Clasificación
Estructura por Fuente de Datos Descripción Básica Descripción Detallada Estructura por Conjuntos y Recursos Calidad Técnica Calidad Temática La Estructura de Clasificación propuesta del inventario generado se divide en dos partes principales, La primera, describe a la Fuente de Datos. La segunda, describe a los Conjuntos de Datos y a los Recursos. La Estructura por Fuente de Datos posee una Descripción Básica y una Descripción Detallada. La Estructura por Conjuntos y Recursos se explica a través de la Calidad Temática y la Calidad Técnica de los mismos. Cada una de las secciones contiene diversas variables que fueron propuestas para fines de la clasificación de la información y las cuales serán explicadas en posteriores diapositivas.

5 Fuentes de Datos, Conjuntos de Datos y Recursos
Antes de continuar, es necesario explicar lo que se entiende por Fuente de Datos, por Conjunto de Datos y por Recursos. Podemos pensar estos tres conceptos como una estructura jerarquía. En esta estructura, la Fuente de Datos puede representar una institución u organismo, que generalmente, es la que se encarga de poner a disposición la información estadística. El nombre comúnmente aceptado para referirse a esta información es Conjunto de Datos, los cuales se organizan por subcategorías o subtemas. Una Fuente de datos podría poner a disposición de los usuarios desde un solo Conjunto de Datos. A su vez, los Conjuntos de Datos pueden contener uno o más Recursos, los cuales pueden ser pensados como las series temporales, espaciales o simplemente los datos, los cuales están contenidos en algún formato especifico y que serán empleados por los usuarios. Ahora bien, es posible encontrar situaciones en donde esta estructura jerárquica colapsa en una muy sencilla. En esta estructura sólo existe un Recurso y a su vez solo existe un Conjunto de Datos, por tal motivo, hablar del Recurso es como hablar del Conjunto de Datos o de la Fuente de Datos, es decir, los tres conceptos se vuelven lo mismo. Esto último que se ha mencionado es importante, pues al momento de clasificar la información seleccionada para el inventario se tuvieron que tomar decisiones sobre que se estaba evaluando, si la Fuente de Datos, los Conjuntos de Datos o los Recursos y vale la pena mantenerlo en mente al momento de inspeccionar el inventario.

6 Estructura por Fuente de Datos
En las siguientes diapositivas se muestran tablas que resumen la Estructura por Fuente de Datos. En cada tabla se presentan las variables propuestas para las secciones de Descripción Básica y Descripción Detallada. Cada una de las tablas contiene cuatro columnas, Variable. En este campo se encuentra el nombre de la variable. Descripción. Este campo contiene una descripción breve sobre la variable. Tipo de campo. En esta celda se especifica si el campo es Cerrado o Abierto, es decir, si la respuesta esta predefinida o es libre. Respuesta. Se proporciona una respuesta y/o ejemplo a la variable.

7 Incidencia delictiva del fuero común
Descripción Básica Variable Descripción Tipo de campo Respuesta Nombre Representa el nombre de la fuente de datos dada por el recurso electrónico URL. Abierto Incidencia delictiva del fuero común Tipo Hace referencia a si la fuente es gubernamental o no gubernamental. Cerrado Gubernamental Académica Privada Nivel Hace referencia a si la fuente pertenece a una dependencia federal, estatal o municipal. Federal: México Estatal: Nuevo León Municipal: Monterrey Categoría Hace referencia a la categoría a la cual pertenecen los conjuntos de datos. Salud Seguridad Desarrollo Social Organización Se refiere a la organización responsable de poner a disposición la fuente de datos. Secretaría de Salud COLMEX INEGI De las variables mostradas, vale la pena hablar sobre las siguientes, Nombre. Debido a que la gran mayoría de las veces las instituciones proveen diversos Conjuntos de Datos, (la INEGI, por ejemplo, maneja temas de Salud, Desarrollo Social, entre otros), fue necesario escoger un nombre distinto para la Fuente de Datos con la finalidad de evitar multiplicidad para esta variable. Organización. En esta variable es donde se encuentra el nombre de la institución o Fuente de datos responsable de poner a disposición la información. Por ejemplo, Secretaría de Salud Pública, INEGI, etc.

8 Información relevante
Descripción Básica Variable Descripción Tipo de campo Respuesta URL Principal En este campo se introduce la liga que lleva directamente al repositorio donde se encuentran los conjuntos de datos. Abierto Cantidad de conjuntos Hace referencia al número de conjuntos encontrados en el repositorio. 1 5 4 Cantidad de recursos Hace referencia al número de recursos encontrados en el repositorio. 2 Información relevante Información generalmente provista por la página fuente donde se especifica cuál es la institución responsable de los datos y alguna información importante de los mismos. Las estadísticas judiciales en materia penal abordan los datos acerca de presuntos delincuentes… Las variables de mayor interés son, URL Principal. Link desde el cual se podrá acceder al repositorio en el que se encuentra almacenada la infromación. Informacón Relevante. Descripción breve, generalmente provista por la Fuente de Datos, que describe el contenido de la infromación almacenada en el repositorio.

9 Descripción Detallada
Variable Descripción Tipo de campo Respuesta Existe API Este campo hace referencia a la existencia de una API dentro de la fuente de datos, la cual permita conectar los conjuntos de datos con desarrollos externos. Cerrado No Posibilidad de descarga (archivos) Se refiere a la posibilidad de descargar los recursos encontrados en el repositorio. NA Posibilidad de descarga masiva Se refiere a la posibilidad de descargar todos los conjuntos de datos disponibles en la dirección URL a través de una sola liga.

10 Descripción Detallada
Variable Descripción Tipo de campo Respuesta Archivos comprimidos Hace referencia a si los recursos o los conjuntos de datos se encuentran comprimidos. Puede ser formato ZIP o RAR. Cerrado No NA Última actualización Proporciona la última fecha en la que fueron actualizados los datos. Generalmente se encuentra dentro de la fuente de datos. Abierto DD/MM/AAAA NE Nota extra Este campo se incluye con la finalidad de puntualizar detalles específicos encontrados dentro de la fuente de datos. En aspectos metodológicos se encuentra el glosario correspondiente.

11 Estructura por Conjunto de Datos y Recursos
En las siguientes diapositivas se muestran tablas que resumen la Estructura por Conjuntos de Datos y Recursos. En cada tabla se presentan las variables propuestas para las secciones de Calidad Temática y Calidad Técnica. Cada una de las tablas contiene cuatro columnas, Variable. En este campo se encuentra el nombre de la variable. Descripción. Este campo contiene una descripción breve sobre la variable. Tipo de campo. En esta celda se especifica si el campo es Cerrado o Abierto, es decir, si la respuesta esta predefinida o es libre. Respuesta. Se proporciona una respuesta y/o ejemplo a la variable.

12 Unidad geográfica (Representatividad)
Calidad Temática Variable Descripción Tipo de campo Respuesta Personajes Los datos se refieren a qué tipo de personaje. Ya sea que son datos sobre personas, sobre recursos utilizados o sobre el ambiente que rodea cierto espacio. Cerrado Beneficiarios Operación Ambiente Clasificación Los datos presentados pueden ser útiles para fines de tipo político, de innovación o de transparencia. Político Innovación Transparencia Unidad geográfica (Representatividad) Este campo hace referencia del nivel geográfico al cual pertenecen los conjuntos de datos. También se refiere a la representatividad que tiene una muestra poblacional. Federal Estatal Municipal Regional

13 Calidad Temática Variable Descripción Tipo de campo Respuesta
Granularidad Se refiere a qué tan detallados o específicos pueden ser los datos que se presentan. Siendo resumidos el menos detallado y desagregado el más granular. Cerrado Resumidos Agrupados Finos Desagregados Pureza de la serie Hace referencia a qué tan manipulados han sido los datos que se presentan. Datos crudos Indicadores Periodo inicial Se refiere a la fecha de inicio en que se empezaron a registrar los datos en un recurso. Abierto Ejemplo: 2000 Periodo final Se refiere a la fecha final en el que se terminaron de registrar los datos en un recurso. Ejemplo: 2015

14 Nota metodológica o ficha técnica Diccionario o glosario
Calidad Temática Variable Descripción Tipo de campo Respuesta Frecuencia Se refiere a la frecuencia temporal de los recursos. Cerrado Diaria Mensual Anual Formatos disponibles Hace referencia a los diversos formatos en los que se encuentran disponibles los conjuntos de datos. JPG PPT PDF EXCEL Nota metodológica o ficha técnica Hace referencia a si existe un escrito rastreable de cómo se obtuvieron o fueron construidos los datos. No Diccionario o glosario Este campo hace referencia a la existencia de un glosario o diccionario que explique las variables encontradas dentro de un recurso. 1 - No existe 2 - Existe parcialmente 3- Existe y está completo

15 Esquema de desarrollo de cinco estrellas
Calidad Técnica Variable Descripción Tipo de campo Respuesta Esquema de desarrollo de cinco estrellas Metodología de evaluación propuesta por Tim Berners Lee, en dónde a los recursos de datos se les asigna de 1 a 5 estrellas dependiendo las características de apertura que posean. Cerrado 1- Datos públicos y con licencia 2- Datos estructurados 3- Datos en formatos abiertos 4- Acceso programático a la información 5- Datos enlazados Barómetro Indicador que con base en diferentes variables evalúa la calidad técnica de los conjuntos de datos de 10 a 100. Siendo 10 muy baja calidad técnica y 100 datos de muy buena calidad.

16 Esquema de desarrollo de 5 estrellas
Esquema propuesto por Tim Berners-Lee Mientras más accesible sea la información más estrellas poseerá. El Esquema de desarrollo de 5 estrellas es un esquema propuesto por Tim Berners-Lee. Podría decirse a grandes rasgos, que de acuerdo a este esquema, mientras más accesible sea la información más estrellas poseerá. El esquema se lee de la siguiente manera, ★ Publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta. ★★ Publícalos como datos estructurados (ej: Excel en vez de una imagen de una tabla escaneadas). ★★★ Usa formatos no propietarios (ej: CSV en vez de Excel) ★★★★Usa URIs para denotar cosas, así la gente puede apuntar a estas. ★★★★★ Enlaza tus datos a otros datos para proveer contexto. Esta información fue extraída de la pagina oficial del Esquema de desarrollo de 5 estrellas. En ésta se podrán encontrar ejemplos que ayuden clarificar la idea.

17 Open Data Barometer El Barómetro de Datos Abiertos es otra metodología para analizar la apertura de la información. La idea principal es evaluar la información a través de un conjuntos de preguntas (cuestionario) o criterios. El Barómetro de Datos Abiertos es otra metodología para analizar la apertura de la información. La idea principal es evaluar la información a través de un conjuntos de preguntas (cuestionario) o criterios. Dependiendo la respuesta a cada pregunta se obtendrán una cantidad especifica de puntos. La evaluación de apertura va de 0 a 100 puntos. En la siguiente diapositiva se muestra una tabla con el cuestionario para evaluar la información en base a la metodología del Barómetro de Datos Abiertos. Si se desea conocer más a profundidad sobre esta metodología se pueden consultar los Reportes Técnicos de Investigación encontrados en este curso o bien acceder a la pagina oficial del Barómetro de Datos Abiertos.

18 Open Data Barometer Criterio Peso Cadena lógica a ¿Existen los datos?
5 b ¿Están disponibles de alguna forma? 10 Sí a = No ENTONCES 0; SI NO ( Si b= Sí ENTONCES 10 SI NO 0) c ¿Están en un formato legible por computadora? 15 Si b=No ENTONCES 0 ; SI NO ( Si c=Sí ENTONCES 15 SI NO 0) d ¿Están los datos legibles por computadora en lote? Si c=No ENTONCES 0 ; SI NO ( Si d=Sí ENTONCES 15 SI NO 0) e ¿El conjunto de datos es gratuito? Si c=No ENTONCES 0 ; SI NO ( Si e=Sí ENTONCES 15 SI NO 0) f ¿Tiene una licencia abierta? Si c=No ENTONCES 0 ; SI NO ( Si f=Sí ENTONCES 15 SI NO 0) g ¿Están actualizados? Lógica: Pierde 5 puntos si los datos no están actualizados. Gana 10 puntos si los datos legibles por computadora son actualizados. Si (g=No) ENTONCES -5 ; SI NO Si (c= Sí Y g= Sí ENTONCES 10) SI NO 0 h ¿Es sostenible su publicación? Si c= No ENTONCES 0; SI NO ( Si h=Sí ENTONCES 5 SI NO 0) i ¿Fue fácil de encontrar el conjunto de datos? Si c= No ENTONCES 0; SI NO ( Si i=Sí ENTONCES 5 SI NO 0) j ¿Se proveen datos enlazados en las URI? Si c= No ENTONCES 0; SI NO ( Si j=Sí ENTONCES 5 SI NO 0) Esta tabla


Descargar ppt "Inventario de Fuentes de Datos Abiertos de México"

Presentaciones similares


Anuncios Google