La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Metodología de limpieza de datos con la herramienta de OpenRefine

Presentaciones similares


Presentación del tema: "Metodología de limpieza de datos con la herramienta de OpenRefine"— Transcripción de la presentación:

1 Metodología de limpieza de datos con la herramienta de OpenRefine
METDOLOGÍA DE LIMPIEZA DE DATOS A continuación se hablará de manera extensa sobre los 4 pasos que conforman la metodología de limpieza de datos. En la sección Sitios de Interés se podrán encontrar algunos enlaces que se expondrán en esta presentación.

2 Refinamiento de Datos El refinamiento de datos consiste en organizar, limpiar y eliminar algunas inconsistencias que pudiera tener una base de datos. La herramienta de OpenRefine consta de tres pasos generales: Obtención de los datos Refinamiento de los datos Análisis de la información con la herramienta de Open Office. 1. En ocasiones, cuando se extraen datos de un sitio web estos contienen errores, los cuales deben ser corregidos para utilizar los datos.

3 Metodología de Limpieza de Datos
Instalación de Open Refine Importación de Datos

4 Metodología de Limpieza de Datos
Operaciones Básicas de OpenRefine Conversión de mayúsculas/ minúsculas Eliminación de espacios en blanco Facet Separación automática de columnas Cambio de nombre a una columna Eliminación de una columna Organización de columnas Eliminación de espacios consecutivos Filtrado de valores en blanco

5 Metodología de Limpieza de Datos
Métodos Avanzados de Open Refine Metodo Key-Collision Fingerprint N-Gram Metodo Nearest Neighbor Distancia PPM Distancia Levenhstein

6 1. Instalación de Open Refine

7 Instalación de Open Refine
El primer paso a seguir es instalar OpenRefine, descargándolo de, Escoger versión 2.5 Funciona en las plataformas de Windows, Mac y Linux. Para poder acceder a OpenRefine es necesario tener instalado Java 1. OpenRefine se ejecuta localmente en el ordenador en que se instala, ( pero este no cuenta con un interfaz de usuario propio, sino que utiliza la del navegador en el cual se ejecuta.

8 2. Importación de Datos

9 Importación de Datos Para comenzar a utilizar OpenRefine, es necesario importar los datos. Los formatos soportados actualmente son, TSV, CSV Excel (XLS, XLSX) XML, RDF como XML JSON Google Spreadsheets RDF N3 triplica Si se tienen datos en un formato de texto, se tiene que importar sin líneas de división en columnas. Cuando un archivo se importa con extensión .zip, .tar.gz, .tgz, tar.bz, .gz o .bz2, OpenRefine detecta la extensión de archivo más común en ella y carga todos los archivos con esa extensión en un solo proyecto. También puede señalar OpenRefine a una URL de un archivo de datos o una hoja de cálculo de Google. Una vez importados, los datos se almacenan en formato propio de OpenRefine y el archivo de datos original se deja en reposo.

10 3. Operaciones Básicas de OpenRefine

11 Conversión de mayúsculas/ minúsculas
Para cambiar de minúsculas a mayúsculas o viceversa, se da clic en Edit Cells > Common Transforms > To title case, To upper case, To lowercase.

12 Eliminación de espacios en blanco
En algunos casos las celdas contienen espacios en blanco. Para removerlos se selecciona Edit Cells > Commons transforms > Trim leading and trailing whitespace.

13 Facet (faceta o filtro)
OpenRefine permite analizar y filtrar los datos mediante el uso de la herramienta de Facet Es un filtro que muestra aquellas palabras que se repiten o que están mal escritas. Se da clic en Facet > Text (Facet). Esta es una herramienta que se utiliza manualmente en OpenRefine, es por ello que solo encuentra muy pocas inconsistencias. Ahora en la columna izquierda de OpenRefine muestran unas facteas con todos los valores distintos de la columna, así como el número de repeticiones de cada valor. También, es posible ordenar los valores por número de repeticiones, en vez de por orden alfabético, seleccionando la opción count. Por otra parte, se pueden editar y hacer registro de cada valor. Para corregir errores e inconsistencias generados cuando se capturan distintos datos, existen dos formas. La primera es seleccionando Edit con el botón derecho. La segunda es seleccionando Edit y solo pasar el cursor por encima del valor de la faceta del lado izquierdo. Con cualquiera de los dos métodos se puede corregir el error. Para guardar el cambio, se selecciona el botón Apply.

14 Separación automática de columnas
Se realizará una nueva columna en la base de datos propuesta para el ejemplo. Con los datos de la primera columna, en la parte de Entidad o Institución se requiere observar las siglas de la dependencia, para ello es necesario agregar una nueva columna. Se selecciona Edit column > Split into several columns. Se requieren de algunos datos extra para realizar el procedimiento de dividir las columnas. En este caso se requiere partir la columna de Entidad. Esto se realiza utilizando un punto. OpenRefine por defecto utiliza una coma para separar el nombre de la entidad. En esta parte se agregarán las siglas a la nueva columna. Por último, es necesario guardado los cambios dando clic en Ok. Se puede observar en la parte derecha de la imagen, que se creó otra columna, que solo proporciona las siglas de la Entidad o Institución.

15 Cambio de nombre a una columna
OpenRefine permite cambiar el nombre a las columnas. Se requiere que la primera columna contenga el nombre de Entidad y la siguiente sea Siglas. Es necesario seleccionar en el menú Edit Column > Rename this column. Una vez realizado lo anterior, aparecerá una nueva ventana, en esta se escribirá el nombre de la nueva columna.

16 Eliminación de una columna
Para eliminar una columna, se selecciona las siguientes opciones Edit Column > Remove this column.

17 Organización de columnas
El método anterior es una forma básica de eliminar las columnas, pero es un poco lento ir de columna en columna. Para realizarlo de forma más rápida y visualizar todas la columnas, se selecciona en All y se da clic en Edit columns > Re-Order/Remove. Para organizar las columnas, es necesario seleccionar la pestaña de cada columna y arrastrarla, de tal manera que aquí se visualizan todas las columnas y el usuario puede re-ordenarlas más fácilmente.

18 Eliminación de espacios consecutivos
En la imagen se observa la eliminación de espacios consecutivos. Este tipo de errores es muy común. Seleccionamos en una de las columnas en Edit cells > Common transforms > Collapse consecutive whitespace.

19 Filtrado de valores en blanco
El filtrado de valores se utiliza para observar si las celdas contienen registros en blanco. Este procedimiento se realiza tomando una columna, posteriormente se selecciona Facet > Customized facets > Facet by blank. Después aparecerá una nueva ventana, la cual mostrará aquellas celdas que estén en blanco, así como el número de registros en blanco.

20 4. Métodos Avanzados de OpenRefine

21 Clustering Key-Collision Nearest Neighbor Key-Collision-Fingerprint
Key-Collision-NGram-Fingerprint Nearest Neighbor Nearest Neighbor con distancia PPM Nearest Neighbor con distancia Levenhstein OpenRefine cuenta con la herramienta de Clustering que se refiere a la operación de “agrupación de diferentes valores que podrían ser representaciones alternativas de una misma cosa". Es decir, la operación de clustering se basa, principalmente, en la definición de la distancia entre dos objetos. El clustering detecta similitudes entre registros iguales, permite reemplazar algunos datos similares por un valor concreto. Una de las ventajas de OpenRefine es hallar errores e inconsistencias de forma automática, es decir, que detecta aquellos conjuntos que contiene valores similares entre sí con el proceso de refinamiento de clustering. El clustering consta de dos clases principales, Se hablará de ellas a continuación.

22 Métodos Key-Collision
Se basa en la idea de crear una representación alternativa de un valor (una "clave") que contiene sólo la parte más valiosa o significativa de la cadena. Esta clase de métodos es la más rápida en OpenRefine porque su complejidad computacional es lineal en el número de valores transformados y puede producir resultados en segundos. Este método es un poco menos agresivo en la búsqueda de errores e inconsistencias en cada columna de la base de datos. Básicamente, este método busca aquellas palabras similares o iguales. Para utilizarlo se selecciona la columna que contiene algunas inconsistencias y se da clic en Edit cells > Cluster and Edit.

23 Método Key-Collision-Fingerprint
Por defecto, OpenRefine utiliza un método de búsqueda de errores poco agresivo y que posiblemente no detecta todos los errores existentes. El método Key Collision – Fingerprint consiste en convertir el texto en minúsculas, quitar espacios y signos de puntuaciones y ordenar las palabras alfabéticamente. OpenRefine detectó 7 inconsistencias. Para remediar los errores solo se da clic en cada recuadro, así se le indica a OpenRefine que se está de acuerdo, pero también se puede editar y resolver de manera manual. Para aplicar los cambios seleccionamos se da clic en Merger Selected \& Re-Cluster en la parte inferior de la pantalla.

24 Método Key-Collision-NGram-Fingerprint = 2
Para realizar una búsqueda aún más exhaustiva y agresiva se seleccionarán los siguientes valores, Method: Key Collision, Keying Function: Ngram-Fingerprint, y se aumenta de uno a dos Ngram Size: 2.

25 Métodos Nearest Neighbor
Es un método alternativo de búsqueda de errores consiste en calcular el número de cambios que hay que hacer a una palabra para convertirla en otra. Si una par de palabras se encuentra a una distancia menor que un límite fijado por el usuario, se considera que es un error. Mientras que los métodos de Key Collision son muy rápidos, tienden a ser demasiado estrictos o demasiado ambiguos y no hay forma de afinar la gran diferencia entre los datos. 1. Los métodos de Nearest Neighbor proporcionan un parámetro conocido como Radius, que representa un umbral de distancia.

26 Método Nearest-Neighbor con distancia PPM, R=1, Block-Chars=6
Para usar este método se selecciona en el panel de Cluster \& Edit Column, Method: Nearest-Neighbor con Distance Function: PPM, Radius=1 y BlockChars=6.

27 Método Nearest-Neighbor con distancia Levenhstein, R=1, Block-Chars=6
Con la finalidad de buscar aún más errores, en el panel de Cluster \& Edit Column se selecciona, Method: Nearest-Neighbor con Distance Function: Levenhstein, Radius=1 y Block Chars=6. Se observa inmediatamente que Refine encuentra una serie de inconsistencias como ``Instituto Nacional de Estadística y Geografía$"$ e ``Instituto Nacional de Estadística y Geografia$"$ (que se diferencia por un acento). Es posible corregir estos errores seleccionando el nombre correcto en cada caso o seleccionando el recuadro, para indicarle a Refine que se esta de acuerdo.

28 Método Nearest-Neighbor con distancia PPM, R=2, Block Chars=6
OpenRefine ofrece una búsqueda aún más intensiva en los errores al aumentar el valor del parámetro Radius. Se selecciona en el panel, lo siguiente Cluster \& Edit Column and Run y se escoge Radius=2. Con esto se obtiene un refinamiento más agresivo Refine encuentra algunas inconsistencias y para poder resolverlas es necesario seleccionar en el recuadro y dar clic en el botón Merge Selected \& Re-Cluster y así declarar que se está de acuerdo con lo que indica OpenRefine.

29 Método Nearest-Neighbor con distancia Levenhstein, R=2 y Block Chars=5
Finalmente, para finalizar la refinación se puede mantener el valor de Radius y cambiar la función de distancia a Levenhstein. Nuevamente, se da clic en el botón Merge Selected \& Re-Cluster y así declarar que se está de acuerdo con lo que indica OpenRefine.

30 Resumen: búsqueda de errores
La búsqueda de errores es un proceso exploratorio que a veces depende del tipo de errores que se encuentran en la base de datos. Lo más recomendable es comenzar por un método sencillo de búsqueda como lo es Key Collision y después pasar a uno más intenso como Nearest Neighbor. Posteriormente se pueden ir probando distintos valores para el parámetro Radius con las diferentes funciones de distancia. Los métodos como Nearest Neighbor encuentran una mayor cantidad de inconsistencias, sin embargo, también pueden dar una mayor cantidad de falsos positivos.


Descargar ppt "Metodología de limpieza de datos con la herramienta de OpenRefine"

Presentaciones similares


Anuncios Google