Control de Duplicados.

Slides:



Advertisements
Presentaciones similares
APLICAS FUNCIONES ESPECIALES Y TRANSFORMACIONES DE GRÁFICAS PROFESORA: XÓCHITL ARIANDA RUIZ ARMENTA MATEMÁTICAS 4 4TO SEMESTRE ENERO 2015 MULTIVERSIDAD.
Advertisements

La Investigación a partir de Historias

Esquema de la World Ocean Database
Primera Versión Mgr. Omar Pérez.
NetCDF.
Biblioteca Virtual, Repositorio Institucional y Observatorio Tecnológico Objetivo: Recuperar y gestionar toda la documentación científica, revistas, tesis,
SEMINARIO DE TESIS: RESULTADOS II
MEDIDAS Y ERRORES.
Opciones a la hora de realizar el control de calidad
Inventario de Fuentes de Datos Abiertos de México
Gestión de datos.
Ocean Data View ODV para WOD
Control de Calidad de la World Ocean Database: Niveles Observados
Stored Procedures Firebird.
SAP Business One, Versión 9.0
Cómo configurar el sistema WOD
Interpolación a Niveles Estándar
Introducción al Muestreo Msc Edwin Giron Amaya
Algunas Características de C++ no presentes en C
Algunas Características de C++ no presentes en C
Algunas consideraciones con Redes Neuronales
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
Nuevos retos de la BUS Lourdes Muñoz de Arenillas Lorenzo Bermúdez
Organización y Descripción de Archivos
Normalización en Calidad de la Información Geográfica como elemento de desarrollo. Seminario sobre Normas de Información Geográfica «Hacia una gestión.
Vectores de posicion.
Curso de estadística aplicada
XBRL en la recogida de datos de las Estadísticas Estructurales
LA MATRIZ DE CONSISTENCIA
INFORME DE AYB Y EVENTOS HOTEL PEREIRA
Monitoreo y control on line de variables críticas de proceso
INFORME DE AYB Y EVENTOS HOTEL BURO 51
INFORME DE AYB Y EVENTOS HOTEL LAS LOMAS
INFORME DE AYB Y EVENTOS HOTEL BURO 26
INFORME DE AYB Y EVENTOS HOTEL BURO 51
ESTADISTICA.
estadistica 2 conceptos
INFORME DE AYB Y EVENTOS HOTEL BURO
INFORME DE AYB Y EVENTOS HOTEL CHICO 97
INFORME DE AYB Y EVENTOS HOTEL LAS LOMAS
INFORME DE AYB Y EVENTOS HOTEL CHICO 97
FIRST TERM UNIT 0: SCIENTIFIC KNOWLEDGE U.0_3: Physical quantities.
ESTADISTICA DESCRIPTIVA
INFORME DE AYB Y EVENTOS HOTEL INTERCONTINENTAL
INFORME DE AYB Y EVENTOS HOTEL BURO 26
INFORME DE AYB Y EVENTOS HOTEL LAS LOMAS
INFORME DE AYB Y EVENTOS HOTEL CASA DE ALFÉREZ
INFORME DE AYB Y EVENTOS HOTEL INTERCONTINENTAL
INFORME DE AYB Y EVENTOS HOTEL CARTAGENA
INFORME DE AYB Y EVENTOS HOTEL PEREIRA
INFORME DE AYB Y EVENTOS HOTEL CASA DE ALFEREZ
INFORME DE AYB Y EVENTOS HOTEL CASA DE ALFÉREZ
INFORME DE AYB Y EVENTOS HOTEL CARTAGENA
WOK para investigadores: Researcher ID
INFORME DE AYB Y EVENTOS HOTEL BURO 51
INFORME DE AYB Y EVENTOS HOTEL BURO
Statistical Data and Metadata Exchange - SDMX
INFORME DE AYB Y EVENTOS HOTEL BURO
INFORME DE AYB Y EVENTOS HOTEL PEREIRA
INFORME DE AYB Y EVENTOS HOTEL DE PEREIRA
INFORME DE AYB Y EVENTOS HOTEL BURO 26
INFORME DE AYB Y EVENTOS HOTEL BURO 51
INFORME DE AYB Y EVENTOS HOTEL BURO 26
CONEXIÓN HUMANA.
Estudio del movimiento
INFORME DE AYB Y EVENTOS HOTEL BURO 51
INFORME DE AYB Y EVENTOS HOTEL CHICO 97
Conversión de Unidades
CONCEPTO DE VARIANZA Se llama Varianza Total a la variación que observamos en las medidas tomadas de la variable dependiente Varianza Total = Varianza.
Transcripción de la presentación:

Control de Duplicados

¿Qué es un duplicado? El caso más simple: Muestreo realizado en la misma fecha/tiempo/posición con exactamente las mismas profundidades /valores de variables Reemplazar los datos recibidos en tiempo casi real por la versión en tiempo diferido- posición/profundidades/variables más exactas Mismo muestreo procedente de fuentes diferentes: posiblemente diferentes fechas/tiempos/posiciones, posiblemente diferentes profundidades/valores de variables, unidades, variables, posiblemente diferente metadatos

Dificultades en encontrar duplicados no exactos Se reporta usando la hora local Latitud o longitud en el hemisferio equivocado Barco incorrecto Los valores están interpolados a niveles estándar Se usan diferentes unidades (oxígeno, nutrientes) Cabecera con un conjunto equivocado de perfiles Necesitamos diferenciar muestreos cercanos de duplicados.

1933 1936 Los mismos datos de la misma fuente: 3 años de diferencia exactos

1933 Dos fuentes originales – el mismo crucero en años diferentes 1936

La importancia de eliminar duplicados Los duplicados pueden sesgar las estadísticas y los resultados de la investigación Los duplicados incrementan innecesariamente el tamaño de las bases de datos Al incorporar el conjunto de datos MIRC (Japón) en WOD, con un total de 1.1 millones de muestreos, se detectó que, excepto 36000 de ellos, los demás estaban duplicados con muestreos ya existentes en WOD. http://www.mirc.jha.or.jp/en/outline.html

Chequeo/eliminación de duplicados en WOD Eliminación automática de duplicados exactos (oclol samecheck) Comprobación visual (no gráfica) para detectar duplicados cercanos (oclol xultra) Fichero de información(samecheck.d) para definir los parámetros que gobiernan el chequeo de duplicados cercanos Chequeos múltiples con criterios gradualmente más flexibles Reglar para decidir qué versión mantener: Tiempo diderido sobre tiempo real Lo más cercano al creador (investigador principal sobre repositorio institucional Mantener la versión en la base de datos (ya ha pasado el control de calidad)

Se modifica con editor vi ___________________________________________________ DUPLICATE CHECKING INSTRUCTIONS TEMP FIRST SET DUPLICATE FILE, NEW SECOND SET DUPLICATE FILE (5), TEMP FIRST SET DUPLICATE FILE, ADD TO SECOND SET DUPLICATE FILE (4), BOTH SETS NEW DUPLICATE FILES (3), FIRST SET NEW DUPLICATE FILE (2), SECOND SET NEW DUPLICATE FILE (1) OR ADD TO OLD FILE (0)? CHECK DATE (1=YES 0=NO) 1 ACCEPTABLE DIFFERENCE BETWEEN DAYS CHECK MINUTES (2), HOURS (1), NO CHECK (0): NEGATIVE INCLUDES MISSING VALUES CHECK POSITION (1=YES 0=NO) ACCEPTABLE DIFFERENCE BETWEEN POSITIONS (DECIMAL VALUE) 0.005 CHECK SHIP CODE (1=YES 0=NO) CHECK ORIGINATORS STATION CODE (NUMERIC ONLY) (1=YES 0=NO) CHECK SAME CRUISE CODE (1=YES 0=NO) CHECK MEASURED DATA (1=YES 0=NO) 0. Porción de samecheck.d Se modifica con editor vi

Ejemplo de oclol xultra Chequeo visual de duplicados

¿Por qué usamos los valores en vez de los pérfiles gráficos? Rojo: Mar. 11, 1961, 21:00GMT, 150.020°E, 41.39°N Verde: Mar. 11, 1961, 12:30GMT, 150.033°E, 41.65°N Temp 11.1 1.2 1.1 Temp 1.1 1.2 Z (m) 0.0 10.0 30.0 50.0 75.0