La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Control de Duplicados.

Presentaciones similares


Presentación del tema: "Control de Duplicados."— Transcripción de la presentación:

1 Control de Duplicados

2 ¿Qué es un duplicado? El caso más simple: Muestreo realizado en la misma fecha/tiempo/posición con exactamente las mismas profundidades /valores de variables Reemplazar los datos recibidos en tiempo casi real por la versión en tiempo diferido- posición/profundidades/variables más exactas Mismo muestreo procedente de fuentes diferentes: posiblemente diferentes fechas/tiempos/posiciones, posiblemente diferentes profundidades/valores de variables, unidades, variables, posiblemente diferente metadatos

3 Dificultades en encontrar duplicados no exactos
Se reporta usando la hora local Latitud o longitud en el hemisferio equivocado Barco incorrecto Los valores están interpolados a niveles estándar Se usan diferentes unidades (oxígeno, nutrientes) Cabecera con un conjunto equivocado de perfiles Necesitamos diferenciar muestreos cercanos de duplicados.

4 1933 1936 Los mismos datos de la misma fuente: 3 años de diferencia exactos

5 1933 Dos fuentes originales – el mismo crucero en años diferentes 1936

6 La importancia de eliminar duplicados
Los duplicados pueden sesgar las estadísticas y los resultados de la investigación Los duplicados incrementan innecesariamente el tamaño de las bases de datos Al incorporar el conjunto de datos MIRC (Japón) en WOD, con un total de 1.1 millones de muestreos, se detectó que, excepto de ellos, los demás estaban duplicados con muestreos ya existentes en WOD.

7 Chequeo/eliminación de duplicados en WOD
Eliminación automática de duplicados exactos (oclol samecheck) Comprobación visual (no gráfica) para detectar duplicados cercanos (oclol xultra) Fichero de información(samecheck.d) para definir los parámetros que gobiernan el chequeo de duplicados cercanos Chequeos múltiples con criterios gradualmente más flexibles Reglar para decidir qué versión mantener: Tiempo diderido sobre tiempo real Lo más cercano al creador (investigador principal sobre repositorio institucional Mantener la versión en la base de datos (ya ha pasado el control de calidad)

8 Se modifica con editor vi
___________________________________________________ DUPLICATE CHECKING INSTRUCTIONS TEMP FIRST SET DUPLICATE FILE, NEW SECOND SET DUPLICATE FILE (5), TEMP FIRST SET DUPLICATE FILE, ADD TO SECOND SET DUPLICATE FILE (4), BOTH SETS NEW DUPLICATE FILES (3), FIRST SET NEW DUPLICATE FILE (2), SECOND SET NEW DUPLICATE FILE (1) OR ADD TO OLD FILE (0)? CHECK DATE (1=YES 0=NO) 1 ACCEPTABLE DIFFERENCE BETWEEN DAYS CHECK MINUTES (2), HOURS (1), NO CHECK (0): NEGATIVE INCLUDES MISSING VALUES CHECK POSITION (1=YES 0=NO) ACCEPTABLE DIFFERENCE BETWEEN POSITIONS (DECIMAL VALUE) 0.005 CHECK SHIP CODE (1=YES 0=NO) CHECK ORIGINATORS STATION CODE (NUMERIC ONLY) (1=YES 0=NO) CHECK SAME CRUISE CODE (1=YES 0=NO) CHECK MEASURED DATA (1=YES 0=NO) 0. Porción de samecheck.d Se modifica con editor vi

9 Ejemplo de oclol xultra
Chequeo visual de duplicados

10 ¿Por qué usamos los valores en vez de los pérfiles gráficos?
Rojo: Mar. 11, 1961, 21:00GMT, °E, 41.39°N Verde: Mar. 11, 1961, 12:30GMT, °E, 41.65°N Temp 11.1 1.2 1.1 Temp 1.1 1.2 Z (m) 0.0 10.0 30.0 50.0 75.0


Descargar ppt "Control de Duplicados."

Presentaciones similares


Anuncios Google