Encuestas sobre estadísticas de negocios

Encuestas sobre estadísticas de negocios
Estadísticas y registros de negocios Encuestas sobre estadísticas de negocios 3. Procesamiento de datos El procesamiento de Datos en el sentido más amplio incluye una amplia gama de técnicas, desde la captura de datos a la edición, análisis, tabulación y difusión.

Sistema de archivos de microdatos
Un archivo de microdatos debe ser configurado para almacenar los datos de la encuesta Un cierto número de operaciones de escritorio son necesarias antes de estén listas las etiquetas de direcciones del cuestionario Entre las más importantes se encuentran la eliminación de duplicaciones evidentes y la actualización de cambios de dirección reportados recientemente Las revisiones y actualizaciones de último momento antes del envío evitarán irritar a los encuestados, ayudarán a reducir la carga impuesta a los encuestados y la no respuesta La lista de unidades incluidas en la muestra y los elementos del cuestionario proporcionan los ingredientes para la creación de un archivo de microdatos, en el que serán grabados los datos de la encuesta. Los elementos del conjunto consisten en unidades informantes, mientras que los campos de los registros se refieren a conceptos del cuestionario. Hicimos notar anteriormente que el marco de muestreo sufrirá inevitablemente las consecuencias de una serie de deficiencias, algunas de las cuales se reflejarán también en la muestra. Así pues, después de preparar los archivos de control de la recolección y antes de hacer las etiquetas del cuestionario, se aplican una serie de controles de escritorio y por computadora. Entre las más importantes se encuentran la eliminación de duplicaciones evidentes y la actualización de cambios de dirección reportados recientemente, así como el control de la estructura de las unidades tal como está registrada en el RCN. Lo último se aplica especialmente a las empresas grandes y complejas, cuya estructura jurídica y operativa cambia con frecuencia. En general merece desde luego la pena dedicar tiempo y esfuerzos a controles y actualizaciones de último momento antes del envío. Evitan irritaciones de los encuestados, contribuyen a reducir la carga para los encuestados y la no respuesta, y ahorran tiempo en las etapas posteriores del proceso de recolección.

Identificación de unidades
La comunidad de negocios es dinámica Son de esperarse las discrepancias entre la unidad informante prevista y la realidad Es importante establecer la causa de las discrepancias Las correcciones y actualizaciones de las unidades y sus atributos deben llevarse a cabo en estrecha cooperación con personal del RCN. En el dinámico mundo de los negocios, las estructuras y actividades de las unidades cambiarán con frecuencia. Todos los tipos de eventos, como la fusión, la escisión y la concentración pueden ocurrir. Los conglomerados a menudo son tan dinámicos en este sentido que no es posible seguirlos en el RCN, incluso en presencia de una dependencia creadora de perfiles de grandes empresas. Son pues de esperar las discrepancias entre la unidad de información previstas y la realidad, lo que se manifiesta durante la recolección de datos. Los inspectores deben estar alerta y señalar posibles cambios a los encargados de establecer perfiles o al personal del RCN. El no detectar los cambios en la estructura podría dar lugar a graves distorsiones en los resultados. Al encontrarse con una discrepancia, es importante establecer si es causada por un cambio reciente, ocurrido después del período de referencia, o por un error o retraso en el registro de negocios. En el primer caso, es pertinente hacer arreglos especiales con el encuestado a fin de reconstruir este último caso, en realidad ha sido detectado un error de marco, y la unidad informante debe ajustarse en consecuencia. El que esto aplique también al nivel de la correspondiente unidad estadística, depende de la política con respecto al tratamiento de los cambios no reales y con respecto a la coordinación entre las estadísticas de corto plazo y anuales. Por otra parte, en el caso de una encuesta por muestreo, pueden surgir complicaciones en la etapa de ponderación . Las correcciones y actualizaciones de las unidades y sus atributos deben llevarse a cabo en estrecha cooperación con personal del RCN. Hay que llegar a acuerdos para evitar la duplicación de esfuerzos y, peor aún, el doble contacto con los encuestados.

Modos de captura de datos
Básicamente, se producen cinco tipos de CAPTURA de datos: Intercambio electrónico de datos (IED) Escaneo Reconocimiento óptico de caracteres (OCR, por sus siglas en inglés) Captura de datos confirmados Captura de datos no confirmados Se requiere un software especial de captura de datos Cuál de los métodos se deba aplicar es algo que depende de los recursos laborales, equipos y conocimientos tecnológicos Básicamente, se producen cinco tipos de captura de datos: • Intercambio electrónico de datos (IED). Es típico de este método que al menos parte de la edición la pueda hacer el encuestado; • El escaneo es otra alternativa de tecnología de punta. Las partes pertinentes de los formularios en papel recuperados son traducidas electrónicamente en información como mapas de bits; • Los sistemas actuales de reconocimiento óptico de caracteres (OCR) permiten controles de edición sencillos, como valores válidos y rangos de valores. El método se adapta especialmente a las grandes recolecciones de datos. Evidentemente, la legibilidad es un factor fundamental. Números son más fáciles de leer que el texto llano, pero las celdas vacías no son percibidas. Los paquetes modernos de OCR usan un diccionario cuando están reconociendo palabras, pero cada combinación de cifras resulta en un número válido. El material escrito a mano es mucho más difícil de reconocer que los datos escritos a máquina o en computadora. Con el OCR, la principal precaución es que requiere un diseño y estándares de impresión muy precisos para el cuestionario, para garantizar que las respuestas puedan ser leídas por los sensores correctamente; • La captura de datos confirmados significa que un programa de computadora le da retroalimentación instantánea al capturista de datos que ingresa los datos del formulario. • La captura de datos no confirmados significa que los datos se escriben a alta velocidad y sin la retroalimentación de la máquina. Este método puede aplicarse todavía cuando la calidad de los datos entrantes es alta. En general, la entrada de datos necesita un hardware y un software muy específicos. Algunos controles de valor válido y controles de rango pueden ser aplicados en estos sistemas, de tal manera que se puede detectar los errores sencillos de mecanografía. Los controles sólo pueden ser blandos, ya que lo único que el mecanógrafo puede hacer es comparar los datos introducidos con los datos en el formulario. Un programa de hoja de cálculo es menos adecuado para la captura de datos, debido a los problemas con la protección del mecanógrafo y de los datos, contra las consecuencias de apretar la tecla equivocada. Sólo cuando el mecanógrafo está familiarizado con el programa de hoja de cálculo esto representa un problema de menor importancia. Cuál de los métodos se deba aplicar es algo que depende de los recursos laborales, del capital accesible y de los conocimientos tecnológicos. En cualquier caso, la elección del método a utilizar debe hacerse en el contexto del diseño del proceso de edición.

Controles primarios Cuando los formularios completados vuelven a la ONE, la primera cosa a hacer es comprobar si no están (casi) en blanco Los formularios inutilizables pueden considerarse como no respuestas o pueden ser programados para seguimiento No se debe esperar para introducir los datos hasta que todo el proceso de recolección haya concluido Las acciones de seguimiento para con los encuestados que respondieron datos poco verosímiles debe llevarse a cabo tan pronto como sea posible después de que regrese el formulario Independientemente de los procedimientos de edición, los archivos sin procesar, tal como fueron presentados por los encuestados, también deben conservarse Cuando los formularios completados vuelven a la ONE, la primera cosa a hacer es comprobar si no están (casi) en blanco. Los formularios inutilizables pueden considerarse como no respuestas o pueden ser programados para seguimiento, dependiendo de la importancia de la observación. Es obvio que no se debe esperar para introducir los datos hasta que todo el proceso de recolección haya concluido. En primer lugar, para la mayoría de las encuestas uno deseará publicar datos provisionales. Esto requiere de un monitoreo permanente de los índices de respuesta -- ponderados en función de la proporción de los encuestados en el total --, así como de una apreciación continuada de las estimaciones de los datos, con el fin de determinar si los datos son lo suficientemente fiables como para publicarse. En segundo lugar, las acciones de seguimiento para con los encuestados que respondieron datos poco verosímiles debe llevarse a cabo tan pronto como sea posible después de que regrese el formulario Aunque puede haber buenas razones para incorporar ciertas operaciones de edición durante la captura de datos, también es útil tener la posibilidad de usar un juego de los datos en bruto, tal como fueron proporcionados por el encuestado. Un juego de datos como éste permite el estadístico llevar a cabo un análisis sistemático de errores, que podría ser interesante para probar la claridad de los cuestionarios. Por otra parte, al conservar los datos originales puede determinarse el valor agregado de las operaciones de edición. En tercer lugar, durante las fases posteriores del procesamiento, podrían surgir discusiones en cuanto a la pertinencia de algunas ediciones. Esto sucede, en particular, cuando los controles de coherencia con los datos de otras encuestas ponen de manifiesto las diferencias entre los datos editados. Se presupone aquí que el archivo de datos resultante de la etapa de recolección, puede considerarse como un verdadero duplicado del conjunto de cuestionarios completados por los encuestados.

Tipos de controles La edición es el examen de los datos para la detección de errores Sólo una parte de los errores cometidos por los encuestados puede rastrearse La edición de datos tiene lugar durante o después de la captura de datos Los controles de enrutamiento prueban si todas las preguntas que deberían haberse contestado han sido en realidad contestadas Los controles de validación de datos comprueban si las respuestas son permisibles Los controles relacionales son una potente herramienta de edición Una edición exhaustiva implica el riesgo de una sobreedición Dicho de manera sencilla, la edición es el examen de datos con el fin de detectar errores. Al igual que cualquier encuestado, un informante de estadísticas de negocios es propenso a hacer errores mientras llena un cuestionario estadístico. Sólo una parte de estos errores puede ser rastreada por el organismo de estadística que recoge los datos; muchos errores pueden detectarse pero no son detectados. Por lo tanto, incluso una edición de datos exhaustiva nunca producirá un archivo de datos libre de errores. Esto no es algo que realmente nos tenga que preocupar, en la medida en que somos capaces de rastrear los errores importantes y que tienen consecuencias. La edición de datos tiene lugar durante o después de la captura de datos. Los controles de enrutamiento prueban si todas las preguntas que deberían haberse contestado han sido en realidad contestadas. Los controles de validación de datos comprueban si las respuestas son permisibles. En las encuestas de negocios el rango de valores válidos a menudo tiene que ser muy amplio, debido a las dimensiones cambiantes de las empresas. En ese caso, los controles relacionales son una potente herramienta de edición Muchos controles revisten la forma de una relación entre dos variables, que debe encontrarse dentro de límites específicos. Otro tipo de verificación relacional es el control aritmética, por ejemplo especificando que la suma de las variables debe ser igual a un total. Algunas reglas de edición son estocásticas, en el sentido de que no son más que una advertencia de que algo podría estar mal (errores blandos). Una edición exhaustiva conlleva el riesgo de un exceso de edición, que lleva a cambiar los datos que parecen sospechosos, pero sin embargo no son erróneos. Otras reglas de edición son determinísticas: la violación de una de estas reglas señala un error con probabilidad 1.

Organización de la edición
No todas las estrategias de edición puestas en práctica son eficientes Existen cinco alternativas, algunas de las cuales pueden ser combinadas entre sí: • Papel y lápiz • Iteración de la captura de datos y de las listas de errores • Captura de datos y edición asistidas por computadora • Edición automatizada • Edición selectiva No todas las estrategias de edición puestas en práctica son eficientes. Distinguimos cinco alternativas, algunas de las cuales pueden combinarse para formar una estrategia óptima: • Papel y lápiz • Iteración de la captura de datos y de las listas de errores • Captura de datos y edición asistidas por computadora • Edición automatizada • Edición selectiva Cuando se ha abandonado la edición en papel y lápiz, y se ha encontrado que la captura de datos iterativa con generación de listas de error consume demasiado tiempo, a menudo uno se convierte a la captura y edición asistida por computadora. Entonces, la corrección de errores (de todos los registros) puede llevarse a cabo durante la captura de datos confirmados. Una solución drástica para la edición automatizada son los programas de localización de campos que probablemente contienen un error, y hacer la imputación con alguna predicción del valor real. Cuando un control de errores falla y un campo ha resultado ser erróneo, uno puede simplemente desechar el formulario (y adaptar la ponderación), llamar a los encuestados, dejar que los capturistas hagan "correcciones" arbitrarias (de acuerdo con pautas generales) o aplicar la imputación automática, la que puede ser determinista o estocástica. Esta última es preferible.

Tres etapas de la edición
En el proceso de edición se pueden diferenciar tres etapas: Se utilizan métodos estocásticos y deterministas para detectar errores 1 Detección de errores o inconsistencias 2 En caso de una inconsistencia: determinar qué campo es erróneo 3 Corrección o imputación En el proceso de edición se pueden diferenciar tres etapas: 1. Detección de errores o inconsistencias, 2. En caso de que haya una inconsistencia: determinar qué campo tiene un error, 3. Corrección o imputación. Se puede utilizar una regla fija determinista para determinar qué campo tiene un error, pero en la mayoría de los casos es preferible una alternativa estocástica. En su forma más simple Este método establece que, si la variable A se relaciona con otras tres variables, B, C y D, un campo erróneo A puede generar tres inconsistencias, es decir con B, C y D (suponiendo que los controles relacionales A-B, A-C y A-D hayan sido definidos). A partir de esta observación, el número de inconsistencias en que incurre un campo parece ser un criterio natural para determinar qué campo tiene error. Esta solución es sobria y también satisface a todas las ediciones. El método debe ser más avanzado y no sólo contar el número de inconsistencias en que incurre un campo. Para reducir la dependencia de las decisiones sobre el número de controles definidos, éste consiste en el análisis de los controles de edición, eliminando los controles lógicamente superfluos y agregando controles implícitos. Por otra parte, uno debe procesar los registros como un todo, no campo por campo, a fin de evitar la introducción de nuevas inconsistencias. Se localiza hasta el conjunto más pequeño posible de campos, por medio de lo cual se puede hacer que un registro sea consistente con todos los controles. Una desventaja de este método es que la localización de este conjunto más pequeño puede ocupar una gran cantidad de tiempo en la computadora. La metodología aplica con frecuencia la imputación "hot-deck".. La imputación 'hot-deck' de un registro "receptor" fallido busca un "donante" similar que no viola ningún control de error, para copiar de él los campos que faltan. Cuando la definición de "similar" es muy cerrada, y requiere idénticas puntuaciones en muchos campos, no se podrá encontrar un registro de esa naturaleza, y el sistema a menudo se refugiará en alguna imputación simple por eliminación.

• Edición selectiva La edición selectiva se concreta en la detección de valores aberrantes Puede tener lugar durante la captura de datos, o cuando se ha recogido ya la mayoría de los datos La edición durante la captura de datos (edición de entrada) tiene la ventaja de la puntualidad La edición de entrada es costoso Para reducir los costos uno debe ser selectivo La edición selectiva se concreta en la detección de valores aberrantes. Puede tener lugar durante la captura de datos, o cuando se ha recogido ya la mayoría de los datos (macro-edición / edición gráfica). La edición durante la captura de datos (edición de entrada) tiene la ventaja de la puntualidad, porque puede comenzar tan pronto como ingrese el primer formulario; pero la edición de entrada no debe ser demasiado extensa porque es costosa, puesto que se basa en los registros individuales. Para reducir los costos se debe ser selectivo, por ejemplo separando los formularios en un flujo crítico y un flujo no crítico, dejando este ultimo para los procedimientos automáticos. En lugar de un criterio simple de división como tamaño de la empresa, se puede construir una "función de calificación" o "indice de riesgo".

Macro-edición La macro-edición o edición agregada es una forma de edición selectiva centrada en la salida Sistematiza lo que cada organismo de estadística hace antes de la publicación: verificar si las cifras de la publicación parecen plausibles Para ello se puede comparar los totales en celdas de publicación con las mismas cifras en el momento t-1 La edición selectiva no está exenta de riesgos Puede darse un sesgo si, por ejemplo, sólo las grandes desviaciones positivas a partir del valor esperado, se corrigen, y un gran número de desviaciones negativas (los ceros) son ignoradas También la falsa estabilidad, debida a las empresas que envían exactamente las mismas respuestas en cada ocasión, puede dañar la validez de las cifras de la publicación La macro-edición o edición agregada es la edición de salida. Sistematiza lo que cada organismo de estadística hace antes de la publicación: verificar si las cifras de la publicación parecen plausibles. Para ello se puede comparar los totales en celdas de publicación con las mismas cifras en el momento t-1. Un software gráfico puede ser un poderoso instrumento para mostrar una desviación de la tendencia. Para que la macro-edición sea eficaz, es también importante que el software permita realizar un acercamiento desde los agregados a los microdatos, y que los cambios en el nivel micro puedan hacerse fácilmente. La mejora en eficiencia es que los errores de los agregados no sospechosos ya no son editados. Las cifras de comercio exterior son difíciles de editar. Controlar de uno en uno los millones de registros que ingresan cada mes es una misión imposible. Con macro-edición uno puede seleccionar los errores graves para su edición y saltar los pequeños errores. Desde el punto de vista de una macro-edición, los flujos comerciales son sospechosos cuando se desvían considerablemente de su evolución histórica. Se controlan en primer lugar los registros que contribuyen en gran medida a dar cifras sospechosas de publicación. Los registros que contribuyen a cifras de publicación que lucen normales no son controlados. Por supuesto, es necesario diseñar fórmulas específicas para predecir las cifras del comercio actual a partir de la historia, y priorizar la edición de registros relacionados con cifras de publicación sospechosas. Cabe señalar que la edición selectiva no está completamente exenta de riesgos. Deberá tenerse cuidado de que no genere demasiados sesgos. Puede darse un sesgo si, por ejemplo, sólo las grandes desviaciones positivas a partir del valor esperado, se corrigen, y un gran número de desviaciones negativas (los ceros) son ignoradas. También la falsa estabilidad, debida a las empresas que envían exactamente las mismas respuestas en cada ocasión, puede dañar la validez de las cifras de la publicación.

Controles externos de coherencia
Hasta ahora nos hemos centrado en comprobaciones de la coherencia entre los elementos de un solo cuestionario Sin embargo, también pueden aplicarse controles con los datos de otros estudios Los controles externos de coherencia son un medio importante para reducir los problemas durante la etapa de integración La aplicabilidad de los controles externos depende del grado de coordinación entre las encuestas Hasta ahora nos hemos centrado en comprobaciones de la coherencia entre los elementos de un solo cuestionario. Sin embargo, también pueden aplicarse controles con los datos de otros estudios. Esto podría incluso ser un motivo para la introducción de elementos redundantes en diferentes cuestionarios. "Número de empleados" es un ejemplo notorio. Los controles externos de coherencia, primero a nivel macro (agregado), y cuando sea necesario también a nivel micro, son un medio importante para reducir los problemas durante la etapa de integración. La aplicabilidad de los controles externos depende del grado de coordinación entre las encuestas comparadas. Una vez más, he aquí una de las ventajas de apegarse en la medida de lo posible a los conceptos y normas del marco coherente al configurar la encuesta.

Imputación Se distingue entre dos tipos de datos faltantes: no respuesta de unidad y no respuesta de elemento La imputación se aplica a la no respuesta de elemento La no respuesta se aborda mediante una nueva ponderación Hay una tercera manifestación de los datos faltantes, llamada falta intencional de datos Se puede distinguir entre tres tipos de elementos de no respuesta En el primer tipo los valores que faltan son completamente al azar El segundo tipo no depende del valor de la variable, sino de los valores de alguna(s) otra(s) variable(s) El tercer tipo depende del valor de la variable en la que no se encuentra, por ejemplo las puntuaciones altas son más propensas a faltar que las bajas En la mayoría de las encuestas uno tiene que enfrentarse al problema de lo datos faltantes. Se distingue entre dos tipos de datos faltantes: no respuesta de unidad y no respuesta de elemento. La imputación conviene a este último caso, mientras que la no respuesta de unidad es tratada mediante una nueva ponderación. En realidad hay un tercer tipo de datos faltantes. A diferencia de la no respuesta, es decidido deliberadamente durante la fase de diseño de la encuesta. Por lo tanto hablaremos de datos faltantes intencionales. La no respuesta de elemento o no respuesta parcial ocurre cuando las unidades incluidas en la muestra no se han contestado todas las preguntas pertinentes, pero respondieron a parte de ellas. Se puede distinguir entre tres tipos de elementos de no respuesta: En el primer tipo los valores faltantes son completamente al azar El segundo tipo no depende del valor de la variable, sino de los valores de alguna(s) otra(s) variable(s). El tercer tipo depende del valor de la variable en la que no se encuentra, por ejemplo las puntuaciones altas son más propensas a faltar que las bajas. Supongamos un formulario que contiene un elemento acerca del impuesto por contaminación. Si las empresas no responden a este tema, porque presuponen erróneamente que la pregunta no estaba dirigida a ellas, la falta de contestación se denomina como completamente al azar. De hecho, el que se responda o no a la pregunta no tiene relación con el nivel del impuesto o con cualquier otro elemento. Ahora, supongamos que algunas de las empresas suelen pagar impuestos sobre la contaminación por un determinado tipo de producto químico que emiten al aire. Recientemente este producto químico ha demostrado ser bastante peligroso para el medio ambiente. Los encuestados implicados podrían ser más propensos a "olvidar" la cuestión del impuesto sobre la contaminación que otros encuestados. En este caso, la no respuesta depende de otra variable, es decir del tipo de contaminación. Ahora bien, podríamos decir que, dada la naturaleza de la contaminación por la que la empresa recibe una carga impositiva, la no respuesta es completamente al azar. La no respuesta no es al azar cuando los negocios con altos niveles de impuestos son más proclives a no responder que las empresas con bajos niveles de impuestos.

Estrategias para hacer frente a la no respuesta
Dos estrategias generales aplican para tratar la no respuesta de elemento La primera estrategia ignora los valores que faltan Este método es llamado análisis completo de caso En la segunda estrategia se buscan estimaciones para los datos que faltan Si se eliminan todos los casos con uno o más valores faltantes el tamaño de la muestra puede convertirse en algo muy pequeño Dos estrategias generales aplican en relación a la manera de tratar la no respuesta de elemento. La primera estrategia pasa por alto la falta de valores mientras que su tratamiento se posterga para la fase de análisis. La manera más sencilla es ignorar todos los formularios con valores faltantes y limitarse al análisis de los formularios enteramente rellenadas. Este método es llamado análisis completo de caso. Una alternativa es el método de caso disponible, que utiliza toda la información disponible para establecer estadísticas a una variable y a dos variables. Los métodos más elaborados analizan directamente los datos incompletos, mediante la especificación de un modelo. Los métodos que analizan directamente los datos incompletos se basan en suposiciones de distribución en cuanto a las variables. En la segunda estrategia se buscan estimaciones para los datos que faltan y la matriz de datos se completa con estos nuevos valores. En la matriz de datos objeto de imputación pueden aplicarse técnicas de análisis estándar. Un análisis completo de caso puede obtenerse normalmente en los paquetes de cómputo estándar, eligiendo la opción "supresión por listas" ("listwise deletion"). Este método es fácil de entender y fácilmente aplicable, pero al eliminar todos los casos con uno o más valores faltantes el tamaño de la muestra puede llegar a ser muy pequeño. El método de caso disponible utiliza más información que la opción de caso completo. Las estadística a una variable, al igual que la media, se calculan para todos los casos disponibles (no faltantes) para esa variable. Y las estadísticas a dos variables, como el coeficiente de correlación, se calculan para todos los pares disponibles. Los problemas surgen cuando las encuestas tienen diferentes tamaños de muestra. Por otra parte, la matriz de correlaciones puede no ser positiva definida. Para ambos métodos se supone implícitamente que los valores que faltan son completamente al azar. En los enfoques más avanzados debe especificarse un modelo. Este modelo contiene los parámetros de interés. Por otra parte, se debe establecer la hipótesis sobre la distribución de las variables. Por lo general se supone que los datos siguen una distribución normal de múltiples variables.

Métodos de imputación Existen varios métodos de imputación, que van desde los procedimientos estadísticos muy simples e intuitivos hasta los más complicados Los métodos más importantes son: Tratamiento subjetivo: establecer la imputación sobre la base de los valores que parecen razonables Imputación promedio/moda: atribuir la media de una variable o la moda Post estratificación: dividir la muestra en estratos y, a continuación, hacer la imputación promedio/moda/mediana del estrato Imputación 'cold deck': encontrar estimaciones razonables de los valores que faltan en otro conjunto de datos Imputación 'hot deck': encontrar un caso donante en el conjunto de datos Imputación por regresión: definir variables de predicción y estimar el valor faltante Existen varios métodos de imputación, que van desde los procedimientos estadísticos muy simples e intuitivos hasta los más complicados. Los métodos más importantes se mencionan brevemente a continuación. Tratamiento subjetivo: establecer la imputación sobre la base de los valores que parecen razonables. Por ejemplo, uno podría deducir los costos de mano de obra si se conoce el número de empleados. Imputación media/moda: atribuir la media de una variable o la moda (para datos categóricos). Una mejora puede consistir en asignar la imputación a la mediana a fin de eliminar el efecto de valores aberrantes. • Post estratificación: dividir la muestra en estratos y, a continuación, hacer la imputación media/moda/mediana del estrato. • Imputación 'cold deck': encontrar en otro conjunto de datos estimaciones razonables para los valores faltantes, por ejemplo una valoración anterior (datos históricos) u otra fuente cercana a la no respondente (datos indirectos). • Imputación 'hot deck': encontrar un caso donante en el conjunto de datos. En primer lugar hacer clases de imputación homogéneas y, a continuación, seleccionar un donante al azar. Imputación del vecino más cercano: seleccionar un donante que se aproxime al no respondente según ciertos criterios de distancia. O seleccione uno en los grupos más cercanos. • Imputación por regresión: definir variables de predicción y estimar el valor faltante. Agregar un error aleatorio a la predicción para compensar la subestimación de la varianza. Las variables de predicción también pueden ser elegidas de manera óptima. • Coincidencia de una media predictiva: combinación de los enfoques de regresión y del vecino más cercano. • Imputaciones múltiples: aplicar la imputación a varios valores de la variable faltante con el fin de obtener mejores estimaciones de las varianzas y las covarianzas. • Imputación simultánea: aplicar la imputación a valores diferentes de un mismo registro para garantizar la coherencia.

Datos faltantes intencionales
La faltan de datos intencional se produce cuando se ha decidido abstenerse de encuestar ciertas variables Esto se lleva a cabo deliberadamente con el fin de ajustarse mejor a los sistemas contables de los encuestados Ejemplo: para la recopilación de datos sobre "formación de capital fijo", es necesario el valor de compra de los activos Sin embargo, las empresas que alquilan los activos adquiridos, no serán capaces de proporcionar el valor de compra Por lo tanto, el cuestionario menciona "importes de arrendamiento pagados", y la ONE hace la imputación del valor de compra por medio de ciertas claves Los datos faltantes intencionales se convertirán en un fenómeno creciente en las estadísticas de las empresas para reducir la carga de reporte Este tipo de falta de datos ocurre cuando se decidió durante la etapa de diseño del cuestionario abstenerse de encuestar explícitamente ciertas variables objetivo, escogidas y definidas durante la fase de diseño de la salida. Una brecha como ésta puede haber sido creada deliberadamente con el fin de ajustarse mejor a los sistemas de contabilidad de los encuestados, o porque no merece la pena molestar a los encuestados más pequeños con determinadas especificaciones. Ejemplo: para la recopilación de datos sobre "formación de capital fijo", un encuestador desea medir el valor de compra de los activos fijos nuevos en uso. Sin embargo, las empresas que alquilan los activos adquiridos, no serán capaces de proporcionar el valor de compra. Por lo tanto, el cuestionario menciona "importes de arrendamiento pagados", y la ONE hace la imputación del valor de compra por medio de ciertas claves. La imputación aplica también cuando el demandado no pudo o no quiso dar a conocer los datos a nivel de la unidad estadística prevista. En ese caso, los datos suministrados por la unidad de información tendrán que ser convertidos a la unidad estadística que aplique. Los datos faltantes intencionales se convertirán en un fenómeno creciente en las estadísticas de las empresas, ya que el impacto de las políticas tendientes a reducir la carga del encuestado es cada vez mayor.

Ponderación Las muestras se traducen por información sobre sólo una parte de la población objetivo Es una práctica común para las oficinas de estadística atribuir ponderaciones a los elementos de una muestra Los objetivos de la ponderación son: 1. Ampliar la muestra a la población. 2. Hacer frente a observaciones faltantes. 3. Aumentar la precisión mediante la utilización de información auxiliar. 4. Tener coherencia con los datos procedentes de otras fuentes. La ponderación, es decir, la atribución de pesos a unidades incluidas en la muestra, puede tener lugar en principio antes de la recopilación de datos La reponderación siempre se aplica después de la recopilación de datos Las muestras se traducen por información sobre sólo una parte de la población objetivo. Es una práctica común para las oficinas de estadística atribuir ponderaciones a los elementos de una muestra. Suponemos que los parámetros de interés son los totales de población. Suponemos que la población objetivo consiste en algún tipo de unidad estadística y que la muestra ha sido elaborada según un diseño de muestreo elegido. Los objetivos de la ponderación son: 1. Ampliar la muestra a la población. 2. Hacer frente a observaciones faltantes. 3. Aumentar la precisión mediante la utilización de información auxiliar. 4. Tener coherencia con los datos procedentes de otras fuentes. Distinguimos entre ponderación y reponderación. La ponderación, es decir, la atribución de pesos a unidades incluidas en la muestra, puede tener lugar en principio antes de la recopilación de datos, siempre que el diseño del muestreo no sea demasiado complejo. La reponderación siempre se aplica después de la recopilación de datos.

Reponderación Se puede utilizar ponderaciones para ampliar la muestra a la población Los demás objetivos (hacer frente a las observaciones faltantes, aumentar la precisión, lograr la coherencia con los datos procedentes de otras fuentes) se alcanzan mediante el ajuste de las ponderaciones de inclusión El procedimiento de ajuste se llama reponderación Esto se hace partiendo de la información auxiliar Se puede utilizar ponderaciones para el primer objetivo (ampliar la muestra a la población). Los otros objetivos son comúnmente alcanzados mediante el ajuste de las ponderaciones de inclusión. El procedimiento de ajuste se llama reponderación. Esto se hace partiendo de la información auxiliar disponible en registros administrativos o en el registro de negocios en el momento en que la estimación se lleva a cabo. Supongamos que estamos interesados en el volumen de negocios regional. De otra fuente se conoce el número de empresas en las regiones. Queremos compilar una publicación en la que se muestran tanto el número de empresas y el del del volumen de negocios total en la región. Para adaptar estos números en la publicación podemos reponderar el volumen de negocios para el número de empresas en la región. Las técnicas utilizadas son los estimadores de regresión, estimadores de proporción, estimadores de proporción por rangos, y la post estratificación. La no respuesta en una encuesta empresarial merece más atención cuando se presenta en las grandes empresas que en las pequeñas. Cuáles son las tasas de respuesta aceptables es algo difícil de decir, pero es conveniente mantener una tasa de respuesta alta entre las empresas más grandes, ya que éstas suelen tener un impacto considerable sobre la exactitud de la mayoría de los resultados. A menudo, las empresas son seleccionadas de acuerdo a un diseño basado en información algo desactualizada, por ejemplo según clase de tamaño y actividad económica de un periodo anterior. En tales casos, podría también ser conveniente aplicar ponderaciones. Una vez que las observaciones están listas para la acción de estimación, podría haber en el marco información más actualizada en cuanto a clase de tamaño y actividad económica. Estos valores se pueden utilizar para ajustar las ponderaciones de inclusión. Esta es también una manera de asegurar la coherencia entre las distintas encuestas con la misma población objetivo, aun cuando las muestras hayan sido seleccionadas de diferentes versiones del registro de negocios.

Errores de marco y estimación
Los errores de marco complican el proceso de estimación Hay cuatro categorías pertinentes para las encuestas de negocios: • Subcobertura (unidades faltantes) • Sobrecobertura (inclusión de unidades diferentes a las de la población) • Listados duplicados o múltiples • Información auxiliar incorrecta (tamaño, actividad, construcción errónea de unidades, etc. ) La subcobertura es quizás el problema más grave La posible existencia de errores de marco complica el proceso de estimación. Hay cuatro categorías pertinentes para las encuestas de negocios: Las cuatro categorías son: • Subcobertura (unidades faltantes). • Sobrecobertura (inclusión de unidades diferentes a las de la población). • Listados duplicados o múltiples. • Información auxiliar incorrecta (tamaño, actividad, construcción errónea de unidades, etc. ). La subcobertura es quizás el problema más grave, ya que no puede detectarse a partir del marco ni de una muestra. Los totales de población casi siempre serán subestimado (suponiendo que las variables de interés tengan valores positivos), debido a que parte de la población objetivo está fuera del ámbito de observación. Los estimadores para los totales están por lo tanto sesgados negativamente. El que otros estimadores, por ejemplo los de proporciones, estén sesgados también depende de las características de la parte faltante. Los errores del cuarto tipo (información auxiliar incorrecta) pueden conducir a una sobrecobertura. Por ejemplo, las empresas con un código de actividad incorrecta, no detectadas como tales en la encuesta, pueden ser tratadas erróneamente como si se fueran elementos de población. Lo opuesto, es decir elementos indebidamente excluidos, también puede ocurrir. Esto conduce a la subcobertura. El que los efectos de sobrecobertura y subcobertura tiendan a anularse mutuamente depende de las variables que se esté midiendo.

Ajuste estacional Muchas series de tiempo económicas muestran fluctuaciones cíclicas Esto es más evidente en el caso de series publicadas con un período inferior a un año Las fluctuaciones involucradas se denominan fluctuaciones estacionales Las principales causas son los efectos calendáricos, los efectos institucionales y el clima Las series deben corregirse en cuanto a estas fluctuaciones estacionales Muchas series de tiempo económicas muestran fluctuaciones cíclicas. Esto es más evidente en el caso de series publicadas con un período inferior a un año. Pero también las series con un período de un año pueden mostrar ciclos; por ejemplo, los inventarios a menudo tienen un ciclo de unos pocos años. Si el período de la serie es de menos de un año, entonces las fluctuaciones con un ciclo de un año se denominan fluctuaciones estacionales. Las principales causas de esas fluctuaciones estacionales son efectos calendáricos (por ejemplo, el número de días laborables al mes), efectos institucionales (por ejemplo, debido a que los jóvenes usualmente dejan la escuela en el mes de junio, los meses de junio, julio y agosto muestran a menudo un mayor nivel de desempleo que mayo y septiembre), y el tiempo (por ejemplo, debido a las inclemencias del invierno hay durante los meses de invierno un aumento en la tasa de desempleo de los trabajadores de la construcción). Si una serie muestra fluctuaciones estacionales, uno puede querer calcular una nueva serie que de alguna manera esté corregida para estas fluctuaciones estacionales. Una de las principales razones por las que podríamos estar interesados en esas series ajustadas a la estación es su pertinencia para las políticas públicas: si, por ejemplo, el desempleo en un determinado mes aumenta notablemente, los encargados de formular políticas necesitan saber si este aumento es más o menos permanente, o se debe a un factor estacional. Los datos ajustados estacionalmente son también un requisito previo para evaluar el estado del ciclo económico.

Ajuste estacional Los métodos de ajuste presuponen que una serie puede dividirse en tres componentes: • la tendencia y el ciclo • el componente estacional • el componente irregular La descomposición da una estimación de los factores estacionales, de la tendencia-ciclo y del componente irregular Hay varios métodos en dos amplias categorías: métodos de realización de censos y "enfoques basados en un modelo" En general, los métodos de ajuste presuponen que una serie puede dividirse en tres componentes: • la tendencia y el ciclo: la tendencia es el movimiento general de la serie durante varios años y el ciclo consta de las fluctuaciones de más de un año; • el componente estacional: las fluctuaciones con un período de un año; • el componente irregular: las fluctuaciones de naturaleza puramente accidental. La división puede ser aditiva o multiplicativa; en el primer caso, el componente estacional de la serie es independiente del tamaño del valor de la serie, y en el segundo caso es proporcional al tamaño. Al tener sólo las observaciones de la serie, el analista desea aprender acerca de los tres componentes no observados mediante el uso de un método de descomposición que proporciona una estimación de los factores estacionales, de la tendencia-ciclo y del componente irregular. La aplicación de los factores estacionales de la serie original se traduce en las series ajustadas estacionalmente: la suma de la tendencia-ciclo y el componente irregular. Existen varios métodos para la obtención de una descomposición de la serie de tiempo en los tres componentes no observados. Estos se pueden resumir en dos grandes categorías: los llamados métodos censales y los 'enfoques basados en un modelo'. Antes de aplicar un método de descomposición a una serie, usualmente se eliminan las aberraciones, las rupturas estructurales y los efectos causales. Ejemplos de los efectos causales son los efectos calendáricos debidos, por ejemplo, a la variación en días de los meses o trimestres y a los patrones de días laborables. Otros efectos causales pueden ser capturados mediante la estimación de los efectos de regresión utilizando datos auxiliares. Por ejemplo, los efectos por encima de la media de un muy mal invierno pueden estimarse en una regresión de la serie sobre una variable de temperatura. Los así llamados "pre-tratamientos" apuntan a "purificar" el componente irregular con el fin de obtener un componente estacional y de tendencia-ciclo más suave.

Control de la divulgación de datos tabulares
Los resultados de las encuestas entre las empresas por lo general se publican en forma de tablas Los conjuntos de microdatos con los datos de las empresas casi nunca se publican En datos tabulares puede haber situaciones en las que es posible deducir información que corresponde a un encuestado individual a partir del total global Esto debe evitarse mediante el control de la divulgación de estadísticas (CDE) Hay tres métodos principales: Modificación del esquema de clasificación, Supresión de las celdas sensibles, y Redondeo de los valores de celda Los resultados de las encuestas entre las empresas por lo general se publican en forma de tablas. Los conjuntos de microdatos con los datos de las empresas casi nunca se publican. La razón de esto es que las empresas pueden ser fácilmente identificadas a partir de unas cuantas características, como el número de empleados (en clases de tamaño), la principal actividad económica de la empresa y la región. Por lo tanto, la mayoría de las oficinas de estadística no publican los conjuntos de microdatos con información de empresas. Por lo tanto, nos concentraremos en el control de divulgación de información estadística (CDE) de los datos tabulares. En general, las tablas no contienen información sobre los entrevistados individuales, sino información agregada referida a un número de encuestados. Sin embargo, podrían producirse situaciones en las que es posible deducir información correspondiente a un encuestado individual a partir del total global, por ejemplo cuando la contribución de uno de los encuestados domina este total. En tal caso las medidas de CDE son necesarias. Trataremos brevemente la cuestión de cuándo un total global es demasiado delicado para ser publicado y exponemos tres posibles métodos de CDE para proteger la información sensible. Estos métodos son: • la modificación del esquema de clasificación, • la supresión de las celdas sensibles, y • el redondeo de los valores de celda. El primer paso en el control de la divulgación de información estadística de datos tabulares es la identificación de las celdas sensibles, es decir las celdas que tienden a revelar mucha información acerca de un encuestado individual. Una forma común para determinar si una celda es considerada sensible es por medio de una regla de dominancia. Esta regla establece que si la suma de las contribuciones de n o menos encuestados representa más de k % del valor total de la celda, entonces este valor de la celda no puede ser publicado. Los valores n y k en esta formula son parámetros cuyos valores han de ser elegidos. Por ejemplo, uno podría elegir n = 3 y k = 75.

Celdas sensibles en las Tablas
Regla de dominancia: si la suma de las contribuciones de n o menos encuestados representa más de k % del valor total de la celda, entonces este valor de la celda no puede ser publicado. Los valores n y k en esta formula son parámetros cuyos valores han de ser elegidos Por ejemplo, uno podría elegir n = 3 y k = 75 La idea principal detrás de esta regla de dominancia es que si un valor de la celda es dominado por el valor de uno de los encuestados, entonces su contribución puede estimarse con bastante exactitud Si hay m encuestados, luego m-1 de ellos pueden, mediante una puesta en común de información, revelar información acerca del valor de los datos de los encuestados restantes Debe por tanto elegirse un valor n más grande que el tamaño máximo de las coaliciones (imaginarias) de los encuestados Es necesario escoger valores para n y k en la formulación de la regla de dominancia. Por ejemplo, uno podría elegir n = 3 y k = 75. Supongamos que los tres mayores volúmenes de negocios en un valor total de 2,500 tienen 1 000, 500 y 475 respectivamente (todos en millones de florines). La suma de estos tres asciende a 1 975, es decir el 79% del total de todos los volúmenes. Esto viola por lo tanto la regla de dominancia en cuestión. La idea principal detrás de esta regla de dominancia es la siguiente. Si un valor de la celda es dominado por el valor de uno de los encuestados, entonces su contribución puede estimarse con bastante exactitud. En particular, si sólo hay un encuestado, su contribución será divulgada exactamente. Si el valor de una celda está dominada por la contribución de dos de los encuestados (por ejemplo, si estos encuestados ocupan un 90% del valor total de la celda), cada uno de estos encuestados tiene la posibilidad de estimar el valor de la contribución del otro. En particular, si hay exactamente dos encuestados, cada uno de ellas puede revelar la contribución del otro exactamente restando su propia contribución al total de valor de la celda. En general, si hay m encuestados, luego m-1 de ellos pueden, mediante una puesta en común de información, revelar información acerca del valor de los datos de los encuestados restantes. Debe por tanto elegirse un valor n más grande que el tamaño máximo de las coaliciones (imaginarias) de los encuestados. En vista de las consideraciones anteriores, se recomienda como valor mínimo n = 2. Este valor significa que un total de celda debe basarse en las contribuciones de al menos tres encuestados. Aparte de la regla de dominancia, otras reglas han sido propuestas para determinar las células sensibles, como por ejemplo la regla anterior-posterior. Con esta regla se supone que todos los encuestados pueden calcular la aportación de cualquier otro encuestado hasta un q por ciento de su valor respectivo. Después de que una tabla ha sido publicada, la información de los encuestados cambia y pueden ser capaces de realizar una mejor estimación sobre la contribución de otro encuestado. Una celda se considera confidencial si es posible estimar la contribución de un encuestado individual a dicha celda en un rango de p (< q) por ciento de su valor original. Es posible que relativamente muchas de las celdas de una tabla parezcan ser sensibles. En ese caso, se recomienda que, en primer lugar, se lleve a cabo una medida de control de la divulgación global, como la agregación de (algunas de) las variables de amplio rango de la tabla. De esta manera, se reduce el detalle de la información estadística.

Tablas vinculadas Las secciones anteriores trataban del control de la divulgación de una sola tabla Cuando se publica un conjunto de tablas vinculadas, es decir tablas con variables comunes derivadas de los mismos microdatos, pueden surgir otros problemas Es posible que una tabla en sí misma no contenga ninguna celda sensible, pero que, al combinar la información que contiene con la información de otras tablas, pueda revelarse información individual Se podría eliminar una o varias de las tablas del conjunto de tablas vinculadas Otra opción es la de proteger el fichero de microdatos original contra la divulgación Las secciones anteriores trataban del control de la divulgación de una sola tabla. Cuando se publica un conjunto de tablas vinculadas, es decir tablas con variables comunes derivadas de los mismos microdatos, pueden surgir otros problemas. Es posible que una tabla en sí misma no contenga ninguna celda sensible, pero que, al combinar la información que contiene con la información de otras tablas, pueda revelarse información individual. Si es posible que haya estimaciones precisas inaceptables de la contribución de los encuestados, entonces es conveniente aplicar medidas de CDE. Por ejemplo, se podría eliminar una o varias de las tablas del conjunto de tablas vinculadas. Otra opción es la de proteger el fichero de microdatos original contra la divulgación. De esta forma todas las tablas que se basan en este conjunto de microdatos se vuelven inmediatamente seguras. Este método puede ser especialmente útil cuando se publica un gran número de tablas proveniente del mismo conjunto de microdatos. Una desventaja de este método puede ser que se pierde una gran cantidad de información.

Metadatos Los usuarios tienen derecho a ser informados sobre las características del producto que reciben La información debe incluir todos los elementos importantes del contenido de los datos y del procesamiento de datos, incluyendo: Una definición enumerando los componentes del concepto (inclusiones y exclusiones) es a menudo más informativa que una definición más teórica ¿Qué tipo de unidad se utiliza y cómo se define? ¿Qué reglas de clasificación se han aplicado? ¿Cómo está delimitada la población? ¿Qué método de recolección se ha empleado (papel, teléfono, etc. )? ¿Cómo se abordó la no respuesta? ¿Cómo han sido editados los datos? Etc. Los usuarios tienen derecho a ser informados sobre las características del producto que reciben. La información debe incluir todos los elementos importantes del contenido de los datos y del procesamiento de datos, incluyendo: • Una definición enumerando los componentes del concepto (inclusiones y exclusiones) es a menudo más informativa que una definición más teórica. • ¿Qué tipo de unidad se utiliza y cómo se define? La mención del tipo de unidad proporciona al usuario una indicación de las actividades secundarias que están o no incluidas, y si las unidades auxiliares están involucrados o no; • ¿Qué reglas de clasificación se han aplicado? • Cómo está delimitada la población. Por ejemplo, si se excluye la economía informal de los datos, esto debe mencionarse explícitamente. • ¿Qué método de recolección se ha empleado (papel, teléfono, etc. )? • ¿Cuál fue el alcance de la recolección? Si los datos se basaron en un tope (por ejemplo, más de 20 empleados) y si se calcularon, estimaron o se dedujeron por imputación los datos de las unidades más pequeñas, esto debe mencionarse explícitamente; • ¿Cómo se abordó la no respuesta? • ¿Cómo han sido editados los datos? • ¿Qué métodos se han utilizado para la ponderación, el ajuste estacional, la deflación, las series de tiempo, etc. ?

Difusión Los intereses de los usuarios no coinciden necesariamente con los ámbitos cubiertos por las encuestas individuales Existe una amplia gama de grupos de usuarios y una amplia variedad de áreas de interés Las publicaciones pueden traslaparse Existen muchos modos de difusión La difusión electrónica, en particular a través de sitios web de la ONE, se ha convertido en el modo dominante La publicación y difusión de los resultados de una encuesta particular deben estar adaptadas a una publicación corporativa y a una estrategia de difusión y publicación, encaminadas a obtener la máxima satisfacción de los usuarios. Apegarse a una estrategia total implica en primer lugar la idea de que "las áreas de interés" de los usuarios no están necesariamente delimitadas de acuerdo a los ámbitos cubiertos por las encuestas individuales. En segundo lugar, existe una amplia gama de grupos de usuarios y en consecuencia una amplia variedad de áreas de interés parcialmente coincidentes entre sí. La primera noción requiere de publicaciones que contengan los datos que se obtienen a partir de diferentes encuestas. La importancia de conceptos coordinados, tal como se desprenden de un marco coherente, se hace evidente en este momento del proceso estadístico. La segunda noción pide una amplia variedad de "publicaciones", cada una de ellas parcialmente coincidente en cuanto a sus contenidos de información. Las conquistas de la moderna tecnología de la información, permiten a la ONE cumplir con esta variedad de necesidades de los usuarios mediante una respuesta flexible. Hay muchos modos diferentes de distribución y difusión. Aparte de la transmisión de facsímiles y de la aportación de información oral (principalmente por teléfono), los transmisores de datos pueden dividirse en publicaciones impresas y difusión electrónica. Las primeras varían desde publicaciones periódicas en formato estándar hasta impresiones incidentales sobre pedido y cartas. La difusión electrónica hace uso de CD-roms y de la transmisión en línea. El transmisor de datos que se utilice depende de varios factores. Los deseos y posibilidades de los usuarios son por supuesto lo más importante. Gran parte de la comunidad de usuarios tiene ahora acceso a medios electrónicos. Otros factores son la velocidad con que los datos están disponibles y la idoneidad de los soportes electrónicos de datos para la transmisión de datos por lotes. Debido a su importancia futura, hablaremos con más detalle de las posibilidades de acceso en línea a bancos de datos electrónicos.

Difusión Electrónica La cantidad de la información estadística disponible es inmensa... Se pueden distinguir tres tipos de clientes: El cliente ocasional que quiere algunas cifras básicas; El cliente interesado en un conjunto de información específico con entregas regulares; El cliente que necesita grandes cantidades de datos para necesidades cambiantes. La cantidad de la información estadística disponible es inmensa... El Internet ha creado una oferta y una demanda de información estadística disponible instantáneamente. Se pueden distinguir tres tipos de clientes: • el cliente ocasional que quiere algunas cifras básicas; • el cliente interesado en un conjunto de información específico con entregas regulares; • el cliente que necesita grandes cantidades de datos para necesidades cambiantes. El primer cliente puede encontrar respuesta a sus preguntas en las páginas de información gratuita proporcionadas por sistemas de información pública en los que los proveedores de datos de cualquier tipo pueden participar. Hará uso de su computadora y de un módem y establecerá contacto con el proveedor de datos, buscará a través de menús jerárquicos o hará "clic" en los botones, y transferirá la información deseada a su propio sistema. El segundo cliente puede sacar una suscripción para los datos que necesita. Cada vez que un nuevo conjunto de datos se encuentra disponible, es enviado a su buzón automáticamente. El tercer cliente quiere buscar a través de grandes cantidades de datos para encontrar lo que pueda utilizar. El rendimiento, la integridad y la flexibilidad para producir sus propios cuadros estadísticos son cuestiones clave para él. Este cliente disfruta de una poderosa herramienta de tabulación con características datacom para acceder a los datos disponibles más recientes. El desafío consiste en suministrar información de tal manera que los usuarios puedan encontrar su camino y que los datos procedentes de diversas fuentes sean coherentes. En este sentido, los metadatos son de crucial importancia. En ellos, se explican los conceptos utilizados, se elaboran los procesos y métodos aplicados para la recolección y compilación de los datos, y se guía al usuario a través del laberinto de la información.

Tabulaciones Las tablas estadísticas son el corazón de una publicación
La primera condición para cada tabla es que el mensaje a comunicar pueda ser entendido fácilmente Los datos deben presentarse de forma clara y el título de la tabla debe describir en esencia el contenido de la tabla La redacción debe ser lo más informativa posible y fácil de leer y comprender Una tabla consiste comúnmente en celdas dispuestas en filas y columnas En el caso de una encuesta por muestreo, el contenido de las celdas por lo general consiste en estimaciones de los totales o en porcentajes de una población predefinida El redondeo se realiza a menudo para eliminar números irrelevantes Una cuestión importante para las encuestas por muestreo son los indicadores de precisión Las tablas estadísticas son el corazón de una publicación. Estas tabulaciones tienen que ser diseñadas desde el principio del proceso de diseño de la encuesta, donde constituyen el esquema de tablas. La primera condición para cada tabla es que el mensaje a comunicar pueda ser entendido fácilmente. Los datos concernidos deben presentarse de forma clara y sin ambigüedad, y el título de la tabla debe describir en esencia el contenido de la tabla La redacción debe ser lo más informativa posible y fácil de leer y comprender Esto es válido también para las etiquetas que explican los componentes de la tabla. Si es necesario, puede utilizarse una versión corta del título o de las etiquetas en combinación con notas de pie de página. Una tabla consiste comúnmente en celdas dispuestas en filas y columnas. En el caso de una encuesta por muestreo, el contenido de las celdas por lo general consiste en estimaciones de los totales o en porcentajes de una población predefinida. El número de dígitos en los que se expresan los valores de las celdas no debe dar una falsa impresión de la fiabilidad estadística de los datos. Las políticas del organismo de estadística en cuanto a la confidencialidad pueden restringir el número de cifras por celda o puede ser incluso una razón para suprimir ciertas celdas. El redondeo se realiza a menudo para eliminar números irrelevantes. Esto se hace para mejorar la legibilidad, la fiabilidad o por motivos de confidencialidad. El título o las etiquetas deben indicar que los valores de las celdas están redondeados, por ejemplo, a la unidad de millar en caso de totales estimados o a un decimal en el caso de porcentajes estimados. Las tablas elaboradas por las oficinas de estadística son a menudo copiadas de su publicación original e insertadas en otros textos. Por lo tanto, debían ser explicitas y en la medida de lo posible diseñadas para ser autosuficientes, sin dar pie a ningún malentendido. Una cuestión importante para las encuestas por muestreo son los indicadores de precisión. Debe decidirse si se publicarán las estimaciones de las varianzas, las desviaciones estándar, los intervalos de confianza o los coeficientes de variación. La presentación puede hacerse de distintas maneras, en la misma tabla o en una parte separada de la publicación. La última opción tiene la desventaja de que el lector no tiene una visión de conjunto de las estimaciones y de su precisión en el conjunto de una tabla. Por otro lado, proporcionar todas las estimaciones junto con una medida de su precisión puede complicar la presentación de las tablas.

Encuestas sobre estadísticas de negocios

Presentaciones similares

Presentación del tema: "Encuestas sobre estadísticas de negocios"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Encuestas sobre estadísticas de negocios

Presentaciones similares

Presentación del tema: "Encuestas sobre estadísticas de negocios"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback