Entendimiento de los Datos

Entendimiento de los Datos
Ing. Samuel Oporto Díaz (Mag)

Mapa del Curso

Tabla de Contenido Recolección de datos iníciales.
Descripción de los datos. Estadísticas descriptiva univariada Estadísticas descriptiva multivariada Relaciones entre series de datos Exploración de los datos. Verificación de la calidad de los datos.

Comprensión del negocio Entendimiento de los datos
Preparación de los datos Modelado Evaluación Despliegue de resultados DATOS

Entendimiento de los Datos
Recolección de datos iníciales A Descripción de los datos B univariada multivariada series de datos Exploración de los datos C Verificación de la _ calidad de los datos D

Vivimos en un mar de datos, pero sedientos de conocimiento
RECOLECCIÓN DE DATOS Vivimos en un mar de datos, pero sedientos de conocimiento

1. Recolección de Datos A B C D Tarea:
Los datos se recolectan en función a los objetivos del problema de minería de datos. Se recolectan los datos que están disponibles o son accesibles por el equipo de proyecto. Resultado: Listado de datos que se puede usar el proyecto. Estructura de los datos Atributos considerados importantes. Datos multimedia.

Conocimiento no registrado
Repositorio de datos Todos los datos deben ser recopilados, trasformados y almacenados para tenerlos en un medio uniforme. Extracción Representación Codificación Conocimiento no registrado cubos Repositorio sonido imagen Pre- procesamiento texto espacial tablas

Recolección de Datos Sistemas transaccionales generan gran cantidad de datos Múltiples fuentes de datos que no garantizan uniformidad. Datos generados en diferentes formatos (video, imagen, ..) Datos generados en diferentes dominios del conocimiento Datos no registrados Los datos no son analizados debido a: gran volumen, escasez de especialistas, baja productividad individual. Problemas con datos que no existen, no exactos o afectados por ruido.

Tipos de Datos Tablas transaccionales. Imágenes Web Mining
Series de tiempo. video Voz Data espacial (GIS) Texto

Fuentes de Datos OLTP  tablas OLAP  cubos  texto  imagen  sonido
 espacial  conocimiento Datos Estructurados Datos Multimedia Datos no estructurados

DESCRIPCIÓN DE LOS DATOS

2. Descripción de los Datos
B C D Tarea Examinar las propiedades gruesas de los datos, Resultados Visualización de los datos, correlaciones (estadística) Fuente de los datos y frecuencia de adquisición. Si se trata de series de tiempos o datos seriados. Formato de registro de los datos. Influencia de la medición (precisión, frecuencia) Cantidad de datos (atributos y registros). Valores no disponibles.

ESTADÍSTICA DESCRIPTIVA UNIVARIADA

Descripción de los datos
La forma. Histogramas Caja de Puntos (Dot Plot) Gráfica de tallo y hojas (Stem & Leaf) Estadísticos. Medidas de tendencia central (media, mediana, moda, suma) Medidas de dispersión (Varianza, STD, Máximo, Mínimo, Rango) Medidas de Posición (cuartiles) Medidas de Forma o distribución (Skewness, Kurtosis)

Histogramas Representación pictórica de la distribución de frecuencias donde el número de casos por tipo se representa en el eje vertical (se llama gráfico de barras o diagrama de bloques). Los valores de las frecuencias de una cantidad son representados en rectángulos verticales. El ancho de los rectángulos es proporcional a la clase de intervalo que esta siendo considerado. El área de los rectángulos es proporcional a la frecuencia de ocurrencia. Notas en el examen final

Caja de Puntos (Dot Plot)
Un Dotplot es una alternativa al Histograma para mostrar datos continuos. Cada valor de los datos en mostrado como un punto en el eje horizontal. Cuando dos valores se separan por menos de un cierto espacio se apilan en una columna. Si el incremento es muy pequeño es imposible ver la forma de la distribución. Si el incremento es muy grande entonces sólo se obtiene una columna de puntos. Peso de los alumnos

Gráfica de tallo y hojas (Stem & Leaf)
Pesos de 15 varones adultos. Tallo: 2 primeros dígitos. Hoja: últimos dígitos. Es un gráfico de puntos en el que el símbolo del punto es reemplazado por los valores de los datos En el gráfico un dato está separado en dos componentes - el tallo y las hojas. El tallo es escrito una vez, mientras que las hojas se repiten a lo largo del lugar según van apareciendo. Es igual que el histograma, pero se pueden recuperar los datos muestrales. Del histograma no se pueden recuperar.

Estadísticos

Medidas de Tendencia Central
Dan una idea del centro de la distribución de los datos, se pueden obtener desde el histograma. La media. Se suman los datos y se divide entre el número de ellos. Es el valor promedio de los datos. La media podada. Se calcula la media pero sin considerar un porcentaje de datos en cada extremo de la distribución.

Medidas de Tendencia Central
La mediana. es el valor que separa por la mitad las observaciones ordenadas de menor a mayor. Si el número de datos es par se toma la media aritmética de los dos valores centrales. La moda. Es el valor que más veces se repite, aquella cuya frecuencia absoluta es mayor. Pueden ser varios.

Medidas de Dispersión Expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución. La varianza. Da una idea del grado de concentración de los datos con respecto a la media. Es el promedio de las desviaciones con respecto a la media: La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s.

Medidas de Dispersión Máximo. Es el máximo valor de la serie de datos.
Mínimo. Es el mínimo valor de la serie de datos. El rango o amplitud. es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango mayor será la variabilidad.

Medidas de Posición Q3 Q2 Q1
Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales. Primer cuartil (Q1). El 25% de los datos. Segundo cuartil (Q2), es la mediana. Tercer cuartil (Q3). El 75 % de los datos. Intervalo intercuartil: Q2 – Q3 Q3 Frecuencia relativa acumulada Q2 Q1

Medidas de Posición Los Deciles: Son valores que dividen a la muestra en 10 partes iguales Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%.

Medidas de Forma Informan acerca de la forma de la distribución.
Skewness (Asimetría). Mide el nivel de asimetría que presenta el histograma. Indica si la cola más larga del histograma se encuentra desviada hacia la derecha (+), centrada o desviada hacia la izquierda (-). Asimetría (-) Simétrica Asimetría (+)

Medidas de Forma Kurtosis (Apuntamiento). Indica si las colas del histograma tienen una altura superior, igual o inferior a la de una distribución normal. Platicúrtica (K-) Mesocúrtica Leptocúrtica (K+)

ESTADÍSTICA DESCRIPTIVA MULTI-VARIADA

Datos Multi-variados Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas. Tablas de validación cruzada Boxplot (Diagrama de Caja) Scatterplot (Diagrama de Dispersión)

Tabla de validación cruzada
Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Genero del entrevistado y su opinión con respecto a una ley del Gobierno. ¿Qué % de los entrevistados son mujeres que se abstienen de opinar? De los entrevistados varones. ¿Qué % está en contra de la ley? De los entrevistados que están a favor de la ley. ¿Qué % son varones? De los que no se abstienen de opinar ¿Qué % son varones?

Tabla de validación cruzada

Variables cualitativas y cuantitativas
La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa. El objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza. Cualitativa y Cuantitativa  Boxplot (Diagrama de Caja) 2 Cuantitativas  Scatterplot (Diagrama de Dispersión)

Boxplot (Diagrama de Caja)
Es el resumen de una distribución empírica, se representa por una caja rectangular sobre el intervalo inter-cuartil, prolongada por líneas hasta el primer y el noveno decil. Se dibuja también la mediana y a veces los valores extremos.

Scatterplot (Diagrama de Dispersión)
Se usa para intentar reconocer si existe alguna relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra. Altura en cm. Peso en Kg. 162 61 154 60 180 78 158 62 171 66 169 166 54 176 84 163 68 ...

Diamond Plot (Diagrama de Diamante)
Es similar a un boxplot, pero en lugar de presentar el intervalo intercuartil presente un intervalo de confianza. Cubre los datos entre el más y menos una desviación de estándar. Se usa para evaluar la eficacia de tratamientos (t-pruebas y F-pruebas) Media de la muestra. Línea horizontal en el diagrama. Media de cada grupo. Es la línea horizontal en cada diamante. Intervalo de confianza. Es el diamante por cada grupo. Intervalo Intercuartil. Se puede adicionar la información del intervalo intercuartil, representado por líneas verticales.

Comparación de diagramas

RELACIONES ENTRE SERIES DE DATOS

Coeficiente de Correlación
El coeficiente de correlación de Pearson (r), es una medida que representa el grado de asociación lineal entre dos variables cuantitativas X e Y. Sxx es la Suma de Cuadrados corregida de X Syy es la Suma de Cuadrados corregida de Y Sxy es la Suma de Productos de X e Y. Tanto Sxx como Syy no pueden ser negativas, Sxy si puede ser (+) o (-). r varia entre -1 y 1.

Modelo de Regresión Lineal
Es un modelo de regresión mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales. Donde la variable Y es considerada como la variable dependiente y la variable X es considerada la variable independiente o predictora. α es el intercepto con Y, y β es la pendiente de la línea. Los estimadores α y β son hallados usando el método de mínimos cuadrados.

Modelo de Regresión Lineal
Interpretación de los coeficientes de regresión: La pendiente β se interpreta como el cambio promedio en la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional. El intercepto α indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0. Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación de α.

Ejemplo El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. Calcule al curva de regresión e interprete.

Ejemplo

EXPLORACIÓN DE DATOS

3. Exploración de los datos
B C D Visualizar los datos mediante, consultas y reportes. El análisis se orienta a los objetivos del proyecto. Se puede refinar los reportes y la descripción de los datos. Se puede orientan las tareas posteriores de transformación de datos. Verificar si los datos son numéricos o categóricos.

VERIFICAR LA CALIDAD DE LOS DATOS

4. Calidad de los Datos A B C D Tarea.
Examinar la calidad de los datos, preguntando: Los datos son completos (cubren todos los casos requeridos) Existen valores perdidos, ¿cómo se representan?, ¿cuan frecuentes son? Existe ruido en los datos (¿qué atributos?) Cuando los datos provienen de diferentes fuentes. ¿Los significados de los datos son iguales? Tienen la misma unidad de medida. Existen datos redundantes Los datos son consistentes

¿Cómo medimos la calidad de los datos?
Exactitud (accuracy). La data fue registrada correctamente. Completo (completeness). Todos los datos relevantes fueron registrados. Unicidad (Uniqueness). No existe duplicidad. Puntualidad (timeliness). La información se encuentra actualizada. Integridad (integrity). Los datos son estructuralmente confiables. Consistencia (consistency). Los datos son consistente a través de diferentes fuentes de datos.

¿Dónde se originan los problemas?
Los datos se ingresaron manualmente. Entrada de datos en paralelo (duplicidad de datos). Sincronización en el tiempo. ¿Los datos se relacionan con la misma medida de tiempo?. No se dispone del dato en el momento de registro. Datos heterogéneos. ¿Los estándares de formato y contenido no son uniformes? Datos por defecto. Registros por Internet, hojas de cálculo. Definiciones diferentes. ¿Qué es un cliente, una cuenta, un individuo, una familia? Errores de medida.

Problemas de calidad de datos
Datos perdidos (null). Datos con ruido. Datos extremos. Datos inconsistentes. Datos correlacionados (atributos). Datos duplicados (registros). ¿Cómo se hace para detectar estos casos?

Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

PREGUNTAS

soporto@wiphala.net http://www.wiphala.net/oporto
Mg. Samuel Oporto Díaz

Entendimiento de los Datos

Presentaciones similares

Presentación del tema: "Entendimiento de los Datos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Entendimiento de los Datos

Presentaciones similares

Presentación del tema: "Entendimiento de los Datos"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback