La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag)

Presentaciones similares


Presentación del tema: "Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag)"— Transcripción de la presentación:

1 Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag)

2 Mapa del Curso

3 Tabla de Contenido Recolección de datos iníciales. Descripción de los datos. –Estadísticas descriptiva univariada –Estadísticas descriptiva multivariada –Relaciones entre series de datos Exploración de los datos. Verificación de la calidad de los datos.

4 Comprensión del negocio Entendimiento de los datos Preparación de los datos Modelado Evaluación Despliegue de resultados DATOS

5 Entendimiento de los Datos Recolección de datos iníciales Descripción de los datos Exploración de los datos Verificación de la _ calidad de los datos univariada multivariada series de datos A B C D

6 RECOLECCIÓN DE DATOS

7 1. Recolección de Datos Tarea: Los datos se recolectan en función a los objetivos del problema de minería de datos. Se recolectan los datos que están disponibles o son accesibles por el equipo de proyecto. Resultado: Listado de datos que se puede usar el proyecto. Estructura de los datos Atributos considerados importantes. Datos multimedia. ABCD

8 Repositorio de datos Todos los datos deben ser recopilados, trasformados y almacenados para tenerlos en un medio uniforme. texto imagen sonido espacial Conocimiento no registrado Repositorio cubos tablas Pre- procesamiento Extracción Representación Codificación

9 Recolección de Datos Sistemas transaccionales generan gran cantidad de datos Múltiples fuentes de datos que no garantizan uniformidad. Datos generados en diferentes formatos (video, imagen,..) Datos generados en diferentes dominios del conocimiento Datos no registrados Los datos no son analizados debido a: gran volumen, escasez de especialistas, baja productividad individual. Problemas con datos que no existen, no exactos o afectados por ruido.

10 Tipos de Datos Tablas transaccionales.Imágenes videoSeries de tiempo. Texto Voz Data espacial (GIS) Web Mining

11 Fuentes de Datos OLTP tablas OLAP cubos texto imagen sonido espacial conocimiento Datos Multimedia Datos no estructurados Datos Estructurados

12 DESCRIPCIÓN DE LOS DATOS

13 2. Descripción de los Datos Tarea Examinar las propiedades gruesas de los datos, Resultados Visualización de los datos, correlaciones (estadística) Fuente de los datos y frecuencia de adquisición. Si se trata de series de tiempos o datos seriados. Formato de registro de los datos. Influencia de la medición (precisión, frecuencia) Cantidad de datos (atributos y registros). Valores no disponibles. ABCD

14 ESTADÍSTICA DESCRIPTIVA UNIVARIADA

15 La forma. Histogramas Caja de Puntos (Dot Plot) Gráfica de tallo y hojas (Stem & Leaf) Estadísticos. Medidas de tendencia central (media, mediana, moda, suma) Medidas de dispersión (Varianza, STD, Máximo, Mínimo, Rango) Medidas de Posición (cuartiles) Medidas de Forma o distribución (Skewness, Kurtosis) Descripción de los datos

16 Histogramas Representación pictórica de la distribución de frecuencias donde el número de casos por tipo se representa en el eje vertical (se llama gráfico de barras o diagrama de bloques). Los valores de las frecuencias de una cantidad son representados en rectángulos verticales. El ancho de los rectángulos es proporcional a la clase de intervalo que esta siendo considerado. El área de los rectángulos es proporcional a la frecuencia de ocurrencia. Notas en el examen final

17 Caja de Puntos (Dot Plot) Un Dotplot es una alternativa al Histograma para mostrar datos continuos. Cada valor de los datos en mostrado como un punto en el eje horizontal. Cuando dos valores se separan por menos de un cierto espacio se apilan en una columna. Si el incremento es muy pequeño es imposible ver la forma de la distribución. Si el incremento es muy grande entonces sólo se obtiene una columna de puntos. Peso de los alumnos

18 Gráfica de tallo y hojas (Stem & Leaf) Es un gráfico de puntos en el que el símbolo del punto es reemplazado por los valores de los datos En el gráfico un dato está separado en dos componentes - el tallo y las hojas. El tallo es escrito una vez, mientras que las hojas se repiten a lo largo del lugar según van apareciendo. Es igual que el histograma, pero se pueden recuperar los datos muestrales. Del histograma no se pueden recuperar. Pesos de 15 varones adultos Tallo: 2 primeros dígitos. Hoja: últimos dígitos.

19 Estadísticos

20 Medidas de Tendencia Central Dan una idea del centro de la distribución de los datos, se pueden obtener desde el histograma. La media. Se suman los datos y se divide entre el número de ellos. Es el valor promedio de los datos. La media podada. Se calcula la media pero sin considerar un porcentaje de datos en cada extremo de la distribución.

21 Medidas de Tendencia Central La mediana. es el valor que separa por la mitad las observaciones ordenadas de menor a mayor. Si el número de datos es par se toma la media aritmética de los dos valores centrales. La moda. Es el valor que más veces se repite, aquella cuya frecuencia absoluta es mayor. Pueden ser varios.

22 Medidas de Dispersión Expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución. La varianza. Da una idea del grado de concentración de los datos con respecto a la media. Es el promedio de las desviaciones con respecto a la media: La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s.

23 Medidas de Dispersión Máximo. Es el máximo valor de la serie de datos. Mínimo. Es el mínimo valor de la serie de datos. El rango o amplitud. es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango mayor será la variabilidad.

24 Medidas de Posición Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales. Primer cuartil (Q1). El 25% de los datos. Segundo cuartil (Q2), es la mediana. Tercer cuartil (Q3). El 75 % de los datos. Intervalo intercuartil: Q2 – Q3 Frecuencia relativa acumulada Q1Q1 Q2Q2 Q3Q3

25 Medidas de Posición Los Deciles: Son valores que dividen a la muestra en 10 partes iguales Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil. En particular, la mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%.

26 Medidas de Forma Informan acerca de la forma de la distribución. Skewness (Asimetría). Mide el nivel de asimetría que presenta el histograma. Indica si la cola más larga del histograma se encuentra desviada hacia la derecha (+), centrada o desviada hacia la izquierda (-). Asimetría (-)SimétricaAsimetría (+)

27 Medidas de Forma Kurtosis (Apuntamiento). Indica si las colas del histograma tienen una altura superior, igual o inferior a la de una distribución normal. Platicúrtica (K-)MesocúrticaLeptocúrtica (K+)

28 ESTADÍSTICA DESCRIPTIVA MULTI-VARIADA

29 Datos Multi-variados Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas. Tablas de validación cruzada Boxplot (Diagrama de Caja) Scatterplot (Diagrama de Dispersión)

30 Tabla de validación cruzada Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Genero del entrevistado y su opinión con respecto a una ley del Gobierno. ¿Qué % de los entrevistados son mujeres que se abstienen de opinar? De los entrevistados varones. ¿Qué % está en contra de la ley? De los entrevistados que están a favor de la ley. ¿Qué % son varones? De los que no se abstienen de opinar ¿Qué % son varones?

31 Tabla de validación cruzada

32 Variables cualitativas y cuantitativas La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa. El objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza. Cualitativa y Cuantitativa Boxplot (Diagrama de Caja) 2 Cuantitativas Scatterplot (Diagrama de Dispersión)

33 Boxplot (Diagrama de Caja) Es el resumen de una distribución empírica, se representa por una caja rectangular sobre el intervalo inter-cuartil, prolongada por líneas hasta el primer y el noveno decil. Se dibuja también la mediana y a veces los valores extremos.

34 Scatterplot (Diagrama de Dispersión) Se usa para intentar reconocer si existe alguna relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra. Altura en cm. Peso en Kg

35 Diamond Plot (Diagrama de Diamante) Es similar a un boxplot, pero en lugar de presentar el intervalo intercuartil presente un intervalo de confianza. Cubre los datos entre el más y menos una desviación de estándar. Se usa para evaluar la eficacia de tratamientos (t-pruebas y F- pruebas) Media de la muestra. Línea horizontal en el diagrama. Media de cada grupo. Es la línea horizontal en cada diamante. Intervalo de confianza. Es el diamante por cada grupo. Intervalo Intercuartil. Se puede adicionar la información del intervalo intercuartil, representado por líneas verticales.

36 Comparación de diagramas

37 RELACIONES ENTRE SERIES DE DATOS

38 Coeficiente de Correlación rEl coeficiente de correlación de Pearson (r), es una medida que representa el grado de asociación lineal entre dos variables cuantitativas X e Y. S xx es la Suma de Cuadrados corregida de X S yy es la Suma de Cuadrados corregida de Y S xy es la Suma de Productos de X e Y. Tanto S xx como S yy no pueden ser negativas, S xy si puede ser (+) o (-). rr varia entre -1 y 1.

39 Modelo de Regresión Lineal Es un modelo de regresión mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales. Donde la variable Y es considerada como la variable dependiente y la variable X es considerada la variable independiente o predictora. α es el intercepto con Y, y β es la pendiente de la línea. Los estimadores α y β son hallados usando el método de mínimos cuadrados.

40 Modelo de Regresión Lineal Interpretación de los coeficientes de regresión: La pendiente β se interpreta como el cambio promedio en la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional. El intercepto α indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0. Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación de α.

41 Ejemplo El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden. Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa. Calcule al curva de regresión e interprete.

42 Ejemplo

43 EXPLORACIÓN DE DATOS

44 3. Exploración de los datos Visualizar los datos mediante, consultas y reportes. El análisis se orienta a los objetivos del proyecto. Se puede refinar los reportes y la descripción de los datos. Se puede orientan las tareas posteriores de transformación de datos. Verificar si los datos son numéricos o categóricos. ABCD

45 VERIFICAR LA CALIDAD DE LOS DATOS

46 4. Calidad de los Datos Tarea. Examinar la calidad de los datos, preguntando: –Los datos son completos (cubren todos los casos requeridos) –Existen valores perdidos, ¿cómo se representan?, ¿cuan frecuentes son? –Existe ruido en los datos (¿qué atributos?) Cuando los datos provienen de diferentes fuentes. –¿Los significados de los datos son iguales? –Tienen la misma unidad de medida. –Existen datos redundantes –Los datos son consistentes ABCD

47 ¿Cómo medimos la calidad de los datos? Exactitud (accuracy). La data fue registrada correctamente. Completo (completeness). Todos los datos relevantes fueron registrados. Unicidad (Uniqueness). No existe duplicidad. Puntualidad (timeliness). La información se encuentra actualizada. Integridad (integrity). Los datos son estructuralmente confiables. Consistencia (consistency). Los datos son consistente a través de diferentes fuentes de datos.

48 ¿Dónde se originan los problemas? Los datos se ingresaron manualmente. Entrada de datos en paralelo (duplicidad de datos). Sincronización en el tiempo. ¿Los datos se relacionan con la misma medida de tiempo?. No se dispone del dato en el momento de registro. Datos heterogéneos. ¿Los estándares de formato y contenido no son uniformes? Datos por defecto. Registros por Internet, hojas de cálculo. Definiciones diferentes. ¿Qué es un cliente, una cuenta, un individuo, una familia? Errores de medida.

49 Problemas de calidad de datos Datos perdidos (null). Datos con ruido. Datos extremos. Datos inconsistentes. Datos correlacionados (atributos). Datos duplicados (registros). ¿Cómo se hace para detectar estos casos?

50 Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

51 PREGUNTAS

52 Mg. Samuel Oporto Díaz


Descargar ppt "Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag)"

Presentaciones similares


Anuncios Google