Taller de R para estadísticas Fundamentos del Lenguaje, tipo y estructura de datos Mgter. Danny Murillo.

Slides:



Advertisements
Presentaciones similares
Introducción a la estadística. ¿Qué es la estadística? La Estadística es la parte de las Matemáticas que se encarga del estudio de una determinada característica.
Advertisements

ANÁLISIS DE VARIABLES. ANÁLISIS DE VARIABLES. ESTADÍSTICA DESCRIPTIVA EVALUACION Y CALIDAD EDUCATIVA Dr. Juan Carlos Farías Bracamontes.
Programación II Sesión 3. TABLA DE CONTENIDO  Tipos de Datos en C  Delimitadores  Tipo Char  Tipo Int  Tipo Float  Tipo Double  Constantes  Operadores.
Curso Sistemas de Información Geográfica (SIG): Profesor: Luis Carvacho Bart Ayudante: Claudia Ebensperger León Profesor: Luis Carvacho Bart Ayudante:
GENERALIDADES DEL TRABAJO ESTADÍSTICO La Estadística es una de las ramas de la Matemática de mayor universalidad, ya que muchos de sus métodos se han desarrollado.
TUTORIA 1 Lógica para la Computación TUTORIA 1 Facultad de Ciencias Naturales y Matemáticas.
TALLER DE SPSS APLICADA A LA INVESTIGACIÓN CIENTIFICA.
¿Qué es Excel? Taller Básico de Excel (3/5)
Ingreso , proceso y salida de datos
COLEGIO GENERAL SANTANDER IED “EDUCAR EN LA VIDA Y PARA LA VIDA “
1era. Unidad de Microsoft Excel
Apuntes de Matemáticas 3º ESO
Clase n º 4 Introducción a Matlab
ALGEBRA DE MATRICES Uso de MatLab.
UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD
Estadística Descriptiva Dr. Javier Moreno Tapia
Medidas de Tendencia Central
ESTADÍSTICA UNIDIMENSIONAL
TEMA 6 Introducción a la Estadística
ACTIVIDAD No 3 NOMBRE Y APELLIDOS: Javier Andrés Velasco Álvarez TEMA:
Tema 6. Conceptos básicos de programación (Clase 2)
TUTORIAL PSeint.
1era. Unidad de Microsoft Excel
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
REGRESÍON LINEAL SIMPLE
LÓGICA DE PROGRAMACIÓN
EXPRESIONES Una expresión es una forma especial de asignación.
Unidad 3. Introducción a la programación
Tema 7. Introducción a lenguaje de programación Visual Basic (clase 1)
Fundamentos de programación en TIG 4. Aptana y Arcpy
UNIVERSIDAD DE PUERTO RICO RECINTO UNIVERSITARIO DE MAYAGUEZ
ELEMENTOS DE COMPUTACIÓN Profesor: Guillermo Figueroa
HERRAMIENTAS DE PROGRAMACIÓN
Bienvenidos A clase.
Introducción al Visual Basic  Un programa en sentido informático está constituido en un sentido general por variables que contienen los datos con los.
Representación gráfica de variables Cualitativas y Cuantitativas en Excel. Tablas dinámicas Carolina Aranda Ortega Doria Lizeth Quintero Ebis Tatiana baron.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
USO DE EES PARA LA SOLUCIÓN DE PROBLEMAS DE INGENIERÍA Objetivo: 1. Dar al estudiante una idea general acerca de como pueden utilizar el programa EES para.
¿Para qué se utiliza el PSEINT?
Procesamiento de señales Introducción a Matlab 2014
FUNDAMENTOS DE PROGRAMACIÓN. INTRODUCCIÓN  Conceptos: Informática, Ordenador, Programa, Dato, Bit, Byte, Hardware, Software, Lenguaje de Programación,
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
M. en TI. Omar Téllez Barrientos DOCENTE DE INFORMÁTICA GENERACIÓN DE PSEUDOCÓDIGOS Y ALGORITMOS
Curso de Excel #Intermedio Guillermo Díaz Sanhueza Mail: Web: Team Work Versión:
Apuntes de Matemáticas 3º ESO
MATRICES. ¿QUÉ ES UNA MATRIZ? Una matriz es un espacio bidimensional que se genera en la memoria del computador. Las matrices deben tener un nombre que.
Excel. Microsoft Office Excel, mejor conocido sólo como Microsoft Excel, es una aplicación para manejar hojas de cálculos. Este programa fue y sigue siendo.
1 Temario de la asignatura Introducción. Análisis de datos univariantes. Análisis de datos bivariantes. Series temporales y números índice. Probabilidad.
TUTORIAL PS EINT FUNDAMENTOS DE PROGRAMACIÓN Ing. Elizabeth Díaz Orea.
TUTORIAL PS EINT FUNDAMENTOS DE PROGRAMACIÓN Ing. Elizabeth Díaz Orea.
Tema 7. Introducción a lenguaje de programación Visual Basic (clase 1)
INTRODUCCIÓN A DISEÑO Objetivos del curso. Definición de PowerPoint. Que podemos hacer en PowerPoint. Definición de Presentación. Principios de un buen.
NATURALEZA DE LOS DATOS Valores Numéricos Son los valores que se pueden hacer cálculos aritméticosritméticos Tipos de valores Entero Real Cadena ( “ h”
Lenguaje de Programación II
CONTROLES Y ESTRUCTURAS BÁSICAS DE PROGRAMACIÓN  1. Algoritmos: conjunto de instrucciones programadas para resolver una tarea específica.  2. Datos:
Estadística.
Funciones principales de Excel Online
Fundamentos Algorítmicos 1
Fundamentos Algorítmicos 1
DIAGRAMAS DE FLUJO. D I A G R A M A DE F L UJ O EL DI AGRAMA DE FLUJO ES LA REPRESENTACIÓN GRÁFICA DE DICHA SE CUENCIA DE INSTRUCCIONES QUE CONFORMAN.
Taller de R para estadísticas Fundamentos del Lenguaje, tipo y estructura de datos Mgter. Danny Murillo.
Taller de R para estadísticas Gráficos en R
Ing. Patricia Acosta, MSc. Blog: EXCEL.
R. Introducción R es una versión del lenguaje de programación S desarrollado por John Chambers en los laboratorios Bell en R fue escrito inicialmente.
ESTADÍSTICA 3 er. CUATRIMESTRE LOGÍSTICA BIS SEPT. – DIC UNIVERSIDAD TECNOLÓGICA DE NUEVO LAREDO DOCENTE: ING. JACOB CHÁVEZ RODRÍGUEZ.
UNIDAD VI ARREGLO UNIDIMENSIONAL
Profesor del curso: UNIVERSIDAD NACIONAL DEL CENTRO DEL PERU 2019-I Facultad de Ingeniería de Sistemas 1.
ESTADÍSTICA Y SU CLASIFICACIÓN 1. 2 La estadística es la ciencia encargada de recoger, clasificar, describir, analizar datos numéricos para deducir conclusiones.
INTRODUCCIÓN A R STUDIO Series de tiempo, 20/08/2019.
Es un Entorno y un lenguaje de programación
Transcripción de la presentación:

Taller de R para estadísticas Fundamentos del Lenguaje, tipo y estructura de datos Mgter. Danny Murillo

Objetivo Dar a conocer los conceptos básicos de la interface de e Rstudio y las sintáxis y componentes necesarios para trabajar con el lenguaje de análisis de datos R.

Contenido Minería de datos Herramienta de Minería de datos Lenguaje R R y Rstudio Trabajando con R desde la consola y Rstudio Instalación Interfaz Comandos básicos Instalación de Paquetes Sintaxis en R Variables Convención para nombres Comentarios Tipos de datos Numeric Character Integer Logical Coerción de tipos de datos Estructuras de almacenamiento Vectores Listas Matrices Dataframe Conceptos y funciones de estadísticas ¿Qué es la estadística? Importancia de la estadística Mean (media) Median (mediana) Sd (desviación estándar) Tipos de Variables Cualitativas Cuantitativas Selección y manejo de datos Lectura y escritura de datos read.csv write.csv Funciones en R  (sum, summary())

Contenido Visualización de datos Tipos de gráficos estadísticos Gráficos con variables cualitativas Gráficos con variable cuantitativas Estructura de gráficos en R Uso de gráficos Gráficos de barras – barplot() Histrogramas - hist() Diagrama de Pareto Diagrama de pie – pie() Diagrama de caja – boxplot / boxplot.stats / outlier Diagrama de dispersión – plot() Abline(), par() , Pairs() Pyramid() Limpieza de datos Omitir datos en blanco Imputación de datos Estructura de datos Reformatear datos Seleccion de datos paquetes dplyr ACP (analisis de componentes principales) - EN FUNCION DEL TIEMPO 

Minería de datos Extracción de información (previamente desconocida y potencialmente útil) de grandes bases de datos para encontrar patrones ocultos usando medios automatizados. Esta búsqueda se lleva a cabo utilizando métodos matemáticos, estadísticos o algorítmicos. El objetivo principal de la Minería de Datos es crear un proceso automatizado que toma como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones.

Minería de datos y otras disciplinas Tecnología de Base de datos Ciencia de la Información Análisis de datos Matemática Machine Learning Minería de datos Ciencia de la Información Estadísticas Visualización BigData Otras

Tareas de la Minería de datos Descriptivas Predictivas Buscar patrones humano-interpretables que describen los datos Analizar variables para predecir los valores futuros desconocidos de la misma variable Métodos Factoriales Clustering Reducción de variables Análisis de componentes principales OLAP (visualización). Series de Tiempo. Análisis Discriminante. Regresión. Árboles de Decisión.

Metodología de Minería de datos Modelo básico de (KDD) Knowledge Discovery in Databases (KDD) Otros modelos: KDD, CRISP-DM y SEMMA.

Lenguajes para Minería de datos Fuente: KDnuggets

Uso del lenguaje R

Curva de aprendizaje del lenguaje R

Lenguaje R R es un potente lenguaje orientado a objetos y destinado al análisis estadístico y la representación de datos. R, también conocido como ”GNU S”, es un entorno y un lenguaje para el cálculo estadístico y la generación de gráficos. R implementa un dialecto del premiado lenguaje S, desarrollado en los Laboratorios Bell por el profesor John M.Chambers y su equipo en la Universidad de Stanford. fue inicialmente diseñado por Robert Gentleman y Ross Ihaka, miembros del Departamento de Estadístíca de la Universidad de Auckland, en Nueva Zelanda.

Lenguaje R Es libre. Se distribuye bajo licencia GNU, lo cual significa que lo puedes utilizar y ¡mejorar! Es multiplataforma, hay versiones para Linux, Windows, Mac, iPhone… ¡web! Se puede analizar en R cualquier tipo de datos. Es muy potente. Su capacidad gráfica difícilmente es superada por otro paquete estadístico.

R en Rcommander

R y Rstudio

Instalación de R y Rstudio La instalación es diferente para cada sistema operativo. Para descargar R, lo haremos desde CRAN, un conjunto de servidores espejo distribuidos a lo largo del mundo y usado para distribuir R y paquetes R. https://cran.r-project.org/   RStudio es un entorno integrado de desarrollo, o IDE, para facilitarnos la tarea de programación.  http://www.rstudio.com/download.

Interface de Rstudio

Interface de Rstudio: Consola Escribir dato en el prompt > Ejem: “estudiante” + ENTER 45 + Enter R como calculadora 1+2 #suma 20*3 #multiplicacion 50/9 #division 9-5 #resta 10%%3 #modulo 10%/%3 #coeficiente 9^3 #potencia CTRL + L limpiar consola

¿Qué son los datos? Un dato, es un valor que pertenece a un tipo de dato y que por lo regular debe estar contenida en una variable. Una variable es una propiedad o característica de un individuo que puede variar su valor y que contiene un dato: color de ojos, estado civil, estura, edad. Una colección de variables permiten describir un individuo (entidad, objeto, registro, caso, una observación) El conjunto de observaciones puede ser una tabla o una base de datos, que es necesario para hacer análisis de datos.   Matematicas Ciencias Espanol Historia EdFisica Carlos 6.3 6.4 8.2 9 7.2 Maria 6.8 8.7 7 Andres 6 7.8 8.9 7.3 Lucia 6.5 9.2 8.6 8 Ines 7.6 7.5 Ana 9.6 7.7 Jose 7.9 9.7 Pedro 9.4 Luis 5 Sonia 5.5

Los datos y sus tipos R maneja 6 tipos de datos básicos: character (cadenas de caracteres) Numeric / double (números reales) integer (números enteros) complex (números complejos) logical (lógicos o booleanos, que sólo toman los valores True o False) factor (categórico) Utilizar documento de script .R

Variables en R Una variable es una propiedad o característica de un individuo que puede variar su valor y que contiene un dato. En R hay tres formas de asignar una variable. Variable = valor Variable -> valor Variable <- valor Tres formatos para escribir variables CamelCase ejem: PoblacionEstudiantes Snake_case ejem: Poblacion_Estudiantes Point.case ejem: Poblacion.Estudiantes

Variables en R Para imprimir en consola: PoblacionEstudiantes Tecla Enter print(variable) Tecla Enter Imprimir en Documento script Colocar cursor al final de la lineal a imprimir, seleccionar líneas a imprimir (Botón RUN) Colocar cursor al final de la lineal a imprimir, seleccionar líneas a imprimir (ctrl + enter) Comandos: # comentario ls() lista las variables almacenadas rm(variable) borra variable rm(variable1, variable2) borrar variables rm(ls()) borrar todas las variables dir() listar documentos de directorio typeof(variable) verificar tipo de variable

Practica de Variables en R Crear variables nom<-"danny" ape <- "murillo" es <- 1.80 ind<-2.50 N1<-80 N2<-90 Bo1<- TRUE Bo2 <- T Comandos: # comentario ls() lista las variables almacenadas rm(variable) borra variable rm(variable1, variable2) borrar variables dir() listar documentos de directorio typeof(variable) verificar tipo de variable data() datasets intalados en R

OPERADORES EJEMPLO OPERADORES : ind>es N1>N2 Bo1==Bo2 Bo2!=ind

Estructuras de datos en R Las colecciones o conjunto de datos en R se organizan por su dimensión (1, 2, o varias dimensiones) y si son homogéneas (todos los objetos deben ser del mismo tipo) o heterogéneas ( el contenido puede ser de diferentes tipos). A continuación mostramos los cinco tipos de datos más usados en el análisis de datos: Homogénea Heterogénea 1 Vector atómico Lista 2 Matriz Data frame n Array

Estructuras de datos en R : VECTOR El tipo más básico de estructura de dato en R es el vector. El vector es una estructura compuesta de un número de elementos finitos, homogéneos y donde dicha estructura tiene un tamaño fijo. El uso de la función c() para crear vector atómico, que corresponde a la sigla de combinar: c(4,2,-8) vector1 <- c(1, 2.5, 4.5) num<-1:10 #numero del 1 al 10 num<-1:10*3 #números del 1 al 10 multiplicado por 3 num<- seq(3, 10) # mismo efecto que 3:10 num<- seq(1, 10, by = 3) #saltando de 3 en 3

Ejemplo: VECTOR matematicas <- c(45,70,85,100,1000) #crear vector #seleccionar posición 5 matematicas[5] #seleccionar posición del 3 al 5 matematicas[3:5] #seleccionar todos los valores, menos el que esta en la posición 2 matematicas[-2] #sumar dos valores de un vector matematicas[1] + matematicas[2] #restar dos valores de un vector matematicas[3] - matematicas[4] #multiplicar dos valores de un vector matematicas[3] * matematicas[5] #multiplicar todos los valores de un vector por 2 matematicas * 2

COERCION

COERCIÓN La coerción es una característica de los lenguajes de programación que permite, implícita o explícitamente, convertir un elemento de un tipo de datos en otro, sin tener en cuenta la comprobación de tipos. v <- c(1, 2, 3, 4, 5) typeof(v) class(v) Coerción Implícita Tipo Comprobación Coerción (explicita) array `is.array()` `as.array()` character `is.character()` `as.character()` complex `is.complex()` `as.complex()` double `is.double()` `as.double()` factor `is.factor()` `as.factor()` integer `is.integer()` `as.integer()` list `is.list()` `as.list()` logical `is.logical()` `as.logical()` matrix `is.matrix()` `as.matrix()` NA `is.na()` `as.na()` NaN `is.nan()` `as.nan()` NULL ` is.null()` `as.null()` numeric `is.numeric()` `as.numeric()` vector `is.vector()` `as.vector()`

CONCEPTOS Y FUNCIONES DE ESTADÍSTICAS

Funciones en R

FUNCIONES DE ESTADISTICAS (mediana, media, moda) Ejemplo: #crear vector data <- c(-58,46,28,69,22,18,18,42,62,78,18,210) #conocer tamaño de un vector length(data) # sumar datos de un vector sum(data) #calculo de la media sum(data) / length(data) #funciones estadísticas mean(data)

FUNCIONES DE ESTADISTICAS Ejemplo: #calculo de la mediana median(data) #calculo de la moda #valor que mas se repite datamoda<- table(data) #ordenar vector para colocar el valor con más frecuencia al inicio datamodaSort <- sort(datamoda, decreasing = TRUE) #moda valor de mayor frecuencia , posición 1 del vector ordenado moda <- datamodaSort[1]

MUCHAS GRACIAS