Análisis de Agrupamientos y Componentes Principales

Slides:

Advertisements

Presentaciones similares

Unidad I. Conceptos Básicos y Estadística Descriptiva

Advertisements

Contabilidad de Gestión I

U UNIVERSIDAD DE QUINTANA ROO

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?

Clasificación de las investigaciones y el concepto de variable

Procesos básicos del pensamiento

Fundamento de la Teoría de las Pruebas

Técnicas para la elaboración de un instrumento

Master en Recursos Humanos

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE CIENCIAS ECONÓMICAS

Unidad Nº 4 Clasificación de los seres vivos

MÉTODOS DE ANÁLISIS FINANCIEROS

ANALISIS DE CONGLOMERADOS

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN

Diseño de Experimentos

Taller 2. Medición de distancia entre variables y sujetos

Unidad I. Conceptos Básicos y Estadística Descriptiva

Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.

Clustering (Agrupamiento)

Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.

Problema de la medición en Psicología

Estadística Descriptiva Tema I. Conceptos Básicos

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

Facultad: Turismo Y Hotelería

DISEÑOS DE COMPOSICION CENTRAL

Clases 4 Pruebas de Hipótesis

Población y Muestra.

Estadística aplicada al análisis financiero

ANÁLISIS DE CONGLOMERADOS

ANALISIS DE DATOS CATEGORICOS

Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.

Métodos y Principios de la Sistemática D. S. Fernández del Viso UPR-Humacao BIOL 4435.

Descomposición Factorial Unidad 5

Filogenia. Filogenia Filogenia y genealogía La filogenia reproduce la trayectoria evolutiva del taxón.

SEMINARIO DE INVESTIGACIÓN Dra. FLOR TERESA GARCÍA HUAMÁN 1Dra. Flor Teresa García Huamán.

TEORIA DE LOS COSTOS 1.1 Antecedentes/Comentarios

Universidad de Panamá Escuela de Biología Departamento de genética Genética de Poblaciones Integrantes: Castellanos, Rebeca Robinson, Anine Robles, Jazmin.

Datos: Estadística.

Medidas de Dispersión.

Métodos de reconstrucción filogenética

Medidas de Variabilidad

Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.

MEDIDAS DE DISPERSIÓN. La dispersión es la variación en un conjunto de datos que proporciona información adicional y permite juzgar la confiabilidad de.

Modelos Cuantitativos

Capítulo 1. Conceptos básicos de la Estadística

UNIDAD 1.- EVALUACIÓN DE DATOS ANALITICOS

CONCEPTOS DE ESPECIE La clasificación de los seres vivos se basa en un concepto fundamental: La especie. Algunos conceptos de especie.

Su 2º producto: Diversidad

Capitulo 1: “La ciencia en las ciencias sociales”

Métodos Cuantitativos

Estadística II Regresión Lineal.

Análisis de los Datos Cuantitativos

2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.

Elementos de información

¿Catastrofismo o gradualismo?

Septiembre 2009 Mtra. Laura Myriam Franco Sánchez.

Conceptos Básicos y Estadística Descriptiva

MUESTREO : Generalidades

INFERENCIA ESTADÍSTICA

ESTADÍSTICA DESCRIPTIVA

Informe evolutivo sobre resultados en la Prueba de Evaluación ESCALA 2014 / 15.

Estadística descriptiva

Teoría de la Generalizabilidad

Curso de Excel Básico Sesión 5 1. Las Funciones Microsoft Excel

METODO DEL PUNTO ALTO Y DEL PUNTO BAJO

TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.

Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.

QUÍMICA ANALÍTICA CUANTITATIVA

Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.

Transcripción de la presentación:

Análisis de Agrupamientos y Componentes Principales Taxonomía Numérica Análisis de Agrupamientos y Componentes Principales

Taxonomía Numérica En biología sistemática la fenética, también conocida como taxonomía numérica, es una técnica cuya finalidad es la clasificación de los organismos basándose en su similitud, generalmente en su morfología, o en cualidades observables, sin tomar en cuenta su filogenia o relación evolutiva. La fenética ha sido ampliamente sustituida por la cladística. Sin embargo, algunos biólogos continúan utilizando métodos fenéticos, como una aproximación razonable de la filogenia cuando los métodos cladísticos son computacionalmente demasiado complejos.

La taxonomía numérica es una escuela de clasificación surgida como reacción a la sistemática evolutiva. Según sus fundadores, especialmente Sokal y Sneath, la sistemática debe estar exenta de toda teoría, a parte de la teoría de la evolución. Para los fenéticos, la filogenia, en tanto que curso histórico verdadero, es incognoscible. Por tanto, ya que una reconstrucción filogenética es un artefacto meramente hipotético, no puede estar en la base de un sistema que quiere ser objetivo. Se deben tratar los objetos, no los conceptos.

Todo lo que conocemos y podemos esperar conocer es la similitud morfológica. Consecuentemente, los organismos son agrupados sobre la base de su similitud global (overall similarity); se clasifican en el mismo grupo los organismos que tengan la mayor cantidad de caracteres en común, los que son más parecidos. La fenética tiene en cuenta, en teoría, la mayor cantidad de caracteres disponibles, cualquiera que sea su naturaleza, y considera que todos los caracteres tienen el mismo valor.

Dado que el número de especies y de caracteres a estudiar puede ser muy elevado, es imprescindible la ayuda de programas informáticos específicos. El resultado es un dendrograma no enraizado denominado fenograma, en que se establecen las relaciones de parentesco fenético de los organismos estudiados.

Los objetos de estudio (los taxones terminales) pueden ser especies, géneros o cualquier otra categoría taxonómica y reciben el nombre de UTO (unidades taxonómicas operacionales) (en inglés, OTU, operational taxonomic units).

La taxonomía numérica ha sido criticada desde muchos puntos de vista La taxonomía numérica ha sido criticada desde muchos puntos de vista. Ignora deliberadamente las adquisiciones evolutivas; no diferencia entre homología y homoplasia. La estabilidad de las clasificaciones tampoco se consigue mediante los métodos fenéticos ya que la búsqueda de "el máximo número de caracteres" es una operación subjetiva; si nuevos caracteres son hallados, las distancias cambiarán y paralelamente cambiará la clasificación previa. Este método de clasificación es poco utilizado en la actualidad. Puede ser, no obstante, útil en el estudio de organismos como bacterias o virus para los cuales no se dispone de suficientes caracteres polarizados para aplicar los métodos cladísticos.

Análisis de Agrupamiento Conglomerados jerárquicos Es un procedimiento que permite agrupar las OTUs a través de una variedad de métodos de agrupamiento y medidas de distancia. El análisis de conglomerados jerárquicos se comienza con el cálculo de la matriz de distancias existentes entre cada elemento y todos los restantes de la muestra

A continuación se busca los elementos más próximos (es decir, los dos más similares en términos de distancia) y se agrupan en un conglomerado. De esta manera se van agrupando los elementos en conglomerados cada vez más grandes y más heterogéneos hasta llegar a un conglomerado global

Medidas de Distancia Uno de los aspectos clave para el análisis de conglomerados es la elección de la medida que se desea utilizar para cuantificar la distancia entre los elementos El análisis de agrupamiento permite elegir entre un gran número de medidas de distancia que se diferencian para el tipo de datos que han sido diseñadas: cuantitativos, categóricos y dicotómicos

Estas medidas también se diferencian por el tipo de distancia evaluada: similaridad o disimilaridad. Las medidas de similaridad evalúan el grado de parecido o proximidad existente entre dos elementos. Los valores más altos indican mayor parecido o proximidad.

Las medidas de disimilaridad evalúan el grado de diferencia o lejanía existente entre dos elementos. Los valores más altos indican mayor diferencia o lejanía. Cuando dos elementos se encuentran juntos, la distancia es nula.

Medidas para Datos binarios: Las medidas para datos binarios se utilizan con variables dicotómicas, es decir con variables cuyas variables reflejan la presencia o ausencia de la característica medida. La presencia se codifica con 1 y la ausencia con 0.

a se refiere al número de casos que comparten la presencia de ambas características, d se refiere al número de casos que comparten la ausencia de ambas características (concordancias), b y c se refieren al número de casos que presentan una característica y no la otra (discordancias).

Distancia euclídea al cuadrado para datos binarios Distancia euclídea al cuadrado para datos binarios. Es una medida de disimilaridad. Su valor mínimo es cero pero no tiene máximo: BEUCLID (X,Y) = b + c

Métodos de Agrupamiento Método de Vinculación por el Vecino más Próximo Este método también llamado de enlace simple o vinculación simple comienza seleccionando y uniendo los dos elementos de la matriz de distancias que se encuentran más próximos.

La distancia de este nuevo conglomerado respecto de los restantes elementos de la matriz se calcula como la menor de las distancias entre cada elemento del conglomerado y el resto de elementos de la matriz. En los pasos sucesivos, la distancia entre dos conglomerados se calcula como la distancia entre sus dos elementos más próximos.

Así, la distancia dAB entre los conglomerados A y B se calcula mediante: dAB = min d(ij) Donde d(ij) es la distancia entre los elementos i y j, el primero perteneciente al conglomerado A y el segundo al de B.

COMPONENTES PRINCIPALES Este análisis reduce un conjunto numeroso de caracteres mediante un número reducido de variables llamados componentes principales. Estos componentes no están correlacionados entre sí y el número de los componentes depende del número de caracteres.

Cada componente contiene una parte de la variabilidad total de los caracteres. El primer componente es el que contiene mayor variabilidad. De la variabilidad restante, el segundo componente es el que incluye mayor información.

Cada componente tiene la información de todos los caracteres pero en diferentes proporciones. La contribución individual de un carácter para un componente representa la varianza de ese carácter para el citado componente. La sumatoria de las varianzas de todos los caracteres para un determinado componente principal recibe el nombre de autovalor.

Los autovalores son diferentes para cada componente Los autovalores son diferentes para cada componente. El componente con mayor autovalor será el primer componente principal, el que le sigue será el segundo y así sucesivamente. La suma de los autovalores representa la varianza total de las OTU para los caracteres utilizados; por consiguiente puede establecerse el porcentaje de variación contenido en cada componente principal según su aporte a la misma.

La contribución de cada carácter se expresa con un valor La contribución de cada carácter se expresa con un valor. Cuanto más alto es el valor de esa contribución (sin importar el signo), mayor es el aporte del carácter al componente.