La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos)

Presentaciones similares


Presentación del tema: "Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos)"— Transcripción de la presentación:

1 Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos) Problema: Dado un conjunto de objetos encontrar grupos (clusters) tratando que: Objetos en un mismo grupo sean cercanos Objetos en grupos diferentes sean lejanos.

2 Taller de Base de Datos Aplicaciones Segmentación de clientes en grupos homogéneos basados en gustos (compran lo mismo) o inf. Demográfica (edad, ingreso, ubicación, etc.) Aplicaciones: -Sistemas de Recomendaciones: www.amazon.com, movielens.umn.edu, etc. -Optimización de campañas de marketing: Wedel and Kamakura 1998, Market Segmentation: Conceptual and Methodological Foundations. -Personalización de sitios Web Mobasher. A Web personalization engine based on user transaction clustering. (WITS’99) -Diseño de servicios de reparticción: Detección de grupos homogéneos que viven en lugares cercanos.

3 Taller de Base de Datos Aplicaciones Sistema SKYCAT (Fayyad et. Al. 96) fue usado para agrupar 2x10 9 objetos en estrellas, galaxias, quásares, etc. Cada objeto era un punto en un espacio de 7 dimensiones representando radiaciones de distintas frecuencias. Sloan Sky Survey: proyecto de agrupación de todo el universo visible. Agrupación de documentos con tópicos similares Zamir Etzioni. Web Document Clustering: A Feasibility Demostration (1998). Agrupación de documentos con visitas similares en MSNBC (sección Living).

4 Distancia Para agrupar objetos necesitamos una noción de distancia, ( o más formalmente métrica) D(x,y) para cada par de puntos x e y. Axiomas usuales: D(x,x)=0. D(x,y)=D(y,x) (simetría) D(x,y)<=D(x,z)+D(z,y) (desigualdad triangular) Ejemplo común distancia euclidiana (L 2 norm) entre Taller de Base de Datos

5 Qué Noción de Distancia Usar? Definir distancia en un determinado contexto es un problema complejo: No siempre tenemos la analogía especial. Atributos categóricos, espacios inconmesurables. También hay que tomar en cuenta el costo de calcularla. Taller de Base de Datos

6 Qué noción de distancia Usar? (Ejemplo) Consideremos páginas Web como puntos en un espacio de 10 8 dimensiones, una por palabra. Antes de pensar si tiene sentido usar distancia euclidiana en este contexto, veamos cuánto cuesta calcular la distancia entre x e y. Toma aprox: operacuibes donde: n x es la cantidad de palabras que están en x pero no en y. N x,y es la cantidad de palabras que están en ambas. Esto puede ser prohibitivo si tenemos que computar una matriz de distancia de millones de objetos. Taller de Base de Datos

7 Qué noción de distancia Usar? (Ejemplo) Otro problema: las diferencias en cada coordenada pueden deberse a diferencias en el tamaño de las páginas, y no al tópico. Mejor considerar los pesos relativos de cada palabra en los documentos, así sólo interesa el ángulo entre los dos vectores: Distancia Coseno (Distancia de Ochini): Donde x.y es el producto punto entre x e y. Si los vectores están normalizados se puede calcular más eficientemente que la distancia euclidiana. ¿Por qué? Taller de Base de Datos

8 Otro Ejemplo Qué tan lejos están dos secuencias de caracteres (ej.., secuencias de ADN): abcde y bcdxye? Podríamos modelar cada secuencia como un vector en un espacio euclidiano y definir alguna noción de distancia. Mejor Usar: Donde LCS es la subsecuencia común más larga Taller de Base de Datos

9 Distancia de Minkowski Clase de funciones de distancia: Para q=2 es la distancia euclidiana,. Para q=1 es la llamada distancia de Manhattan (city block). Taller de Base de Datos

10 Espacios Conmesurables vs. Inconmesurables Espacios conmesurables: coordenadas representan medidas homogeneas. Espacio de gustos: cada coord. Representa una nota a un item. Espacio de compras: cada coord. Representa si se compró o no un item. Espacios inconmesurables Espacio de variables demográficas (edad, sexo, dirección etc) Necesitamos estandarizar variables y tal vez determinar cuáles tienen más peso. Taller de Base de Datos

11 Problema de dimensionalidad Muchas dimensiones generan comportamientos contra intuitivos de distancias. Dado un cubo unitario en k-dimensiones Para k=2, si tenemos un conjunto de puntos en el cuadrado, es esperable que muy pocos puntos tendrán distancia mayor que 1. Para k grande, es muy probable que todos los puntos estén muy separados. Difícil saber si hemos obtenido una buena agrupación También es muy probable que dos vectores en un espacio de muchas dimensiones sean casi ortogonales. Basta que lo sean proyectando en uno de los posibles planos formados por dos coordenadas. Taller de Base de Datos

12 Reducción de Dimensionalidad En el peor caso, k puntos no pueden ser representados en un espacio de menos de n=k-1 dimensiones. Cómo lo haremos si queremos un n<<k: Multidimensional Scaling: Ubicar k puntos en el espacio de n dimensional aleatóreamente. La energía de cada par de puntos es el cuadrado entre la distancia en el nuevo espacio y l distancia original (analogía sistema de resortes). Visitar cada punto y moverlo minimizando la energía de sus resortes. Con esto encontramos un mínimo local de la energía total. Taller de Base de Datos


Descargar ppt "Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos)"

Presentaciones similares


Anuncios Google