La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Especialista en Business Intelligence Analysis Services SSAS (Sesión 13) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.

Presentaciones similares


Presentación del tema: "Especialista en Business Intelligence Analysis Services SSAS (Sesión 13) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos."— Transcripción de la presentación:

1 Especialista en Business Intelligence Analysis Services SSAS (Sesión 13) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos a

2 Especialista en BI (SSAS) Agenda SQL Server Analysis Services – Minería de Datos Conceptos Algoritmos de minería de datos Clasificación, regresión, segmentación, asociación y análisis de secuencia. Modelos de Minería de Datos Arboles de decisión Clustering Regresión lineal Series de tiempo Tipos de datos y tipos de contenido Aplicaciones Source: SAP AG

3 Heterogeneous data sources End-to-End BI Offering END USER TOOLS AND PERFORMANCE MANAGEMENT APPS Excel PerformancePoint Server BI PLATFORM SQL Server Reporting Services SQL Server Reporting Services SQL Server Analysis Services SQL Server Analysis Services SQL Server DBMS SQL Server Integration Services SharePoint Server DELIVERY Reports Dashboards Excel Workbooks Excel Workbooks Analytic Views Analytic Views Scorecards Plans

4 Ayudan a identificar patrones en los datos, que le permiten determinar las razones por las que suceden las cosas, y a crear reglas y recomendaciones, con las que puede predecir lo que ocurrirá en el futuro. Minería de Datos

5 Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiados datos. Minería de Datos

6 Los modelos de minería de datos se pueden aplicar a situaciones empresariales como las siguientes: Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor. Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados. Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones. Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos. Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades. Minería de Datos

7 Cada proyecto de minería de datos contiene los cuatro tipos siguientes de objetos: orígenes de datos; vistas del origen de datos, que se basan en los orígenes de datos; estructuras de minería de datos, que definen cómo se utilizan los datos en el modelo; y modelos de minería de datos, que crean y almacenan los patrones. Minería de Datos

8 Mientras que una estructura de DM define el dominio de datos, un modelo de DM define el modo de aplicar los datos de ese dominio a un problema determinado. Una vez creada una estructura, puede agregar varios modelos de DM a dicha estructura. Minería de Datos

9 Es un conjunto de cálculos y reglas heurísticas que permite crear un modelo de minería de datos a partir de los datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados, en busca de tipos específicos de patrones o tendencias. El algoritmo usa los resultados de este análisis para definir los parámetros óptimos para la creación del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas. Algoritmos de Minería de Datos

10 Analysis Services incluye los siguientes tipos de algoritmos: Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos. Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares. Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden usarse en un análisis de la cesta de compra. Algoritmos de Minería de Datos

11 Analysis Services incluye los siguientes tipos (continuación): Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas web. La minería de datos le permite generar varios modelos en una única estructura de minería de datos, por lo que en una solución de minería de datos puede usar un algoritmo de clústeres, un modelo de árboles de decisión y un modelo de Bayes naïve para obtener distintas vistas de los datos. También puede usar varios algoritmos dentro de una única solución para realizar tareas independientes: por ejemplo, podría usar la regresión para obtener predicciones financieras, y un algoritmo de red neuronal para realizar un análisis de los factores que influyen en las ventas. Algoritmos de Minería de Datos

12 Árboles de decisión de Microsoft Son utilizados principalmente con propósitos de clasicación, pero son también útiles para descubrir características de los datos que no son directamente visibles. Un árbol de decisión es un modelo predictivo, que permite que las observaciones acerca de las características de un elemento conduzcan a conclusiones acerca de un valor objetivo. (Leonardo Jiménez Moscovitz - Fundación Universitaria Konrad Lorenz). Modelos

13 Un árbol de decisión es un modelo de predicción. Un árbol de decisión tiene unas entradas las cuales pueden ser un objeto o una situación descrita por medio de un conjunto de atributos y a partir de esto devuelve una respuesta la cual en últimas es una decisión que es tomada a partir de las entradas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos o continuos.discretoscontinuos De forma más concreta, refiriéndonos al ámbito empresarial, podemos decir que los árboles de decisión son diagramas de decisiones secuenciales que nos muestran sus posibles resultados. Éstos ayudan a las empresas a determinar cuales son sus opciones al mostrarles las distintas decisiones y sus resultados (Wikipedia). Modelos

14 Árboles de decisión de Microsoft Para los atributos discretos, el algoritmo hace predicciones basándose en las relaciones entre las columnas de entrada de un conjunto de datos. Específicamente, el algoritmo identifica las columnas de entrada que se correlacionan con la columna de predicción. Por ejemplo, en un escenario para predecir qué clientes van a adquirir probablemente una bicicleta, si nueve de diez clientes jóvenes compran una bicicleta, pero solo lo hacen dos de diez clientes de edad mayor, el algoritmo infiere que la edad es un buen elemento de predicción en la compra de bicicletas. Modelos

15 Árboles de decisión de Microsoft Para los atributos continuos, el algoritmo usa la regresión lineal para determinar dónde se divide un árbol de decisión. Si se define más de una columna como elemento de predicción, el algoritmo genera un árbol de decisión independiente para cada columna de predicción. Ejemplo Marketing desea identificar las características de los clientes antiguos que indicarian si es probable que realicen alguna compra futura. El DB almacena información demográfica. Mediante los árboles de decisiones que analizan esta información, Marketing puede generar un modelo que predice si un cliente va a comprar productos, basándose en el estado de las columnas conocidas sobre ese cliente, como la demografía o los patrones de compra anteriores. Modelos

16 Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles («http://www.monografias.com/trabajos/datamining/datamining.shtml»). Modelos

17 El modelo de clústeres de Microsoft es un algoritmo de segmentación suministrado por Analysis Services. El algoritmo utiliza técnicas iterativas para agrupar los casos de un conjunto de datos dentro de clústeres que contienen características similares. Estas agrupaciones son útiles para la exploración de datos, la identificación de anomalías en los datos y la creación de predicciones. Modelos

18 Clustering: Se diferencia de otros modelos de minería de datos, como el modelo de árboles de decisión, en que no se tiene que designar una columna de predicción para generar un modelo de agrupación en clústeres. El algoritmo de clústeres entrena el modelo de forma estricta a partir de las relaciones que existen en los datos y de los clústeres que identifica el algoritmo. Ejemplo Considere un grupo de personas que comparten información demográfica similar y que adquieren productos similares de la empresa. Este grupo de personas representa un clúster de datos. En una base de datos pueden existir varios clústeres como éstos. Mediante la observación de las columnas que forman un clúster, puede ver con mayor claridad la forma en que los registros de un conjunto de datos se relacionan entre sí.. Modelos

19 Modelo Bayes naive de Microsoft El modelo Bayes Naive es un algoritmo de clasificación basado en los teoremas de Bayes y que Microsoft SQL SSAS proporciona para el modelado de predicción.La palabra naïve (ingenuo en inglés) del término Bayes naive proviene del hecho que el algoritmo utiliza técnicas Bayesianas pero no tiene en cuenta las dependencias que puedan existir. Modelos

20 Modelo Bayes naive de Microsoft Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Puede utilizar este algoritmo para realizar la exploración inicial de los datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional. Modelos

21 En la teoría de la probabilidad el teorema de Bayes es un resultado enunciado por Thomas Bayes en que expresa la probabilidad condicional de un evento aleatorio A dado B en términos de la distribución de probabilidad condicional del evento B dado A y la distribución de probabilidad marginal de sólo A. 1 Modelos

22 Serie temporal de Microsoft Proporciona los algoritmos de regresión que se optimizan para la previsión en el tiempo de valores continuos tales como las ventas de productos. Otros algoritmos, como por ejemplo los árboles de decisión, requieren columnas adicionales como entrada para predecir una tendencia, en tanto los modelos de serie temporal no las necesitan. Modelos

23 Serie temporal de Microsoft Una característica importante es su capacidad para llevar a cabo predicciones cruzadas. Si entrena el algoritmo con dos series independientes, pero relacionadas, puede utilizar el modelo generado para predecir el resultado de una serie basándose en el comportamiento de la otra. Por ejemplo, las ventas observadas de un producto pueden influir en las ventas previstas de otro producto. La predicción cruzada también es útil para crear un modelo general que se puede aplicar a múltiples series. Por ejemplo, las predicciones para una región determinada son inestables debido a que la serie no dispone de datos de buena calidad. Podría entrenar un modelo general sobre la media de todas las regiones y, a continuación, aplicar el modelo a las series individuales para crear predicciones más estables para cada región. Modelos

24 Los requisitos para un modelo de serie temporal son los siguientes: Una única columna Key Time Columna numérica o de fecha que se utilizará como serie de casos y que define los intervalos de tiempo que utilizará el modelo. El tipo de datos para la columna de clave temporal puede ser un tipo de datos datetime o bien numérico. Sin embargo, la columna debe contener valores continuos y éstos deben ser únicos para cada serie. La serie de casos para un modelo de serie temporal no pueden estar almacenada en dos columnas como por ejemplo una columna Año y una columna Mes. Modelos

25 Los requisitos para un modelo de serie temporal (continuación): Una columna predecible alrededor de la que el algoritmo generará el modelo. El tipo de datos debe contener valores continuos. Por ejemplo, es posible predecir el ingreso, ventas o temperatura, a través del tiempo. Sin embargo, no es posible utilizar una columna que contenga valores discretos tales como el estado de las compras o el nivel de educación. Una columna de clave de serie opcional que contenga valores únicos que identifiquen a una serie. La columna debe contener valores únicos. Por ejemplo, un solo modelo puede contener ventas de muchos modelos de producto, siempre y cuando haya un solo registro para cada nombre del producto para cada intervalo de tiempo. Modelos

26 Modelo de regresión lineal Es una variación del algoritmo de árboles de decisión que ayuda a calcular una relación lineal entre una variable independiente y otra dependiente y, a continuación, utilizar esa relación para la predicción. Modelos

27 Modelo de regresión lineal La relación toma la forma de una ecuación para la línea que mejor represente una serie de datos. Cada punto de datos tiene un error asociado con su distancia con respecto a la línea de regresión. Los coeficientes a y b de la ecuación de regresión (y=a+bx) ajustan el ángulo y la ubicación de la recta de regresión. Hay otros tipos de regresión que utilizan varias variables y también hay métodos no lineales de regresión. Sin embargo, la regresión lineal es un método útil y conocido para modelar una respuesta a un cambio de algún factor subyacente.. Modelos

28 Los tipos de datos indican al motor de minería de datos si los datos del origen de datos son numéricos o de texto y cómo deben procesarse los datos. Tipos de Datos

29 El tipo de contenido describe el comportamiento del contenido incluido en la columna. Por ejemplo, si el contenido de una columna se repite en un intervalo concreto, como los días de la semana, puede especificar el tipo de contenido de esa columna como cíclico. Los tipos de contenido utilizados son: Discrete El tipo de contenido discreto indica que la columna contiene un número finito de valores no continuos. Por ejemplo, una columna de género es una columna de atributos discreta muy habitual, en la que los datos representan un número específico de categorías. Continuo Continuo indica que la columna contiene valores que representan datos numéricos en una escala que permite valores intermedios. A diferencia de una columna discreta, que representa datos numerables y finitos, una columna continua representa medidas escalables; además, es posible que los datos contengan un número infinito de valores fraccionarios. Una columna de temperaturas es un ejemplo de una columna de atributos continua. El tipo de contenido Continuous es compatible con los siguientes tipos de datos: Date, Double y Long. Tipos de Contenido

30 (Continuación) Discretizado La discretización es el proceso mediante el cual los valores de un conjunto de datos continuo se incluyen en grupos o depósitos para que haya un número limitado de valores posibles. Sólo se pueden discretizar los datos numéricos. El tipo de contenido Discretized es compatible con los siguientes tipos de datos: Date, Double, Long y Text. Clave El tipo de contenido clave indica que la columna identifica una fila de forma inequívoca. Normalmente, en una tabla de casos, la columna de clave es un identificador numérico o de texto. Establezca el tipo de contenido en key para indicar que la columna no debe utilizarse para el análisis, sino para realizar el seguimiento de los registros. Este tipo de contenido es compatible con los siguientes tipos de datos: Date, Double, Long y Text. Secuencia de claves El tipo de contenido secuencia de claves solamente se puede utiliza en modelos de agrupación en clústeres de secuencia. Cuando se establece el tipo de contenido en key sequence, se indica que la columna contiene valores que representan una secuencia de eventos. Los valores están ordenados y no tienen que estar separados por una distancia equivalente. Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long, Text y Date. Tipos de Contenido

31 (Continuación) Clave temporal El tipo de contenido clave temporal solamente se puede utilizar en modelos de serie temporal. Cuando se establece el tipo de contenido en key time, se indica que los valores están ordenados y que representan una escala de tiempo. Este tipo de contenido es compatible con los siguientes tipos de datos: Double, Long y Date. Tabla El tipo de contenido tabla indica que la columna contiene otra tabla de datos, con una o más columnas y una o más filas. El tipo de datos de esta columna siempre es Table. Cíclico El tipo de contenido cíclico indica que la columna contiene valores que representan un conjunto ordenado cíclico. Por ejemplo, los días numerados de la semana es un conjunto ordenado cíclico, ya que el día número uno sigue al día número siete. Este tipo de contenido es compatible con todos los tipos de datos. Tipos de Contenido

32 (Continuación) Ordenado El tipo de contenido ordenado indica también que la columna contiene valores que definen una secuencia u orden. Sin embargo, en este tipo de contenido los valores utilizados para la ordenación no implican ninguna relación de distancia o magnitud entre los valores del conjunto. Por ejemplo, si una columna de atributos ordenados contiene información acerca de una lista de niveles de especialización que vayan del uno al cinco, no existe información implícita entre los niveles de especialización; un nivel cinco de especialización no es necesariamente cinco veces mejor que un nivel uno de especialización. Las columnas de atributos ordenados se consideran discretas en términos de tipo de contenido. Este tipo de contenido es compatible con todos los tipos de datos Tipos de Contenido

33 (Continuación) Classified Además de los tipos de contenido anteriores cuyo uso es común en todos los modelos, para algunos tipos de datos puede utilizar columnas clasificadas para definir tipos de contenido. En la lista siguiente se describen los tipos de contenido que admite Analysis Services para las columnas clasificadas. PROBABILITY El valor de la columna es la probabilidad del valor asociado, un número entre cero y uno. VARIANCE El valor de la columna es la varianza del valor asociado. STDEVEl valor de la columna es la desviación estándar del valor asociado. PROBABILITY_VARIANCE El valor de la columna es la varianza de la probabilidad del valor asociado. PROBABILITY_STDEV El valor de la columna es la desviación estándar de la probabilidad del valor asociado. SUPPORT El valor de la columna es el peso, o factor de duplicación del caso, del valor asociado. Tipos de Contenido

34 Algunos algoritmos requieren tipos de datos y de contenido específicos para que funcionen correctamente. Por ejemplo, el algoritmo Bayes naive de Microsoft no puede utilizar columnas continuas como entrada ni predecir valores continuos. Algunos tipos de contenido, como Key Sequence, sólo son utilizados por un algoritmo concreto. Tipos de Contenido

35 La tabla siguiente proporciona sugerencias para los tipos de tareas para las que se usa normalmente cada algoritmo. Elección de Algoritmo por tarea


Descargar ppt "Especialista en Business Intelligence Analysis Services SSAS (Sesión 13) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos."

Presentaciones similares


Anuncios Google