Minería de Datos como Herramienta para la Gestión Moderna

Minería de Datos como Herramienta para la Gestión Moderna
DR. NICOLAS KEMPER VALVERDE Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO

Gestión Moderna: Contexto de los negocios
Globalización Competencia Ventajas competitivas Tecnología Cambio Cultura organizacional Distancias geográficas e Internet

Gestión Moderna: Contexto de los negocios
Economía del conocimiento Administración de la relación con clientes Campañas de publicidad Mejoramiento de procesos Diseño de producto Investigación de mercados Investigación de productos

Tipos de Empresas Manufactureras Tarjetas de Crédito
Servicios Medios: TV, radio, prensa Gobierno Telefonía fija y móvil Bancarias Medicina Bursátiles Farmacéuticas Seguros Minoristas

Gestión Moderna: Implantar Ventajas Competitivas

Competencia y conocimiento
Expertise Conocimiento Información Datos Símbolos

Ventaja competitiva Aprender sobre los clientes Utilizar lo aprendido sobre los clientes para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

Ventaja competitiva Aprender sobre los competidores Utilizar lo aprendido sobre los competidores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

Ventaja competitiva Aprender sobre los proveedores Utilizar lo aprendido sobre los proveedores para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

Ventaja competitiva Aprender sobre los procesos internos Utilizar lo aprendido sobre los procesos internos para aumentar la rentabilidad de la compañía y hacerles a los clientes la vida más fácil

¿Qué hacer para adquirir ventajas competitivas?
Comprar los resultados: Comprar el software y los modelos: Contratar consultores Desarrollar la expertisia internamente

Inteligencia de Negocios y MD
Administración del Conocimiento Minería de datos OLAP

Negocios: Establecimiento de metas concretas
Incremento de las ventas en un 30% en productos de baja rotación en los próximos 10 meses Reducir de 2 a 1% el número de clientes premier que se pueden ir a la competencia en este trimestre (retención de clientes) Encontrar las características demográficas de los clientes de un nuevo producto (predicción de demanda )

Negocios: Establecimiento de metas concretas
Detección de fraudes en tarjetas de crédito Estrategia de las promociones en una sala de venta al por menor Encontrar patrones de enfermedades Establecer estrategias para el ahorro de energía

Factores de Éxito Escoger bien el problema del negocio
Tener los datos apropiados (cantidad y calidad) Otros: habilidades de modelación herramienta interactiva medios de visualización

Inteligencia de Negocios
El flujo de información y conocimiento en una empresa es actualmente muy importante si se quiere mantener una posición fuerte en el mercado, sin embargo, la gran mayoría de las organizaciones tienen una abundancia de datos, pero muy poco conocimiento explicito. La Inteligencia de Negocios, es un concepto que trata de englobar todos los sistemas de información de una organización para obtener de ellos no solo información o conocimiento, si no una verdadera inteligencia que le confiera a la organización una ventaja competitiva por sobre sus competidores. El éxito de un negocio depende de que tan bien conozca a sus clientes, que tan bien entienda sus procesos internos y que tan efectivo sea para realizar todas sus operaciones

Inteligencia de Negocios
La Inteligencia de Negocios se compone de todas las actividades relacionadas a la organización y entrega de información así como el análisis del negocio. Data Warehousing y Data Marts, Sistemas de almacén de datos. Aplicaciones analíticas. Data Mining, herramientas para minería de datos. OLAP, herramientas de procesamiento analítico de datos. Herramientas de consulta y reporte de datos. Herramientas de producción de reportes personalizados. ELT, herramientas de extracción, traducción y carga de datos. Herramientas de administración de sistemas. Portales de información empresarial. Sistemas de base de datos. Sistemas de administración del conocimiento.

Administración del Conocimiento
Manejo de la información para generar conocimiento, abarcando todos los recursos intelectuales de una organización en todos los niveles de responsabilidad. Así mismo, la Gestión de Conocimiento ayuda a obtener mayor comprensión y entendimiento del entorno y de los procesos desde la propia experiencia en las personas y organizaciones.

Administración del Conocimiento
Ante este reto, se plantea la necesidad de alcanzar una forma de organización que rompa los límites tradicionales. Una organización con estructuras más flexibles que supere los cuatro tipos de fronteras más frecuentes: . verticales o jerárquicas, entre personas; . horizontales, entre funciones y disciplinas; . externas, con suministradores, clientes, empresas y otros stakeholders; . y geográficas, con naciones, culturas y mercados.

MINERIA DE DATOS La Minería de Datos se centra en la búsqueda de patrones interesantes y regularidades importantes en grandes bases de datos

Supuestos de la Minería de Datos
El pasado es un buen descriptor y predictor del futuro Hay datos disponibles Los datos contienen lo que queremos describir o predecir

Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos
El aumento del volumen y variedad de información que se encuentran en bases de datos digitales ha crecido espectacularmente en la última década. Gran parte de esta información es histórica, es decir, representa transacciones o situaciones que se han producido (bitácoras). Aparte de su función de “memoria de la organización”, la información histórica es útil para predecir la información futura.

La mayoría de decisiones de empresas, organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de fuentes muy diversas. Las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana. El área de la extracción automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y económica inusual

Tamaño de datos poco habitual para algoritmos clásicos:
número de registros (ejemplos) muy largo ( bytes). datos altamente dimensionales (nº de columnas/atributos): El usuario final no es un experto en aprendizaje automático ni en estadística. El usuario no puede perder más tiempo analizando los datos: industria: ventajas competitivas, decisiones más efectivas. ciencia: datos nunca analizados, bancos no cruzados, etc. Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de datos típicos en bases de datos.

“Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”. Fayyad et al. 1996 Diferencia clara con métodos estadísticos: la estadística se utiliza para validar o parametrizar un modelo sugerido y preexistente, no para generarlo. Diferencia sutil “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el análisis de los datos.

KDD nace como interfaz y se nutre de diferentes disciplinas:
estadística. sistemas de información / bases de datos. aprendizaje automático / Inteligencia Artificial. visualización de datos. computación paralela / distribuida. interfaces de lenguaje natural a bases de datos.

La minería o prospección de datos (DM) no es más que una fase del KDD:
Fase que integra los métodos de aprendizaje y métodos estadísticos para obtener hipótesis de patrones y modelos. Al ser la fase de generación de hipótesis, vulgarmente se asimila al KDD con DM. Además, las connotaciones de aventura y de dinero fácil del término “minería de datos” han hecho que éste se use como identificador del área.

La minería de datos aspira a más
La minería de datos no es una extensión de los sistemas de informes inteligentes o sistemas OLAP (On-Line Analytical Processing). La minería de datos aspira a más

“¿Han subido las ventas del producto X en junio?”
Otras herramientas, p.ej. consultas sofisticadas o análisis estadístico, pueden responder a preguntas como: “¿Han subido las ventas del producto X en junio?” “¿Las ventas del producto X bajan cuando promocionamos el producto Y?” Pero sólo con técnicas de minería de datos podremos responder a preguntas del estilo: “¿Qué factores influyen en las ventas del producto X?” “¿Cuál será el producto más vendido si abrimos una sucursal en Chiclayo?

Visión con las herramientas tradicionales:
El analista empieza con una pregunta, una suposición o simplemente una intuición y explora los datos y construye un modelo. El analista propone el modelo. Visión con la minería de datos: Aunque el analista no pierde la posibilidad de proponer modelos, el sistema encuentra y sugiere modelos. Ventajas: Generar un modelo requiere menos esfuerzo manual y permite evaluar cantidades ingentes de datos. Se pueden evaluar muchos modelos generados automáticamente, y esto aumenta la probabilidad de encontrar un buen modelo. El analista necesita menos formación sobre construcción de modelos y menos experiencia.

El Proceso del KDD El descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD). Se refiere a un proceso que consta de una serie de fases, mientras que la minería de datos es sólo una de ellas.

El Proceso del KDD. FASES
Determinar las fuentes de información que pueden ser útiles y dónde conseguirlas. 2. Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga unificar de manera operativa toda la información recogida. 3. Implantación del almacén de datos que permita la “navegación” y visualización previa de sus datos, para discernir qué aspectos puede interesar que sean estudiados. 4. Selección, limpieza y transformación de los datos que se van a analizar. La selección incluye tanto una criba o fusión horizontal (filas) como vertical (atributos). 5. Seleccionar y aplicar el método de minería de datos apropiado. Evaluación, interpretación, transformación y representación de los patrones extraídos. 7. Difusión y uso del nuevo conocimiento.

Minería de Datos La Minería de Datos es un conjunto de técnicas de análisis de datos que permiten: Extraer patrones, tendencias y regularidades para describir y comprender mejor los datos. Extraer patrones y tendencias para predecir comportamientos futuros. Debido al gran volumen de datos este análisis ya no puede ser manual (ni incluso facilitado por herramientas de almacenes de datos y OLAP) sino que ha de ser (semi-)automático.

la minería de datos “analiza” los datos
La Minería de Datos se diferencia claramente del resto de herramientas en el sentido de que: no transforma y facilita el acceso a la información para que el usuario la analice más fácilmente. la minería de datos “analiza” los datos

¿Es necesario tener almacenes de datos para realizar minería de datos?
Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos. se puede hacer minería de datos sobre un simple fichero de datos. Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando: tenemos grandes volúmenes de datos, o éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas.

Tipología de Técnicas de Minería de Datos
Las técnicas de minería de datos crean modelos que son predictivos y/o descriptivos. Un modelo predictivo responde preguntas sobre datos futuros. ¿Cuáles serán las ventas el año próximo? ¿Es ésta transacción fraudulenta? ¿Qué tipo de seguro es más probable que contrate el cliente X? ¿Cuántos clientes nuevos habrán en este mes?

Tipología de Técnicas de Minería de Datos
Un modelo descriptivo proporciona información sobre las relaciones entre los datos y sus características. Genera información del tipo: Los clientes que compran pañales suelen comprar cerveza. El tabaco y el alcohol son los factores más importantes en la enfermedad Y. Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto.

Tipos de conocimiento Asociaciones: Una asociación entre dos atributos ocurre cuando la frecuencia de que se den dos valores determinados de cada uno conjuntamente es relativamente alta. Ejemplo, en un supermercado se analiza si los pañales y los biberones de bebé se compran conjuntamente.

Tipos de conocimiento Dependencias: Una dependencia funcional (aproximada o absoluta) es un patrón en el que se establece que uno o más atributos determinan el valor de otro. Ojo! Existen muchas dependencias nada interesantes (causalidades inversas). Ejemplo: que un paciente haya sido ingresado en maternidad determina su sexo. La búsqueda de asociaciones y dependencias se conoce a veces como análisis exploratorio.

Tipos de conocimiento Clasificación: Una clasificación se puede ver como el esclarecimiento de una dependencia, en la que el atributo dependiente puede tomar un valor entre varias clases, ya conocidas. Ejemplo: se sabe (por un estudio de dependencias) que los atributos edad, número de miopías y astigmatismo han determinado los pacientes para los que su operación de cirugía ocular ha sido satisfactoria. Podemos intentar determinar las reglas exactas que clasifican un caso como positivo o negativo a partir de esos atributos.

Tipos de conocimiento Agrupamiento/Segmentación: El agrupamiento (o clustering) es la detección de grupos de individuos. Se diferencia de la clasificación en el que no se conocen ni las clases ni su número (aprendizaje no supervisado), con lo que el objetivo es determinar grupos o racimos (clusters) diferenciados del resto.

Tipos de conocimiento Tendencias/Regresión: El objetivo es predecir los valores de una variable continua a partir de la evolución sobre otra variable continua, generalmente el tiempo. Ejemplo, se intenta predecir el número de clientes o pacientes, los ingresos, llamadas, ganancias, costes, etc. a partir de los resultados de semanas, meses o años anteriores. Reglas Generales: patrones no se ajustan a los tipos anteriores. Recientemente los sistemas incorporan capacidad para establecer otros patrones más generales.

El Problema de la Extracción Automática de Conocimiento
La minería de datos no es más que un caso especial de aprendizaje computacional inductivo. ¿Qué es aprendizaje? (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. (visión más estática) es la identificación de patrones, de regularidades, existentes en la evidencia. (visión externa) es la predicción de observaciones futuras con plausibilidad. (visión teórico-informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información. Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.

Taxonomía Técnicas de Minería de Datos
Data Mining Discovery Driven DM Verification Driven DM SQL SQL Generator Query Tools OLAP Description Prediction Classification Statistical Regression Decision Tree Rule Induction Neural Network Visualization Clustering Association Sequential Association Distillation

Taxonomía de Técnicas de DM
DESCRIPTIVO: Análisis Exploratorio Técnicas: Estudios correlacionales Asociaciones. Dependencias. Detección datos anómalos. Análisis de dispersión.

DESCRIPTIVO: Segmentación (Aprendizaje no supervisado) Técnicas de clustering: k-means (competitive learning). SOM: redes neuronales de Kohonen EM (Estimated Means) (Dempster et al. 1977). Cobweb (Fisher 1987). AUTOCLASS …

PREDICTIVO: Interpolación y Predicción Secuencial. Generalmente las mismas técnicas: Datos continuos (reales): Regresión Lineal: Regresión lineal global (clásica). Regresión lineal ponderada localmente. Regresión No Lineal: logarítmica, pick & mix, ... Datos discretos: No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos.

PREDICTIVO: Aprendizaje supervisado. Dependiendo de si se estima una función o una correspondencia: clasificación: se estima una función (las clases son disjuntas). categorización: se estima una correspondencia (las clases pueden solapar).

Dependiendo del número y tipo de clases: clase discreta: se conoce como “clasificación”. Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno. clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”). Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias.

PREDICTIVO: Aprendizaje supervisado (Clasificación). Técnicas: k-NN (Nearest Neighbor). k-means (competitive learning). Perceptron Learning. Multilayer ANN methods (e.g. backpropagation). Radial Basis Functions.

PREDICTIVO: Aprendizaje supervisado (Clasificación). Técnicas: Arboles de Decisión (p.ej. ID3, C4.5, CART). Clasificadores Bayesianos Center Splitting Methods. Reglas (CN2) Pseudo-relacional: Supercharging, Pick-and-Mix. Relacionales: ILP, IFLP, SCIL.

Áreas de Aplicación Áreas de Aplicación:
Toma de Decisiones (banca-finanzas-seguros, márketing, políticas sanitarias/demográficas, ...) Procesos Industriales (componentes químicos, compuestos, mezclas, esmaltes, procesos, etc.) Investigación Científica (medicina, astronomía, meteorología, psicología, ...). Aquí la eficiencia no es tan importante. Más importante industrialmente

Áreas de Aplicación Soporte al Diseño de Bases de Datos.
Reverse Engineering (dados una base de datos, desnormalizarla para que luego el sistema la normalice). Mejora de Calidad de Datos. Mejora de Consultas (si se descubren dependencias funcionales nuevas u otras condiciones evitables).

Áreas de Aplicación. Problemas Tipo
Comercio/Marketing: - Identificar patrones de compra de los clientes. - Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing. - Análisis de cestas de la compra. Banca: Detectar patrones de uso fraudulento de tarjetas de crédito - Identificar clientes leales. - Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos. - Encontrar correlaciones entre indicadores financieros. - Identificar reglas de mercado de valores a partir de históricos.

Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predecir qué clientes compran nuevas pólizas. - Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento. Transportes: Determinar la planificación de la distribución entre tiendas. - Analizar patrones de carga.

Medicina: Identificación de terapias médicas satisfactorias para diferentes enfermedades. Asociación de síntomas y clasificación diferencial de patologías. Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de riesgo/salud en distintas patologías. Segmentación de pacientes para una atención más inteligente según su grupo. Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones. Estudios epidemiológicos, análisis de rendimientos de campañas de información, prevención, sustitución de fármacos, etc.

Extracción de modelos sobre comportamiento de compuestos. Detección de piezas con trabas. Predicción de fallos Modelos de calidad. Estimación de composiciones óptimas en mezclas. Extracción de modelos de coste. Extracción de modelos de producción. Simulación costes/beneficios según niveles de calidad

Sistemas

Tipos de Sistemas: Standalone: Los datos se deben exportar/convertir al formato interno del sistema de DM: Knowledge Seeker IV (Angoss International Limited, Groupe Bull). On-top: Pueden funcionar sobre un sistema propietario (Clementine sobre ODBC, microstrategy sobre Oracle). Embedded (propietarios): Oracle Discoverer, Oracle Darwin, IBM... Extensible (Tecnología Plug-ins): proporcionan unas herramientas mínimas de interfaz con los datos, estadísticas y visualización, y los algoritmos de aprendizaje se pueden ir añadiendo con plug-ins. (ej. KEPLER).

Sistemas

MUCHAS GRACIAS DR. NICOLAS KEMPER VALVERDE
Laboratorio de Sistemas Inteligentes CENTRO DE CIENCIAS APLICADAS Y DESARROLLO TECNOLOGICO Universidad Nacional Autónoma de México

Minería de Datos como Herramienta para la Gestión Moderna

Presentaciones similares

Presentación del tema: "Minería de Datos como Herramienta para la Gestión Moderna"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Minería de Datos como Herramienta para la Gestión Moderna

Presentaciones similares

Presentación del tema: "Minería de Datos como Herramienta para la Gestión Moderna"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback