TEXT MINING PARA MEJORAR TU CRM

Slides:



Advertisements
Presentaciones similares
DIRECTORIO ESTADÍSTICO NACIONAL DE UNIDADES ECONÓMICAS 1 DENUE más de 4.9 millones El DENUE es un Directorio de todas las empresas georreferenciadas que.
Advertisements

Active Atlas: Una herramienta de coreferenciación de objetos en la Web Antonio Carlos Maraver Martín.
Aprender a conocer (saber) Aprender a hacer (saber hacer) Aprender a ser (Saber ser) APRENDIZAJES FUNDAMENTALES TUNNING Genéricas Específicas Aprender.
Metodología de Osterwalder
-SON LOS ESTANDARES BASICOS DEL APRENDIZAJE MATRIZ DE REFERENCIA COMPETENCIA -SON LOS ESTANDARES BASICOS DEL APRENDIZAJE -LOS DBA COMPONENTE SON LAS.
Gestiónhumana.com Versión ¿Qué es Gestionhumana.com? Gestiónhumana.com es una comunidad especializada con información y herramientas de aplicación.
NIVELES DE MEDICION NIVEL DE MEDICION NOMINAL Hay 2 o mas categorías del ítem o la variable. Las categorías no tienen orden ni jerarquía. NIVEL DE MEDICION.
INVESTIGACIÓN CUALITATIVA EN CIENCIAS SOCIALES Narcisa Rezavala Zambrano. Jhesenia Sacoto Loor Tema: El uso de grupos focales para el levantamiento de.
* Parte del punto 3 está basado en las presentaciones del Curso de Enfoques Metodológicos de Fernando Cartes M.
Cómo presentar trabajos académicos
TESIS DE GRADO DESARROLLO DEL SISTEMA WEB PARA LA ADMINISTRACIÓN DE LAS ACTIVIDADES ACADÉMICAS DE ALUMNOS, PROFESORES Y RESPONSABLES DE LOS DEPARTAMENTOS.
Metodología de la Investigación Cualitativa
EL TRATAMIENTO DE LOS DATOS
M r 2016.
Solución de problemas y toma de decisiones administrativas
Unidad 4. Estrategias para promover el aprendizaje significativo
INTEGRANTES: MAURICIO GARCÍA CÁRDENAS CARLOS PALACIOS CONTRERAS
METODOLOGÍA DE SISTEMAS
Agua para el Desarrollo ESTADO DEL PROYECTO
EXPERIENCIAS EDUCATIVAS EN LAS AULAS DEL SIGLO XXI INNOVACIÓN CON TIC
LECTURA Y METACOGNICIÓN
Lengua Española y su Didáctica 1ºGrado E. Primaria B3
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Estrategias psicolinguísticas
ANALISIS Y DESCIPCION DE PUESTOS DE TRABAJO
Dr. Pedro Salcedo L. - Dr. Oscar Nail K. (c) Mg. Carla Arzola Z. Chile
Riesgos y Control Informático
TRABAJO BASE DE DATOS CARLOS MARTINEZ 7º3
ENFOQUES DE CONSERVACIÓN
Revisión Sistemática y Meta-análisis
Inteligencia Artificial
TEMA: EVOLUCIÓN DE LA WEB
Máster en negocio, diseño y tecnología
y Administración Pública
CALIDAD EN ECOSISTEMAS ACUÁTICOS: MEDIDAS DE DIVERSIDAD
Fundamentos del computador
Aplicación web de reevaluación y recomendación de competencias profesionales, mediante inteligencia artificial.
COLEGIO GARSIDE Equipo 1.
Profesores integrantes: Magdalena Gaviño (Matemáticas)
Características generales
Motores de busqueda.
Jaime Martel Congreso Conocimiento Abierto, 12/Nov/2015.
El proyecto del Diccionario del Español de México (DEM)
Repaso Name the categories these foods belong to:
RODRÍGUEZ CARRANZA SARAÍ ABI
“Concreta los proyectos que siempre soñaste”
Profesor: Eduardo Abdala A. Ingeniero Civil Industrial
1 Adquisición de los requerimientos 2 Análisis de los requerimientos
ESTADÍSTICA BÁSICA.
Paquetes estadísticos
PRESENTACIÓN ORAL Y DEFENSA EFICAZ DEL TRABAJO DE FIN DE GRADO
INGENIERIA DE SOFTWARE
APLICACIÓN DEL PORTAFOLIO EN LA ENSEÑANZA DE LA MATEMATICA
AUTOESTIMA Es la imagen que el/la niño/a tiene de sí mismo, abarca su apariencia, sus conocimientos, sus capacidades, ... El modo en que me valoro determina.
METODOS PARA ANALISIS DE TALUDES
EXPERIENCIAS DE APRENDIZAJE © ENRIQUE BLANCO CARRERA
Potencial de la analítica del aprendizaje en evaluación educativa
Marketing Digital Autor: Ezequiel Rodolfo Tesone.
Los Reportes de Evaluación Psicológica Organizacionales
Aplicación en INE Blackboard de los Estudios de Caso
Lingüística computacional
Jefe División Convenios Marco
Lingüística computacional
MAPA SEMANTICO.
Procesamiento de Texto
Presentación CRM 2019.
Aprendizaje en Agente Autónomos
PLAN DE IMPULSO DE LAS TECNOLOGÍAS DEL LENGUAJE
¡Data Discovery con R y PBI! ¿Qué es? ¿Por qué es importante?
ACTIVIDAD RESULTADOS ISCE 2018
Transcripción de la presentación:

TEXT MINING PARA MEJORAR TU CRM

Surfing the buzzwords wave, Índice Proyectos reales de Text Mining. ¿Cómo puede aportar valor en nuestro CRM? 2. Caso de uso: Analizando los comentarios de usuarios en las APPs bancarias españolas. Surfing the buzzwords wave, getting real insights

1. PROYECTOS REALES DE TEXT MINING ¿Cómo puede aportar valor en nuestro CRM?

Proyectos de Text Mining - Modelos de abandono - Modelos de pricing comprendiendo elasticidades, segmentos de clientes… - Chatbot reclamaciones - Chatbot recomendaciones - Lanzamiento de productos, promociones, comunicaciones con la empresa… - Análisis de reclamaciones - Filtrado de emails y redirección al responsable Estrategias de inversión Procesos de selección en RRHH Detección y captación de clientes potenciales … Otros usos importantes más alejados del CRM

2. CASO DE USO Analizando los comentarios de usuarios en las APPs bancarias españolas.

Pasos previos Formulación de objetivos: Herramientas a usar Obtención de los datos Empresariales: - Monitorización de la APP y de la competencia - Sistemas de alertas y reportes Investigadores: - Pre-procesamiento de textos especialmente problemáticos - Modelización no supervisada en documentos de reducida extensión. - Modelización supervisada con observaciones sin clasificar. Paquetes R: Tm Tidytext Wordcloud Fpc Cluster Ggplot2 …. Scrapeo de Google Play y montado una Restful API a la que lanzar peticiones desde R. https://github.com/facundoolano/google-play-scraper/

Valoraciones y primer acercamiento a los comentarios 2.1 Análsis exploratorio Valoraciones y primer acercamiento a los comentarios

Valoración media y distribución de las estrellas de cada APP

Estadísticas descriptivas de las reviews La longitud media de los comentarios es 6 palabras… … veamos lo que ocurre cuando los agrupamos por Banco: Banco Long.Media Santander 2.78 La Caixa 3.11 BBVA 5.69 Bankinter 6.36 EVO 8.19 CajaMar 9.30 Bancos ordenados del más valorado al menos valorado Comprobamos este hecho distinguiendo directamente Valoración en estrellas: Valoración Long.Media 1 10.4 2 9.70 3 7.90 4 5.31 5 3.14 Parece que los comentarios con mejor valoración son de menor longitud y viceversa

2.2 Procesamiento de lenguaje natural (NLP) No supervisado: - LDA Supervisado: - Predecir valoraciones - Segmentar por departamento

A- Preprocesamiento A0. Constitución del Corpus y Documentos Cada comentario un documento, ¿o no? Librerías: textcat cld2 cld3 Ngramas + distancias A1. Detección de Idioma ¿Ngramas? ¿Técnicas más complejas? Probabilístico Ngrama Hash, RN con capa Embeding Diccionario Custom Sustantivos y adjetivos Pos y Neg A2.Segmentación de frases y Tokenización A3.Stemming y Formas Canónicas A4. Bag of words, Shallow parsing o anotaciones part-of-speech (POS)

B- Métodos no supervisados. Modelado de tópicos B1. Latent Dirichlet Allocation (LDA) (Bolsa de palabras) Probabilidades Palabra – Tópico β Probabilidades Documento - Tópico γ Tópico 1 Tópico 2 Tópico 3 76.9% 9.52% 13.5% 10.7 % 85.1 % 4.15 % 20.06% 7.34% 72.6% «Estafa de banco Banco malo malo, de los peores que hay en espana…» Doc. 1 Doc. 2 «Nuevo intento en 14 de agosto de lunes, 45dias sin App de BKN y parece que va para largo» Doc. 3 «Sin duda la mejor aplicación bancaria del momento» Alta dispersión debido a la longitud de los documentos. Si esto se convirtiera en un problema: Considerar varias Reviews como un solo documento. ¿En base a que? Cambiar el enfoque de bolsa de palabras. Considerar las relaciones semánticas y anotaciones part-of-speech (POS) Añadir / enriquecer los comentarios. ¿Sinónimos? Integración de ontologías financieras para desambiguación, sinónimos, antónimos… ¿FIBO? Word2vec, Topic2Vec Aprendizaje supervisado Prueba con bancos Modelos UDPipe https://ufal.mff.cuni.cz/udpipe

C- Análisis de sentimiento Vocabulario de términos positivos y negativos genéricos en Español + Vocabulario personalizado Clasificados en Positivos / Negativos Clasificados en Positivos / Negativos en rango [-3 , 3]

D- Métodos supervisados D- Métodos supervisados. Prediciendo las estrellas de valoración con cada comentario ¿Podremos con una matriz tan dispersa hacer un modelo que aprenda las valoraciones? Prediccion/Real 1 2 3 4 5 19 8 22 144 Accuracy = 73.99%

CONCLUSIONES Pese a la dificultad de tratar con datos reales especialmente complejos hemos conseguido: Con un sencillo y buen preprocesado limpiar los documentos de manera exitosa. Hemos discutido diferentes enfoques a la hora de llevar a cabo una tarea tan abierta. Se han encontrada de manera no supervisada los tópicos que estructuran los documentos. El enfoque supervisado ha sido más problemático, modelando aceptablemente el rating en estrellas basado en los comentarios aunque fallando en la clasificación por departamento.

¡Muchas gracias! Carlos Vecina Tebar Contacto: https://github.com/CarlosVecina/TextCRM https://www.linkedin.com/in/carlos-vecina/