• Adolfo Sánchez Burón

Regresión Logística. Detección de churn (abandono)

Actualizado: 15 dic 2020

Se emplea como algoritmo de Machine learning el análisis de regresión logística para predecir la clasificación de sujetos de dos muestras (train y test) como churn o no churn (abandono).





Introducción al análisis de regresión logística


El Análisis de regresión logística es el indicado cuando queremos predecir una variable categórica binaria, en función de un conjunto de predictores. Cuando solo tenemos un predictor se le denomina RL simple, y cuando hay más de dos, RL múltiple.


La lógica de este estadístico es la siguiente: en función de una serie de predictores queremos predecir la probabilidad de que un caso pertenezca a una de las dos posibilidades de la variable binaria.


Si bien, la RL aporta una determinada probabilidad de ocurrencia para cada caso de pertenecer a una de las dos categorías, posteriormente se tendrá que establecer un límite (threshold) para determinar la pertenencia o no a una de esas dos categorías, el cual podrá ser más o menos restrictivo dependiendo de las características del estudio.


Por tanto, la función logística producirá una curva en S, indicando los valores 0 y 1, lo que se diferencia del análisis de regresión lineal, cuya variable dependiente es una variable cuantitativa continua, y reporta una línea recta.



Características del caso


El caso empleado en este análisis es el 'Telco Customer Churn', que puede descargarse el dataset original de Kaggle. Este dataset ha sido previamente trabajado en cuanto a:


- análisis descriptivo

- limpieza de anomalías, missing y outliers

- peso predictivo de las variables mediante random forest

- discretización de las variables continuas para facilitar la interpretación posterior


Por lo que finalmente se emplea en este caso un dataset preparado para iniciar el análisis de RL, que puede descargarse de Github.


El objetivo del caso es predecir la probabilidad de que un determinado cliente puede abandonar (churn) la empresa. La explicación de esta conducta estará basada en toda una serie de variables predictoras que se pueden clasificar en cuatro grupos:


  • Churn: la variable TARGET, con puntuaciones de 0 (no abandonó la empresa) y 1 (sí abandonó la empresa)

  • Servicios contratados: phone, multiple lines, internet, online security, online backup, device protection, tech support, and streaming TV and movies.

  • Información sobre cuentas dle cliente: how long they’ve been a customer, contract, payment method, paperless billing, monthly charges, and total charges.

  • Variables demográficas: gender, age range, and if they have partners and dependents


Tras estudiar el peso predictivo de estas variables sobre la TARGET, finalmente se redujo el número de predictores a 6: Internet Service, Contract, Payment Method, tenure, Monthly Charges y Total Charges.



Proceso


1. Entorno

El primer punto tratará sobre la preparación del entorno, donde se mostrará la descarga de las librerías empleadas y la importación de datos.


2. Análisis descriptivo

Se mostrarán y explicarán las funciones empleadas en este paso, dividiéndolas en tres grupos: Análisis inicial, Tipología de datos y Análisis descriptivo (gráficos).


3. Modelización

Se preparará lo necesario para modelizar con el análisis de RL, como es:


a) Preparar funciones:

- Matriz de confusión

- Métricas

- Umbrales

- Curva ROC y AUC


b) Particiones del dataset en dos grupos: training (70%) y test (30%)


4. Modelización con regresión logística


Por motivos didácticos, se dividirá en seis pasos:

- Paso 1. Primer modelo

- Paso 2. Segundo modelo

- Paso 3. Predict

- Paso 4. Umbrales

- Paso 5. Matriz de confusión

- Paso 6. Métricas definitivas


Para ver el código en R y los resultados:

En HTML: RPubs

En pdf: GitHub


15 visualizaciones0 comentarios