Proyecto desarrollado paso a paso sobre valoración del riesgo de concesión de créditos, analizados mediante los logaritmos de Árboles de decisión y Random Forest.
Algoritmos empleados
En este caso se vana a emplear dos algoritmos para comprobar cuál de ellos tiene unas métricas superiores para predecir la probabilidad de impago en un crédito bancario.
Para un breve resumen de ambas técnicas se puede ver en:
Características del caso
El caso empleado en este análisis es el 'German Credit Data', que puede descargarse el dataset original desde UCI. Este dataset ha sido previamente trabajado en cuanto a:
análisis descriptivo
limpieza de anomalías, missing y outliers
peso predictivo de las variables mediante random forest
discretización de las variables continuas para facilitar la interpretación posterior
Por lo que finalmente se emplea en este caso un dataset preparado para iniciar el análisis, que puede descargarse de GitHub.
El objetivo del caso es predecir la probabilidad de que un determinado cliente puede incluir un crédito bancario. La explicación de esta conducta estará basada en toda una serie de variables predictoras que se explicarán posteriormente.
Proceso
1. Entorno
El primer punto tratará sobre la preparación del entorno, donde se mostrará la descarga de las librerías empleadas y la importación de datos.
2. Análisis descriptivo
Se mostrarán y explicarán las funciones empleadas en este paso, dividiéndolas en tres grupos: Análisis inicial, Tipología de datos y Análisis descriptivo (gráficos).
3. Preparación de la modelización
Particiones del dataset en dos grupos: training (70%) y test (30%)
4. Modelización
Por motivos didácticos, se dividirá la modelización de los dos algoritmos en una sucesión de pasos.
Para ver el código en R y los resultados:
En HTML: RPubs
En pdf: GitHub
Comments