• Adolfo Sánchez Burón

Árboles de decisión y Random Forest. German Credit Data

Actualizado: 19 dic 2020

Proyecto desarrollado paso a paso sobre valoración del riesgo de concesión de créditos, analizados mediante los logaritmos de Árboles de decisión y Random Forest.



Algoritmos empleados


En este caso se vana a emplear dos algoritmos para comprobar cuál de ellos tiene unas métricas superiores para predecir la probabilidad de impago en un crédito bancario.


Para un breve resumen de ambas técnicas se puede ver en:



Características del caso


El caso empleado en este análisis es el 'German Credit Data', que puede descargarse el dataset original desde UCI. Este dataset ha sido previamente trabajado en cuanto a:


  • análisis descriptivo

  • limpieza de anomalías, missing y outliers

  • peso predictivo de las variables mediante random forest

  • discretización de las variables continuas para facilitar la interpretación posterior


Por lo que finalmente se emplea en este caso un dataset preparado para iniciar el análisis, que puede descargarse de GitHub.


El objetivo del caso es predecir la probabilidad de que un determinado cliente puede incluir un crédito bancario. La explicación de esta conducta estará basada en toda una serie de variables predictoras que se explicarán posteriormente.



Proceso


1. Entorno

El primer punto tratará sobre la preparación del entorno, donde se mostrará la descarga de las librerías empleadas y la importación de datos.


2. Análisis descriptivo

Se mostrarán y explicarán las funciones empleadas en este paso, dividiéndolas en tres grupos: Análisis inicial, Tipología de datos y Análisis descriptivo (gráficos).


3. Preparación de la modelización

Particiones del dataset en dos grupos: training (70%) y test (30%)


4. Modelización

Por motivos didácticos, se dividirá la modelización de los dos algoritmos en una sucesión de pasos.


Para ver el código en R y los resultados:

En HTML: RPubs

En pdf: GitHub



73 visualizaciones0 comentarios