• Adolfo Sánchez Burón

Gradient Boosting Machine ajustando todos los hiperparámetros

Se muestra una ejemplificación del algoritmo Gradient Boosting Machine ajustando todos los parámetros de manera automática. Se comparan dos modelos (con 14 y 12 variables).





Algoritmos empleados: Gradient Boosting Machine (GBM) ajustando hiperparámetros


Para una breve descripción del algoritmo GBM mirar el post.



Características del caso


El caso empleado en este análisis es el 'German Credit Data', que puede descargarse el dataset original desde UCI. Este dataset ha sido previamente trabajado en cuanto a:


  • análisis descriptivo

  • limpieza de anomalías, missing y outliers

  • peso predictivo de las variables mediante random forest

  • discretización de las variables continuas para facilitar la interpretación posterior


Por lo que finalmente se emplea en este caso un dataset preparado para iniciar el análisis, que puede descargarse de GitHub.


El objetivo del caso es predecir la probabilidad de que un determinado cliente puede incluir un crédito bancario. La explicación de esta conducta estará basada en toda una serie de variables predictoras que se explicarán posteriormente.



Proceso


En este post se va a seguir el proceso seguido por Boehmke y Hernández ajustando todos los hiperparámetros.


Boehmke,B.C. Gradient Boosting Machines.


Hernández, F. Gradient Boost.



Para ver el código en R y los resultados:

En HTML: RPubs

En pdf: GitHub

81 visualizaciones0 comentarios