Random Forest como herramienta para mejorar la precisión en la imputación de datos meteorológicos en Chimborazo, Ecuador

Random Forest as a tool to improve accuracy in the imputation of meteorological data in Chimborazo, Ecuador

Publicado en: Esprint Investigación

Fecha de Publicación: 2025-09-30

Volumen: 4

Número: 2

Año: 2025

DOI URL: https://doi.org/10.61347/ei.v4i2.169

Autores:

Palabras clave: Datos faltantes; imputación; k-vecinos más cercanos (k-NN); meteorología; Random Forest (RF)


Resumen

Gestionar la información faltante en los registros meteorológicos monitoreados por el Grupo de Energías Alternativas y Ambientales (GEAA) es esencial para realizar un análisis climático preciso y tomar decisiones informadas. El objetivo de este artículo fue evaluar la efectividad del algoritmo Random Forest mediante el software estadístico R. La investigación tuvo un enfoque cuantitativo con un alcance descriptivo-comparativo; el diseño es no experimental y longitudinal. Se comparó Random Forest (k-NN) con el de k-vecinos más cercanos (k-NN o K-Nearest Neighbors) utilizando diversas métricas, como Error Cuadrático Medio (RMSE), Error Medio Absoluto (MAE), pruebas de Kolmogorow-Smirnov, sumado a ello la eficiencia computacional en cuanto al tiempo y memoria. Los resultados indicaron que Random Forest obtuvo mayor precisión con respecto a k-NN; los valores de RMSE y MAE son evidentemente más bajos. RF demandó mayor recurso computacional, la capacidad y efectividad al momento de procesar registros de alta complejidad lo convierten en la mejor opción, proporcionando mayor confiabilidad al momento de imputar y, por ende, datos de calidad.

Abstract

Managing missing information in meteorological records monitored by the Alternative and Environmental Energy Group (GEAA) is essential for conducting accurate climate analyses and making informed decisions. The objective of this article was to evaluate the effectiveness of the Random Forest algorithm using the statistical software R. The research followed a quantitative approach with a descriptive-comparative scope; the design was non-experimental and longitudinal. Random Forest was compared with the k-Nearest Neighbors (k-NN) algorithm using various metrics, such as Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), and Kolmogorov-Smirnov tests, along with computational efficiency in terms of time and memory. The results indicated that Random Forest achieved higher accuracy compared to k-NN, with significantly lower RMSE and MAE values. Although RF required greater computational resources, its capacity and effectiveness in processing highly complex records make it the best option, providing greater reliability in data imputation and, consequently, higher-quality datasets.

Comentarios

No hay comentarios aún. Sé el primero en comentar.

Agregar un comentario