Una mirada al espacio: exoplanetas K2 con imputación múltiple, PCA y ensamblado
Loading...
Official URL
Full text at PDC
Publication date
2025
Defense date
09/2025
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
La búsqueda de exoplanetas es un área fundamental en la astronomía moderna, el estudio del espacio extrasolar permite ampliar nuestro conocimiento sobre el universo. En este trabajo se presenta un análisis estadístico aplicado para la detección y clasificación de exoplanetas utilizando datos del telescopio K2 de la NASA. Se han implementado técnicas de imputación múltiple para el tratamiento de los valores perdidos, técnicas de componentes principales para manejar la multicolinealidad y se han entrenado modelos predictivos de clasificación, logística binaria, árbol de clasificación, Random Forest y Extreme Gradient Boosting, para identificar la presencia de exoplanetas en el conjunto de datos, consiguiendo capturar relaciones internas y complejas entre las variables. Los resultados muestran un rendimiento satisfactorio en términos de sensibilidad, especificidad y área bajo la curva ROC, evidenciando la capacidad de los modelos para discriminar entre objetos celestes con y sin exoplanetas. Este estudio contribuye a mejorar los métodos estadísticos en la detección de exoplanetas y abre vías para futuras investigaciones en astronomía estadística y machine learning aplicado.
Description
The search for exoplanets is a fundamental field in modern astronomy, as the study of extrasolar space broadens our understanding of the universe. This paper presents a statistical analysis applied to the detection and classification of exoplanets using data from NASA’s K2 telescope. Multiple imputation techniques have been implemented to address missing values, and principal component methods were applied to manage multicollinearity. Predictive classification models—including binary logistic regression, classification trees, Random Forest, and Extreme Gradient Boosting—were trained to identify the presence of exoplanets in the data set, effectively capturing internal and complex relationships among variables. The results demonstrate satisfactory performance in terms of sensitivity, specificity, and area under the ROC curve, highlighting the models’ ability to discriminate between celestial objects with and without exoplanets. This study contributes to advancing statistical methods for exoplanet detection and opens pathways for future research in statistical astronomy and applied machine learning.







