============================================================ 📂 Cargando dataset desde cache: d:\Github\KokoWorks\DataCamp\Hadaka\Solution\data\dataset_cache.pkl ✓ Cargado desde cache 📊 Dataset combinado: 75 muestras ============================================================ 🚀 Entrenando modelo XGBoost de deconvolución ============================================================ 📊 Features: 39,632 (15,908 RNA + 23,724 MET) 📊 Muestras de entrenamiento: 60 📊 Tipos celulares: ['endo', 'fibro', 'immune', 'classic', 'basal'] 🔧 Entrenando modelo para: endo RMSE (train): 0.0119 🔧 Entrenando modelo para: fibro RMSE (train): 0.0133 🔧 Entrenando modelo para: immune RMSE (train): 0.0169 🔧 Entrenando modelo para: classic RMSE (train): 0.0119 🔧 Entrenando modelo para: basal RMSE (train): 0.0107 ✅ Modelo entrenado exitosamente ============================================================ 📊 MÉTRICAS DE EVALUACIÓN ============================================================ RMSE global: 0.0323 MAE global: 0.0218 R² global: 0.9535 RMSE por tipo celular: endo: 0.0219 fibro: 0.0474 immune: 0.0234 classic: 0.0350 basal: 0.0268 ============================================================ 🔄 Validación Cruzada ============================================================ 🔄 Validación cruzada (5 folds)... Fold 1: RMSE = 0.0315 Fold 2: RMSE = 0.0371 Fold 3: RMSE = 0.0432 Fold 4: RMSE = 0.0405 Fold 5: RMSE = 0.0354 📊 RMSE promedio: 0.0376 (±0.0041) ============================================================ 🔍 Top 20 Features más importantes ============================================================ feature importance 27887 met_cg14049461 0.050715 38179 met_cg25933726 0.049313 19826 met_cg04561804 0.042445 16392 met_cg00551244 0.042123 16005 met_cg00112517 0.038430 16770 met_cg00973677 0.035436 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 16250 met_cg00403724 0.019524 17727 met_cg02144933 0.019520 21402 met_cg06489418 0.018233 28426 met_cg14642832 0.016936 16144 met_cg00261781 0.016650 16524 met_cg00706536 0.016076 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 16250 met_cg00403724 0.019524 17727 met_cg02144933 0.019520 21402 met_cg06489418 0.018233 28426 met_cg14642832 0.016936 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 16250 met_cg00403724 0.019524 17727 met_cg02144933 0.019520 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 16250 met_cg00403724 0.019524 17727 met_cg02144933 0.019520 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 38937 met_cg26810336 0.032886 15909 met_cg00003994 0.027987 15909 met_cg00003994 0.027987 16438 met_cg00615377 0.024454 16250 met_cg00403724 0.019524 17727 met_cg02144933 0.019520 17727 met_cg02144933 0.019520 21402 met_cg06489418 0.018233 28426 met_cg14642832 0.016936 28426 met_cg14642832 0.016936 16144 met_cg00261781 0.016650 16144 met_cg00261781 0.016650 16524 met_cg00706536 0.016076 24817 met_cg10523671 0.015240 22904 met_cg08274552 0.015238 22904 met_cg08274552 0.015238 15981 met_cg00078867 0.013667 33061 met_cg20029652 0.012243 27547 met_cg13673094 0.011701 💾 Guardando modelo en: d:\Github\KokoWorks\DataCamp\Hadaka\Solution\models\xgb_deconvolution_model.pkl Conclusiones: 5. Conclusión El modelo muestra un desempeño sólido en general, pero requiere ajustes para manejar el sobreajuste y mejorar la predicción de tipos celulares complejos como fibro. La dependencia exclusiva en metilación sugiere oportunidades para explorar sinergias con datos de RNA o epigenómicos adicionales. 3. Importancia de Características Top 20 características: Todas son metilación (MET) (met_cgXXXXX), ninguna de RNA. La característica más importante: met_cg14049461 (5.07% de importancia). Las 20 características acumulan ~ 30% de la importancia total. Implicaciones: La metilación domina la capacidad predictiva del modelo. Falta diversidad en las características críticas (solo MET, sin RNA). Posible over-reliance en un subconjunto de metilación. --- 4. Recomendaciones 1. Análisis de sobreajuste: Implementar técnicas de regularización (ej. max_depth, lambda, alpha en XGBoost). Validar con más folds (ej. 10) para evaluar estabilidad. 2. Exploración de tipos celulares problemáticos: Investigar por qué fibro y classic tienen mayor RMSE. Posibles acciones: Verificar si hay ruido o variabilidad biológica en las muestras de fibro. Revisar distribución de clases para detectar desbalance.