============================================================ HADACA3 - XGBoost Deconvolution Model (Modelo 4) Features balanceadas: RNA = MET ============================================================ n\models\xgb_deconvolution_model.pkl 📂 Cargando dataset desde cache: c:\Users\herra\Documents\DataCamp\Hadaka\Solution\data\dataset_cache.pkl ✓ Cargado desde cache ============================================================ 📊 ANÁLISIS DE DISTRIBUCIÓN DE PROPORCIONES ============================================================ Tipo Media Std Min Max CV% ---------------------------------------------------- endo 0.1481 0.0821 0.0105 0.4303 55.5% fibro 0.4357 0.1067 0.1844 0.6887 24.5% immune 0.1061 0.0828 0.0022 0.5362 78.0% classic 0.2251 0.1268 0.0000 0.5094 56.3% basal 0.0850 0.0923 0.0000 0.3427 108.6% 🔍 Detección de problemas: basal: alta variabilidad Correlación entre tipos celulares: classic <-> basal: -0.669 ============================================================ ⚖️ MODELO 4: Features Balanceadas ============================================================ 📊 Dataset combinado: 75 muestras ============================================================ 🚀 Entrenando modelo XGBoost de deconvolución ============================================================ ⚖️ Balanceando features: limitando MET a 15908 (igual que RNA) 🔍 Selección por variance: 15908 features MET 📊 Features: 31,816 (15,908 RNA + 15,908 MET) 📊 Muestras de entrenamiento: 60 📊 Tipos celulares: ['endo', 'fibro', 'immune', 'classic', 'basal'] 🔧 Entrenando 5 modelos en paralelo... endo: RMSE (train) = 0.0559 fibro: RMSE (train) = 0.0549 immune: RMSE (train) = 0.0615 classic: RMSE (train) = 0.0558 basal: RMSE (train) = 0.0478 ✅ Modelo entrenado exitosamente ============================================================ 📊 MÉTRICAS DE EVALUACIÓN ============================================================ RMSE global: 0.0496 MAE global: 0.0375 R² global: 0.8902 RMSE por tipo celular: endo: 0.0391 fibro: 0.0483 immune: 0.0450 classic: 0.0570 basal: 0.0561 ============================================================ 🔄 Validación Cruzada (10 folds) ============================================================ 🔄 Validación cruzada (10 folds, paralelo)... ⚖️ Balanceando features: limitando MET a 15908 (igual que RNA) 🔍 Selección por variance: 15908 features MET Fold 1: RMSE = 0.0339 Fold 2: RMSE = 0.0563 Fold 3: RMSE = 0.0626 Fold 4: RMSE = 0.0741 Fold 5: RMSE = 0.0334 Fold 6: RMSE = 0.0893 Fold 7: RMSE = 0.0609 Fold 8: RMSE = 0.0750 Fold 9: RMSE = 0.0637 Fold 10: RMSE = 0.0380 📊 RMSE promedio: 0.0587 (±0.0178) ============================================================ 🔍 Top 20 Features más importantes ============================================================ feature importance 16738 met_cg13588354 0.037945 19678 met_cg06275635 0.033496 20888 met_cg06094150 0.031009 18854 met_cg07077459 0.029358 30266 met_cg16257685 0.029171 17890 met_cg13777411 0.027596 26546 met_cg16353413 0.024083 16012 met_cg03294619 0.023728 19084 met_cg10911660 0.022978 23869 met_cg14870461 0.022764 27414 met_cg23926526 0.021687 16772 met_cg03567830 0.020937 17072 met_cg13589108 0.020239 25604 met_cg06887414 0.020210 26774 met_cg09686308 0.019910 18285 met_cg27638672 0.019610 24396 met_cg27429194 0.018911 24480 met_cg12532477 0.018679 17567 met_cg17998964 0.017940 19126 met_cg24053587 0.017606 📊 Distribución Top 20: 0 RNA, 20 MET 💾 Guardando modelo en: c:\Users\herra\Documents\DataCamp\Hadaka\Solution\models\xgb_deconvolution_model_v4.pkl ============================================================ ✅ Proceso completado ⏱️ Tiempo de ejecución: 1m 53.61s ============================================================