============================================================
HADACA3 - XGBoost Deconvolution Model (Modelo 4)
Features balanceadas: RNA = MET
============================================================            n\models\xgb_deconvolution_model.pkl       
📂 Cargando dataset desde cache: c:\Users\herra\Documents\DataCamp\Hadaka\Solution\data\dataset_cache.pkl
   ✓ Cargado desde cache

============================================================
📊 ANÁLISIS DE DISTRIBUCIÓN DE PROPORCIONES
============================================================

   Tipo          Media      Std      Min      Max      CV%
   ----------------------------------------------------
   endo         0.1481   0.0821   0.0105   0.4303    55.5%
   fibro        0.4357   0.1067   0.1844   0.6887    24.5%
   immune       0.1061   0.0828   0.0022   0.5362    78.0%
   classic      0.2251   0.1268   0.0000   0.5094    56.3%
   basal        0.0850   0.0923   0.0000   0.3427   108.6%

   🔍 Detección de problemas:
      basal: alta variabilidad

   Correlación entre tipos celulares:
      classic <-> basal: -0.669

============================================================
⚖️  MODELO 4: Features Balanceadas
============================================================
📊 Dataset combinado: 75 muestras
============================================================
🚀 Entrenando modelo XGBoost de deconvolución
============================================================
   ⚖️  Balanceando features: limitando MET a 15908 (igual que RNA)      
   🔍 Selección por variance: 15908 features MET
📊 Features: 31,816 (15,908 RNA + 15,908 MET)
📊 Muestras de entrenamiento: 60
📊 Tipos celulares: ['endo', 'fibro', 'immune', 'classic', 'basal']     

   🔧 Entrenando 5 modelos en paralelo...
      endo: RMSE (train) = 0.0559
      fibro: RMSE (train) = 0.0549
      immune: RMSE (train) = 0.0615
      classic: RMSE (train) = 0.0558
      basal: RMSE (train) = 0.0478

✅ Modelo entrenado exitosamente

============================================================
📊 MÉTRICAS DE EVALUACIÓN
============================================================
   RMSE global: 0.0496
   MAE global:  0.0375
   R² global:   0.8902

   RMSE por tipo celular:
      endo: 0.0391
      fibro: 0.0483
      immune: 0.0450
      classic: 0.0570
      basal: 0.0561

============================================================
🔄 Validación Cruzada (10 folds)
============================================================

🔄 Validación cruzada (10 folds, paralelo)...
   ⚖️  Balanceando features: limitando MET a 15908 (igual que RNA)      
   🔍 Selección por variance: 15908 features MET
   Fold 1: RMSE = 0.0339
   Fold 2: RMSE = 0.0563
   Fold 3: RMSE = 0.0626
   Fold 4: RMSE = 0.0741
   Fold 5: RMSE = 0.0334
   Fold 6: RMSE = 0.0893
   Fold 7: RMSE = 0.0609
   Fold 8: RMSE = 0.0750
   Fold 9: RMSE = 0.0637
   Fold 10: RMSE = 0.0380

   📊 RMSE promedio: 0.0587 (±0.0178)

============================================================
🔍 Top 20 Features más importantes
============================================================
              feature  importance
16738  met_cg13588354    0.037945
19678  met_cg06275635    0.033496
20888  met_cg06094150    0.031009
18854  met_cg07077459    0.029358
30266  met_cg16257685    0.029171
17890  met_cg13777411    0.027596
26546  met_cg16353413    0.024083
16012  met_cg03294619    0.023728
19084  met_cg10911660    0.022978
23869  met_cg14870461    0.022764
27414  met_cg23926526    0.021687
16772  met_cg03567830    0.020937
17072  met_cg13589108    0.020239
25604  met_cg06887414    0.020210
26774  met_cg09686308    0.019910
18285  met_cg27638672    0.019610
24396  met_cg27429194    0.018911
24480  met_cg12532477    0.018679
17567  met_cg17998964    0.017940
19126  met_cg24053587    0.017606

   📊 Distribución Top 20: 0 RNA, 20 MET
💾 Guardando modelo en: c:\Users\herra\Documents\DataCamp\Hadaka\Solution\models\xgb_deconvolution_model_v4.pkl

============================================================
✅ Proceso completado
⏱️  Tiempo de ejecución: 1m 53.61s
============================================================