feat: commiting model

2026-06-08 14:49:45 +00:00
parent daba573b2c
commit 14968dd4d4
7 changed files with 505 additions and 269 deletions
@@ -1,5 +1,6 @@
 #!/bin/bash

+# Данный скрипт написан ИИ для быстрой подготовки окружения, установка драйверов и докера
 # Остановка скрипта при возникновении любой ошибки
 set -e

@@ -44,7 +44,7 @@
    "BATCH_SIZE = 64\n",
    "EPOCHS = 15\n",
    "LR = 3e-4\n",
-    "NUM_WORKERS = 40\n",
+    "NUM_WORKERS = 62\n",
    "\n",
    "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
    "print(f\"Аппаратное ускорение: {device}\")"
@@ -0,0 +1,184 @@
+import os
+import random
+import warnings
+from pathlib import Path
+from PIL import Image
+import pandas as pd
+import numpy as np
+from tqdm import tqdm
+
+import torch
+import torch.nn as nn
+from torch.utils.data import Dataset, DataLoader
+import torchvision.transforms as T
+import timm
+
+# Подавление предупреждений цветовых профилей
+warnings.filterwarnings("ignore", message=".*Unknown Adobe color transform code.*")
+
+# Настройки окружения
+DATA_ROOT = Path("/home/zin/projects/Thesis/NFS/Thesis/Emoset/EmoSet-118K")
+BATCH_SIZE = 64
+EPOCHS = 30
+LR = 5e-5
+NUM_WORKERS = 62
+PATIENCE = 7
+
+# Маппинг классов
+CLASS_MAPPING = {
+    "amusement": 0, "anger": 1, "awe": 2, "contentment": 3,
+    "disgust": 4, "excitement": 5, "fear": 6, "sadness": 7
+}
+
+DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"Устройство: {DEVICE}")
+
+# Фиксация генераторов псевдослучайных чисел
+def set_seed(seed=42):
+    random.seed(seed)
+    np.random.seed(seed)
+    torch.manual_seed(seed)
+    if torch.cuda.is_available():
+        torch.cuda.manual_seed(seed)
+        torch.cuda.manual_seed_all(seed)
+
+set_seed()
+
+# Инициализация структур данных
+class EmoSetDataset(Dataset):
+    def __init__(self, root: Path | str, split: str, transform=None):
+        self.root = Path(root) / split
+        self.df = pd.read_csv(self.root / "labels.csv")
+        self.transform = transform
+        
+        # Фильтрация датафрейма
+        self.df = self.df[self.df["label"].isin(CLASS_MAPPING.keys())].reset_index(drop=True)
+
+    def __len__(self):
+        return len(self.df)
+
+    def __getitem__(self, idx):
+        row = self.df.iloc[idx]
+        img_path = self.root / "images" / row["filename"]
+
+        try:
+            img = Image.open(img_path).convert("RGB")
+        except Exception:
+            img = Image.new("RGB", (256, 256), (0, 0, 0))
+
+        if self.transform:
+            img_tensor = self.transform(img)
+        else:
+            img_tensor = T.ToTensor()(img)
+            
+        label_idx = CLASS_MAPPING[row["label"]]
+        return img_tensor, label_idx
+
+# Трансформации
+base_tf = [
+    T.ToTensor(),
+    T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+]
+
+train_transform = T.Compose([
+    T.Resize(256, antialias=True),
+    T.RandomCrop(224),
+    T.RandomHorizontalFlip(),
+    *base_tf
+])
+
+val_transform = T.Compose([
+    T.Resize(256, antialias=True),
+    T.CenterCrop(224),
+    *base_tf
+])
+
+train_ds = EmoSetDataset(DATA_ROOT, "train", transform=train_transform)
+val_ds   = EmoSetDataset(DATA_ROOT, "val", transform=val_transform)
+
+train_loader = DataLoader(train_ds, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS, pin_memory=True)
+val_loader   = DataLoader(val_ds, batch_size=BATCH_SIZE, shuffle=False, num_workers=NUM_WORKERS, pin_memory=True)
+
+# Инициализация модели и оптимизатора
+model = timm.create_model("resnet50", pretrained=True, num_classes=8, drop_rate=0.3)
+model.to(DEVICE)
+
+criterion = nn.CrossEntropyLoss(label_smoothing=0.1)
+
+optimizer = torch.optim.AdamW(model.parameters(), lr=LR, weight_decay=1e-3)
+scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=EPOCHS)
+
+# Логика эпохи обучения
+def train_epoch(current_model, loader):
+    current_model.train()
+    total_loss, correct_preds, total_samples = 0.0, 0, 0
+
+    for imgs, labels in tqdm(loader, desc="Тренировка", leave=False, smoothing=0):
+        imgs, labels = imgs.to(DEVICE), labels.to(DEVICE)
+
+        optimizer.zero_grad(set_to_none=True)
+        logits = current_model(imgs)
+        loss = criterion(logits, labels)
+
+        loss.backward()
+        optimizer.step()
+
+        total_loss += loss.item() * imgs.size(0)
+        preds = logits.argmax(dim=1)
+        correct_preds += (preds == labels).sum().item()
+        total_samples += labels.size(0)
+
+    return total_loss / total_samples, correct_preds / total_samples
+
+# Логика эпохи валидации
+@torch.no_grad()
+def val_epoch(current_model, loader):
+    current_model.eval()
+    total_loss, correct_preds, total_samples = 0.0, 0, 0
+
+    for imgs, labels in tqdm(loader, desc="Валидация", leave=False, smoothing=0):
+        imgs, labels = imgs.to(DEVICE), labels.to(DEVICE)
+
+        logits = current_model(imgs)
+        loss = criterion(logits, labels)
+
+        total_loss += loss.item() * imgs.size(0)
+        preds = logits.argmax(dim=1)
+        correct_preds += (preds == labels).sum().item()
+        total_samples += labels.size(0)
+
+    return total_loss / total_samples, correct_preds / total_samples
+
+if __name__ == "__main__":
+    best_val_acc = 0.0
+    best_val_loss = float('inf')
+    epochs_no_improve = 0
+    checkpoint_path = "./emosetV2_resnet50_best.pth"
+
+    print("Старт обучения.")
+
+    for epoch in range(1, EPOCHS + 1):
+        train_loss, train_acc = train_epoch(model, train_loader)
+        val_loss, val_acc = val_epoch(model, val_loader)
+
+        scheduler.step()
+
+        print(f"[{epoch}/{EPOCHS}] Train Loss: {train_loss:.4f}, Acc: {train_acc:.4f} | Val Loss: {val_loss:.4f}, Acc: {val_acc:.4f}")
+
+        # Сохранение лучших весов по Accuracy
+        if val_acc > best_val_acc:
+            best_val_acc = val_acc
+            torch.save(model.state_dict(), checkpoint_path)
+            print(f"Сохранен чекпоинт (Acc: {best_val_acc:.4f})")
+
+        # Оценка переобучения по Loss (Early Stopping)
+        if val_loss < best_val_loss:
+            best_val_loss = val_loss
+            epochs_no_improve = 0
+        else:
+            epochs_no_improve += 1
+            if epochs_no_improve >= PATIENCE:
+                print(f"Ранняя остановка: метрика валидации не улучшается {PATIENCE} эпох.")
+                break
+
+    print("Процесс завершен.")
@@ -1,268 +0,0 @@
-import os
-import gc
-import pickle
-import random
-import ctypes
-import warnings
-from pathlib import Path
-
-import torch
-import torch.nn as nn
-from torch.utils.data import Dataset, DataLoader
-import torchvision.transforms as T
-import torchvision.io as tv_io
-from torch.amp import autocast, GradScaler
-from tqdm import tqdm
-import timm
-
-# Подавление предупреждений PIL для корректной работы tqdm
-warnings.filterwarnings("ignore", message=".*Unknown Adobe color transform code.*")
-
-# Настройка устройства
-DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-
-# Пути к файлам
-DATA_ROOT = Path("/home/zin/projects/Thesis/dataset/Original-2.41M")
-CACHE_PATH = Path("/home/zin/projects/Thesis/src/dataset_paths_cache.pkl")
-
-PREVIOUS_WEIGHTS = Path("/home/zin/projects/Thesis/src/emoset_resnet50_best.pth")
-RESUME_CHECKPOINT = Path("/home/zin/projects/Thesis/src/emoset_resnet50_resume.pth")
-SAVE_MODEL_PATH = Path("/home/zin/projects/Thesis/src/emoset_resnet50_finetuned_2_41M.pth")
-
-CLASS_MAPPING = {
-    "amusement": 0, "anger": 1, "awe": 2, "contentment": 3,
-    "disgust": 4, "excitement": 5, "fear": 6, "sad": 7, "sadness": 7
-}
-
-# Параметры обучения
-BATCH_SIZE = 64
-EPOCHS = 50
-LR = 5e-5
-NUM_TRAIN_WORKERS = 62
-NUM_VAL_WORKERS = 62
-PATIENCE = 5
-
-def prepare_dataset_index():
-    # Загрузка или создание индекса файлов
-    if CACHE_PATH.exists():
-        print(f"Загрузка кэша: {CACHE_PATH.name}")
-        with open(CACHE_PATH, 'rb') as f:
-            cache_data = pickle.load(f)
-        return cache_data['image_paths'], cache_data['labels']
-
-    print(f"Сканирование директории {DATA_ROOT}...")
-    paths, labels = [], []
-    for img_path in DATA_ROOT.rglob('*.jpg'):
-        emotion_folder = img_path.parts[-3].lower()
-        if emotion_folder in CLASS_MAPPING:
-            paths.append(str(img_path))
-            labels.append(CLASS_MAPPING[emotion_folder])
-            
-    with open(CACHE_PATH, 'wb') as f:
-        pickle.dump({'image_paths': paths, 'labels': labels}, f)
-    
-    return paths, labels
-
-class EmoSetDirectDataset(Dataset):
-    # Датасет с загрузкой по требованию
-    def __init__(self, image_paths, labels):
-        self.image_paths = image_paths
-        self.labels = labels
-        # Сохранение пропорций и центрирование
-        self.base_transform = T.Compose([
-            T.Resize(256, antialias=True), 
-            T.CenterCrop(256)
-        ])
-
-    def __len__(self): 
-        return len(self.image_paths)
-
-    def __getitem__(self, idx):
-        try:
-            image = tv_io.read_image(self.image_paths[idx], mode=tv_io.ImageReadMode.RGB)
-            image = image.to(torch.float32) / 255.0
-            image = self.base_transform(image)
-        except Exception:
-            # Обработка битых файлов
-            image = torch.zeros((3, 256, 256), dtype=torch.float32)
-        return image, self.labels[idx]
-
-def build_gpu_transforms():
-    # Аугментации на GPU
-    train_tf = torch.nn.Sequential(
-        T.RandomCrop((224, 224)),
-        T.RandomHorizontalFlip(p=0.5),
-        T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
-    ).to(DEVICE)
-
-    val_tf = torch.nn.Sequential(
-        T.CenterCrop((224, 224)),
-        T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
-    ).to(DEVICE)
-    
-    return train_tf, val_tf
-
-if __name__ == "__main__":
-    print(f"Инициализация. Устройство: {DEVICE}")
-    
-    all_paths, all_labels = prepare_dataset_index()
-    
-    # Разделение выборки
-    random.seed(42)
-    combined = list(zip(all_paths, all_labels))
-    random.shuffle(combined)
-    all_paths, all_labels = zip(*combined)
-
-    split_idx = int(len(all_paths) * 0.95)
-    
-    train_loader = DataLoader(
-        EmoSetDirectDataset(all_paths[:split_idx], all_labels[:split_idx]), 
-        batch_size=BATCH_SIZE, shuffle=True, 
-        num_workers=NUM_TRAIN_WORKERS, pin_memory=True, 
-        prefetch_factor=3, persistent_workers=False
-    )
-
-    val_loader = DataLoader(
-        EmoSetDirectDataset(all_paths[split_idx:], all_labels[split_idx:]), 
-        batch_size=BATCH_SIZE, shuffle=False, 
-        num_workers=NUM_VAL_WORKERS, pin_memory=True, 
-        prefetch_factor=3, persistent_workers=False
-    )
-
-    gpu_train_tf, gpu_val_tf = build_gpu_transforms()
-
-    model = timm.create_model('resnet50', pretrained=False, num_classes=8).to(DEVICE)
-    criterion = nn.CrossEntropyLoss()
-    optimizer = torch.optim.AdamW(model.parameters(), lr=LR, weight_decay=1e-4)
-    scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=EPOCHS)
-    scaler = GradScaler()
-
-    best_val_loss = float('inf')
-    epochs_no_improve = 0
-    start_epoch = 1
-
-    # Загрузка весов
-    if RESUME_CHECKPOINT.exists():
-        print(f"Восстановление из: {RESUME_CHECKPOINT.name}")
-        checkpoint = torch.load(RESUME_CHECKPOINT, map_location=DEVICE)
-        model.load_state_dict(checkpoint['model_state_dict'])
-        optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
-        
-        try:
-            scheduler.load_state_dict(checkpoint['scheduler_state_dict'])
-        except Exception:
-            pass
-            
-        if 'scaler_state_dict' in checkpoint:
-            scaler.load_state_dict(checkpoint['scaler_state_dict'])
-        if 'best_val_loss' in checkpoint:
-            best_val_loss = checkpoint['best_val_loss']
-        start_epoch = checkpoint['epoch'] + 1
-    elif PREVIOUS_WEIGHTS.exists():
-        print(f"Загрузка базовых весов: {PREVIOUS_WEIGHTS.name}")
-        model.load_state_dict(torch.load(PREVIOUS_WEIGHTS, map_location=DEVICE))
-    else:
-        print("Веса не найдены. Инициализация с ImageNet.")
-        model = timm.create_model('resnet50', pretrained=True, num_classes=8).to(DEVICE)
-
-    for epoch in range(start_epoch, EPOCHS + 1):
-        
-        # Обучение
-        model.train()
-        running_loss, correct, total = 0.0, 0, 0
-        
-        pbar = tqdm(train_loader, desc=f"Epoch {epoch}/{EPOCHS} [Train]", smoothing=0)
-        for inputs, labels in pbar:
-            try:
-                inputs = inputs.to(DEVICE, non_blocking=True)
-                labels = labels.to(DEVICE, non_blocking=True)
-                inputs = gpu_train_tf(inputs)
-                
-                optimizer.zero_grad(set_to_none=True)
-                
-                # Смешанная точность
-                with autocast(device_type="cuda"):
-                    outputs = model(inputs)
-                    loss = criterion(outputs, labels)
-                
-                scaler.scale(loss).backward()
-                scaler.step(optimizer)
-                scaler.update()
-                
-                running_loss += loss.item() * inputs.size(0)
-                _, predicted = outputs.max(1)
-                total += labels.size(0)
-                correct += predicted.eq(labels).sum().item()
-                
-                pbar.set_postfix({'loss': f"{loss.item():.4f}"})
-                
-            except RuntimeError as memory_err:
-                # Очистка памяти при OOM
-                if "out of memory" in str(memory_err).lower():
-                    if 'outputs' in locals(): del outputs
-                    if 'loss' in locals(): del loss
-                    torch.cuda.empty_cache()
-                    optimizer.zero_grad(set_to_none=True)
-                    continue
-                raise memory_err
-
-        train_loss = running_loss / total if total > 0 else 0
-        train_acc = correct / total if total > 0 else 0
-
-        gc.collect()
-        torch.cuda.empty_cache()
-
-        # Валидация
-        model.eval()
-        val_loss, val_correct, val_total = 0.0, 0, 0
-        
-        with torch.no_grad():
-            for val_inputs, val_labels in tqdm(val_loader, desc=f"Epoch {epoch}/{EPOCHS} [Val]", smoothing = 0):
-                val_inputs = val_inputs.to(DEVICE, non_blocking=True)
-                val_labels = val_labels.to(DEVICE, non_blocking=True)
-                val_inputs = gpu_val_tf(val_inputs)
-                
-                with autocast(device_type="cuda"):
-                    val_outputs = model(val_inputs)
-                    v_loss = criterion(val_outputs, val_labels)
-                    
-                val_loss += v_loss.item() * val_inputs.size(0)
-                _, val_predicted = val_outputs.max(1)
-                val_total += val_labels.size(0)
-                val_correct += val_predicted.eq(val_labels).sum().item()
-
-        epoch_val_loss = val_loss / val_total if val_total > 0 else 0
-        epoch_val_acc = val_correct / val_total if val_total > 0 else 0
-        
-        scheduler.step()
-        print(f"[{epoch}/{EPOCHS}] Train Loss: {train_loss:.4f} | Val Loss: {epoch_val_loss:.4f} | Val Acc: {epoch_val_acc:.4f}")
-
-        # Ранняя остановка и сохранение
-        if epoch_val_loss < best_val_loss:
-            best_val_loss = epoch_val_loss
-            epochs_no_improve = 0
-            torch.save(model.state_dict(), str(SAVE_MODEL_PATH).replace(".pth", "_best.pth"))
-            print("Сохранен новый лучший чекпоинт.")
-        else:
-            epochs_no_improve += 1
-            if epochs_no_improve >= PATIENCE and epoch >= 25:
-                print(f"Остановка: валидация не улучшается {PATIENCE} эпох.")
-                break
-                
-        # Сохранение состояния
-        checkpoint_state = {
-            'epoch': epoch,
-            'model_state_dict': model.state_dict(),
-            'optimizer_state_dict': optimizer.state_dict(),
-            'scheduler_state_dict': scheduler.state_dict(),
-            'scaler_state_dict': scaler.state_dict(),
-            'best_val_loss': best_val_loss
-        }
-        torch.save(checkpoint_state, RESUME_CHECKPOINT)
-        gc.collect()
-
-    if SAVE_MODEL_PATH.parent.exists():
-        torch.save(model.state_dict(), SAVE_MODEL_PATH)
-        print(f"Обучение завершено. Файл: {SAVE_MODEL_PATH.name}")
-        if RESUME_CHECKPOINT.exists():
-            RESUME_CHECKPOINT.unlink()
@@ -0,0 +1,319 @@
+import os
+import random
+import warnings
+from collections import defaultdict
+from pathlib import Path
+from PIL import Image, ImageFile
+import pandas as pd
+import numpy as np
+from tqdm import tqdm
+
+import torch
+import torch.nn as nn
+from torch.utils.data import Dataset, DataLoader
+import torchvision.transforms as T
+from torch.amp import autocast, GradScaler
+import timm
+
+# Подавление предупреждений и защита от битых "хвостов" JPEG
+warnings.filterwarnings("ignore")
+ImageFile.LOAD_TRUNCATED_IMAGES = True
+
+DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(f"Устройство: {DEVICE}")
+
+# --- ПУТИ ---
+TRAIN_ROOT = Path("./dataset/Original-2.41M")
+ANCHOR_118K_ROOT = Path("./NFS/Thesis/Emoset/EmoSet-118K/train") # ЯКОРЬ (Чистые данные для обучения)
+VAL_118K_ROOT = Path("./NFS/Thesis/Emoset/EmoSet-118K/val")
+
+SAVE_MODEL_PATH = Path("./src/emosetV2_resnet50_finetuned_2_41M.pth")
+RESUME_CHECKPOINT = Path("./src/finetuneV2_resume.pth")
+PRETRAINED_PATH = Path("./src/emosetV2_resnet50_best.pth")
+
+CLASS_MAPPING = {
+    "amusement": 0, "anger": 1, "awe": 2, "contentment": 3,
+    "disgust": 4, "excitement": 5, "fear": 6, "sadness": 7
+}
+
+# --- НАСТРОЙКИ ---
+TOTAL_BATCH_SIZE = 64
+BATCH_NOISY = 48  # 75% батча - новые данные 2.41M
+BATCH_ANCHOR = 16 # 25% батча - чистые якорные данные 118K
+
+EPOCHS_PER_FOLDER = 15
+PATIENCE = 5
+LR = 1e-6 
+NUM_TRAIN_WORKERS = 32
+NUM_VAL_WORKERS = 32
+
+def worker_init_fn(worker_id):
+    np.random.seed(np.random.get_state()[1][0] + worker_id)
+
+# --- 1. ТРАНСФОРМАЦИИ ---
+train_transform = T.Compose([
+    T.Resize(256),
+    T.RandomResizedCrop(224, scale=(0.8, 1.0)),
+    T.RandomHorizontalFlip(),
+    T.ToTensor(),
+    T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+])
+
+val_transform = T.Compose([
+    T.Resize(256),
+    T.CenterCrop(224),
+    T.ToTensor(),
+    T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
+])
+
+# --- 2. ДАТАСЕТЫ ---
+class ChunkTrainDataset(Dataset):
+    def __init__(self, paths, transform):
+        self.paths = paths
+        self.transform = transform
+
+    def __len__(self):
+        return len(self.paths)
+
+    def __getitem__(self, idx):
+        path = self.paths[idx]
+        try:
+            img = Image.open(path).convert('RGB')
+            tensor = self.transform(img)
+            label = CLASS_MAPPING.get(path.parts[-3].lower(), 0)
+            return tensor, label
+        except Exception:
+            return torch.zeros((3, 224, 224)), 0
+
+class CsvDataset(Dataset):
+    def __init__(self, root, transform):
+        self.root = Path(root)
+        self.df = pd.read_csv(self.root / "labels.csv")
+        self.transform = transform
+
+    def __len__(self):
+        return len(self.df)
+
+    def __getitem__(self, idx):
+        row = self.df.iloc[idx]
+        path = self.root / "images" / row["filename"]
+        try:
+            img = Image.open(path).convert('RGB')
+            tensor = self.transform(img)
+            label = CLASS_MAPPING.get(row["label"].lower(), 0)
+            return tensor, label
+        except Exception:
+            return torch.zeros((3, 224, 224)), 0
+
+# --- 3. СБОР ДАННЫХ ---
+def prepare_chunks():
+    print("\nСканирование датасета 2.41M...")
+    chunk_dict = defaultdict(list)
+    for path in TRAIN_ROOT.rglob('*.jpg'):
+        emotion = path.parts[-3].lower()
+        if emotion not in CLASS_MAPPING: 
+            continue
+        folder_str = path.parts[-2]
+        if folder_str.isdigit():
+            chunk_dict[int(folder_str)].append(path)
+            
+    sorted_chunks = sorted(chunk_dict.keys())
+    print(f"Найдено пронумерованных папок (чанков): {len(sorted_chunks)}")
+    return chunk_dict, sorted_chunks
+    # --- 4. ОСНОВНОЙ ЦИКЛ ОБУЧЕНИЯ ---
+if __name__ == "__main__":
+    chunk_dict, sorted_chunks = prepare_chunks()
+
+    # Валидационный датасет (только чистые данные)
+    val_loader = DataLoader(
+        CsvDataset(VAL_118K_ROOT, val_transform), 
+        batch_size=TOTAL_BATCH_SIZE, shuffle=False, 
+        num_workers=NUM_VAL_WORKERS, pin_memory=True
+    )
+
+    # ЯКОРНЫЙ ЗАГРУЗЧИК (Чистые данные для подмешивания)
+    # Используем prefetch_factor и persistent_workers для устранения рывков CPU
+    anchor_dataset = CsvDataset(ANCHOR_118K_ROOT, train_transform)
+    anchor_loader = DataLoader(
+        anchor_dataset, batch_size=BATCH_ANCHOR, shuffle=True, 
+        num_workers=16, pin_memory=True, drop_last=True,
+        prefetch_factor=2, persistent_workers=False
+    )
+
+    # Инициализация модели
+    model = timm.create_model('resnet50', pretrained=False, num_classes=8).to(DEVICE)
+    if PRETRAINED_PATH.exists():
+        model.load_state_dict(torch.load(PRETRAINED_PATH, map_location=DEVICE))
+        print(f"Базовые веса загружены из {PRETRAINED_PATH.name}")
+
+    # Размораживаем всю модель
+    for param in model.parameters(): 
+        param.requires_grad = True
+
+    # Дифференцированный оптимизатор
+    backbone_params = [p for n, p in model.named_parameters() if "fc" not in n]
+    fc_params = [p for n, p in model.named_parameters() if "fc" in n]
+    
+    optimizer = torch.optim.AdamW([
+        {'params': backbone_params, 'lr': LR},         # 1e-6: микро-шаг для основы
+        {'params': fc_params, 'lr': LR * 10}           # 1e-5: шаг для классификатора
+    ], weight_decay=1e-3)
+
+    # Label Smoothing помогает игнорировать мусор в разметке 2.41M
+    criterion = nn.CrossEntropyLoss(label_smoothing=0.15)
+    scaler = GradScaler()
+
+    # --- ПАРАМЕТРЫ ВОССТАНОВЛЕНИЯ ---
+    start_stage = 0
+    start_epoch = 1
+    best_val_loss = float('inf')
+
+    if RESUME_CHECKPOINT.exists():
+        print(f"\nОбнаружен чекпоинт: {RESUME_CHECKPOINT.name}. Восстановление...")
+        checkpoint = torch.load(RESUME_CHECKPOINT, map_location=DEVICE)
+        model.load_state_dict(checkpoint['model_state_dict'])
+        
+        try: 
+            optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
+        except Exception as e: 
+            print(f"Оптимизатор сброшен: {e}")
+            
+        best_val_loss = checkpoint['best_val_loss']
+        start_stage = checkpoint['stage']
+        start_epoch = checkpoint['epoch'] + 1 
+        print(f"Успешный запуск с ЭТАПА {start_stage + 1}, Эпохи {start_epoch}. Best Val Loss: {best_val_loss:.4f}\n")
+    else:
+        # --- ЗАМЕР EPOCH 0 (БАЗОВАЯ ТОЧНОСТЬ) ---
+        # Выполняется только если мы начинаем с нуля
+        print("\n[Проверка базовых весов перед обучением (Epoch 0)]")
+        model.eval()
+        val_loss, val_correct, val_total = 0.0, 0, 0
+        with torch.no_grad():
+            for inputs, labels in tqdm(val_loader, desc="Baseline Eval", smoothing=0):
+                inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
+                with autocast(device_type="cuda"):
+                    outputs = model(inputs)
+                    v_loss = criterion(outputs, labels)
+                val_loss += v_loss.item() * inputs.size(0)
+                _, pred = outputs.max(1)
+                val_total += labels.size(0)
+                val_correct += pred.eq(labels).sum().item()
+        
+        best_val_loss = val_loss / val_total
+        baseline_acc = val_correct / val_total
+        print(f"Стартовая точка -> Val Loss: {best_val_loss:.4f} | Val Acc: {baseline_acc:.4f}\n")
+
+    # ВОССТАНОВЛЕНИЕ НАКОПЛЕННЫХ ДАННЫХ
+    current_train_paths = []
+    for s in range(start_stage):
+        current_train_paths.extend(chunk_dict[sorted_chunks[s]])
+
+    print("Старт Anchor Curriculum Learning (Смешивание чистых и шумных данных).")
+
+    # ГЛАВНЫЙ ЦИКЛ ПО ПАПКАМ
+    for stage in range(start_stage, len(sorted_chunks)):
+        chunk_id = sorted_chunks[stage]
+        print(f"\n{'='*50}")
+        print(f"ЭТАП {stage+1}/{len(sorted_chunks)}: Добавляем папку '{chunk_id}'")
+        
+        # Накопление и перемешивание
+        current_train_paths.extend(chunk_dict[chunk_id])
+        random.shuffle(current_train_paths)
+        print(f"Всего файлов (грязных) в текущем пуле: {len(current_train_paths)}")
+        
+        # ОСНОВНОЙ ЗАГРУЗЧИК (Грязные данные) с PREFETCH
+        train_loader = DataLoader(
+            ChunkTrainDataset(current_train_paths, train_transform), 
+            batch_size=BATCH_NOISY, shuffle=True, 
+            num_workers=NUM_TRAIN_WORKERS, pin_memory=True, 
+            worker_init_fn=worker_init_fn, drop_last=True,
+            prefetch_factor=4, persistent_workers=True # Устраняет рывки CPU
+        )
+
+        epochs_no_improve = 0
+        first_epoch = start_epoch if stage == start_stage else 1
+        
+        # Инициализация итератора якорей
+        anchor_iter = iter(anchor_loader)
+
+        # ЦИКЛ ЭПОХ ДЛЯ ТЕКУЩЕГО ЭТАПА
+        for epoch in range(first_epoch, EPOCHS_PER_FOLDER + 1):
+            model.train()
+            train_loss, train_correct, train_total = 0.0, 0, 0
+            
+            for noisy_inputs, noisy_labels in tqdm(train_loader, desc=f"S{stage+1}-Ep{epoch}/{EPOCHS_PER_FOLDER} [Train]", smoothing=0):
+                
+                # Достаем якорный чистый батч
+                try:
+                    anc_inputs, anc_labels = next(anchor_iter)
+                except StopIteration:
+                    anchor_iter = iter(anchor_loader)
+                    anc_inputs, anc_labels = next(anchor_iter)
+                
+                # СМЕШИВАЕМ БАТЧИ (Грязные + Чистые)
+                inputs = torch.cat([noisy_inputs, anc_inputs]).to(DEVICE)
+                labels = torch.cat([noisy_labels, anc_labels]).to(DEVICE)
+                
+                optimizer.zero_grad(set_to_none=True)
+                with autocast(device_type="cuda"):
+                    outputs = model(inputs)
+                    loss = criterion(outputs, labels)
+                    
+                scaler.scale(loss).backward()
+                scaler.step(optimizer)
+                scaler.update()
+                
+                train_loss += loss.item() * inputs.size(0)
+                _, pred = outputs.max(1)
+                train_total += labels.size(0)
+                train_correct += pred.eq(labels).sum().item()
+
+            # ВАЛИДАЦИЯ
+            model.eval()
+            val_loss, val_correct, val_total = 0.0, 0, 0
+            with torch.no_grad():
+                for inputs, labels in tqdm(val_loader, desc="[Val]", leave=False, smoothing=0):
+                    inputs, labels = inputs.to(DEVICE), labels.to(DEVICE)
+                    with autocast(device_type="cuda"):
+                        outputs = model(inputs)
+                        v_loss = criterion(outputs, labels)
+                    val_loss += v_loss.item() * inputs.size(0)
+                    _, pred = outputs.max(1)
+                    val_total += labels.size(0)
+                    val_correct += pred.eq(labels).sum().item()
+            
+            avg_train_loss = train_loss / train_total
+            avg_train_acc = train_correct / train_total
+            avg_val_loss = val_loss / val_total
+            avg_val_acc = val_correct / val_total
+            
+            print(f"S{stage+1}-E{epoch} | Train L: {avg_train_loss:.4f}, Acc: {avg_train_acc:.4f} | Val L: {avg_val_loss:.4f}, Acc: {avg_val_acc:.4f}")
+
+            # СОХРАНЕНИЕ ЛУЧШИХ ВЕСОВ
+            if avg_val_loss < best_val_loss:
+                best_val_loss = avg_val_loss
+                epochs_no_improve = 0
+                torch.save(model.state_dict(), SAVE_MODEL_PATH)
+                print("--> Обновлены лучшие веса")
+            else:
+                epochs_no_improve += 1
+
+            # АВАРИЙНОЕ СОХРАНЕНИЕ В КОНЦЕ ЭПОХИ
+            checkpoint_state = {
+                'stage': stage,
+                'epoch': epoch,
+                'model_state_dict': model.state_dict(),
+                'optimizer_state_dict': optimizer.state_dict(),
+                'best_val_loss': best_val_loss
+            }
+            torch.save(checkpoint_state, RESUME_CHECKPOINT)
+            os.sync() # Защита от отключения электричества
+            print(f"--> Чекпоинт (Этап {stage+1}, Эпоха {epoch}) зафиксирован на диске.")
+
+            # РАННЯЯ ОСТАНОВКА ДЛЯ ТЕКУЩЕГО ЭТАПА
+            if epochs_no_improve >= PATIENCE:
+                print(f"Ранняя остановка для ЭТАПА {stage+1}. Переход к следующей папке...")
+                break
+        
+        # Сброс счетчика стартовой эпохи после прохождения восстановительного этапа
+        start_epoch = 1