Strona główna Machine Learning Walidacja krzyżowa bez błędów: najczęstsze pułapki i jak ich unikać

Mężczyzna przy laptopie analizuje wykresy danych biznesowych — Źródło: Pexels | Autor: www.kaboompics.com

Machine Learning

Walidacja krzyżowa bez błędów: najczęstsze pułapki i jak ich unikać

Przez

Wiktoria Jasiński

16 kwietnia, 2026

Rate this post

Nawigacja:

Dlaczego walidacja krzyżowa potrafi uratować (albo zabić) projekt ML

Główny cel walidacji krzyżowej – nie „upiększanie” metryk

Walidacja krzyżowa służy jednemu: rzetelnemu oszacowaniu jakości modelu na danych, których jeszcze nie widział. Cała reszta – ładne wykresy, wysokie F1 czy AUC – ma sens tylko wtedy, gdy to oszacowanie jest uczciwe. Jeśli schemat walidacji jest błędny, model wygląda świetnie w notatniku, a natychmiast się rozsypuje po wdrożeniu.

Kluczowa myśl: walidacja krzyżowa ma przewidywać przyszłość. Jeśli w jakikolwiek sposób „podgląda” dane walidacyjne w trakcie przygotowania cech czy strojenia, wynik staje się sztucznie zawyżony. To nie jest drobny błąd techniczny, tylko fundamentalne złamanie założeń całej metody.

W praktyce oznacza to konieczność zadawania sobie w kółko jednego pytania: „Czy w tym miejscu mój pipeline używa jakiejkolwiek informacji z walidacji / testu?”. Jeśli odpowiedź brzmi „tak” lub „chyba tak”, schemat walidacji jest do poprawki.

Train/test split vs walidacja krzyżowa – kiedy co ma sens

Prosty podział na train/test split (np. 80/20) bywa kuszący, bo jest szybki i łatwy do wdrożenia. Jednak daje tylko jedno oszacowanie jakości, silnie zależne od losowego podziału. W małych i średnich zbiorach może to prowadzić do bardzo niestabilnych wniosków – przy jednym losowaniu model wygląda świetnie, przy kolejnym przeciętnie.

Walidacja krzyżowa (cross-validation) rozwiązuje ten problem, dzieląc dane na kilka foldów i trenując model wielokrotnie na różnych częściach zbioru. Zamiast jednej liczby, otrzymujesz:

średnią metrykę (np. średnie F1),
odchylenie standardowe (miarę stabilności),
rozkład wyników w poszczególnych foldach.

Taka informacja dużo lepiej opisuje, czego można się spodziewać po modelu na produkcji. Jeśli odchylenie jest ogromne, a wyniki w niektórych foldach dramatycznie słabsze, to sygnał, że model jest wrażliwy na skład danych lub że schemat walidacji jest źle zdefiniowany.

Kiedy walidacja krzyżowa nie daje prawdziwej wartości

Walidacja krzyżowa nie zawsze jest potrzebna ani sensowna. W kilku sytuacjach lepiej użyć prostszych lub innych technik:

Bardzo duże zbiory danych – jeśli masz miliony przykładów, jeden dobrze przemyślany podział train/validation/test (z zachowaniem wszystkich zasad braku wycieku) zwykle wystarczy. K-fold na całym zbiorze może być po prostu zbyt drogi obliczeniowo.
Dane strumieniowe – gdy dane napływają w czasie, ważniejsza jest walidacja w czasie (np. rolling window), a nie klasyczny KFold, który miesza przeszłość z przyszłością.
Modele online / bandyty kontekstowe – tu potrzebne są metody typu A/B test, off-policy evaluation, a nie wyłącznie walidacja krzyżowa offline.

Decyzja o zastosowaniu walidacji krzyżowej zawsze powinna brać pod uwagę: rozmiar zbioru, charakter danych (czas, grupy, sekwencje) i budżet obliczeniowy.

Objawy złej walidacji: model piękny w notatniku, słaby w produkcji

Schemat walidacji jest błędny, jeśli pojawiają się takie sygnały:

Na walidacji krzyżowej F1/AUC są bardzo wysokie, a po wdrożeniu realne wyniki (np. CTR, precision, recall) drastycznie spadają.
Zmiana modelu z prostego na bardzo złożony przynosi ogromny skok jakości na CV, ale w rzeczywistych danych różnica jest minimalna lub negatywna.
Drobne zmiany w kodzie (np. inny seed) powodują kaskadowe zmiany wyników – raz genialnie, raz fatalnie.
Jeden fold ma kosmicznie wysokie wyniki, a pozostałe są „normalne” – często to ślad wycieku danych lub specyficznego rozkładu próbek.

Jeśli produkcja „nie wierzy” w wyniki z walidacji, pierwszym podejrzanym powinien być schemat podziału danych i data leakage, a nie jakość samego algorytmu.

Krótki przykład z projektu: magicznie wysokie F1 kontra rzeczywistość

Przykład z praktyki: zespół buduje model klasyfikacji e-maili (spam/nie-spam) dla konkretnego produktu SaaS. Na walidacji krzyżowej (KFold bez grup) model osiąga F1 ~0.95. Pierwsze wdrożenie – gwałtowny spadek skuteczności. Analiza: okazało się, że w danych te same wątki mailowe (z identycznymi lub bardzo podobnymi treściami) były w różnych foldach. Model uczył się więc konkretnej treści, którą potem „widziały” foldy walidacyjne.

Po wprowadzeniu GroupKFold z grupowaniem po ID wątku lub nadawcy F1 spadło do ~0.80, ale produkcja zaczęła zachowywać się podobnie jak wyniki z walidacji. Różnica między 0.95 a 0.80 to czysty błąd walidacji, nie „magiczna poprawa modelu”.

Specjalista analizuje dane rynkowe na laptopie w biurze — Źródło: Pexels | Autor: Artem Podrez

Podstawy walidacji krzyżowej – co trzeba mieć w głowie przed pisaniem kodu

Najważniejsze definicje: fold, K-fold, LOOCV, holdout, repeated

Żeby unikać pułapek, trzeba precyzyjnie rozumieć podstawowe pojęcia:

Fold – jedna „część” danych w podziale używanym do walidacji krzyżowej. W K-fold dzielimy dane na K takich części.
K-fold cross-validation – dane dzielone na K równych (lub prawie równych) części. Dla każdej części: trenujesz model na pozostałych K-1 częściach, testujesz na tej jednej. Wynik to średnia metryka z K eksperymentów.
Leave-One-Out (LOOCV) – skrajny przypadek K-fold, gdzie K = liczbie próbek. Trenujesz model N razy, za każdym razem zostawiając jedną próbkę jako walidacyjną. Bardzo kosztowne, zwykle mało praktyczne.
Holdout – pojedynczy podział na train/validation (czasem dodatkowo test). To jeszcze nie jest „krzyżowa” walidacja, ale bywa używane zamiennie w luźnym języku – co prowadzi do nieporozumień.
Repeated K-fold – kilkukrotne powtórzenie K-fold z innym losowaniem. Zwiększa stabilność oszacowania, ale też koszt treningu.

W realnych projektach najczęściej używa się StratifiedKFold (dla klasyfikacji) lub KFold dla regresji na niezależnych próbkach. Pozostałe warianty warto traktować jako narzędzia na specyficzne sytuacje, a nie domyślne rozwiązania.

Losowanie, seed, shuffle – jak nie wpaść w pułapkę złudnej losowości

Walidacja krzyżowa prawie zawsze opiera się na losowym podziale próbek na foldy. Ta „losowość” musi jednak być kontrolowana:

Seed (random_state) – stała wartość, którą ustawiasz, żeby reprodukować ten sam podział danych. Bez seeda każdy rerun może dawać inne foldy i inne wyniki.
Shuffle – parametr określający, czy przed podziałem dane mają być mieszane. Dla danych i.i.d. (niezależne, o tym samym rozkładzie) najczęściej shuffle=True jest sensowne. Przy szeregach czasowych – wręcz przeciwnie.
Permutacja – ogólne pojęcie dla „przemieszania” danych. W kontekście CV zwykle oznacza to, że kolejność próbek jest losowa, a więc foldy są reprezentatywne.

Typowy błąd: brak seeda w badaniach porównawczych. Jedna konfiguracja hiperparametrów „wygrywa” tylko dlatego, że miała szczęście w losowaniu foldów. Reprodukowalne eksperymenty w ML bez ustawionego seeda to fikcja.

Założenia: niezależność i stacjonarność próbek

Standardowa walidacja krzyżowa zakłada, że:

próbki są w przybliżeniu niezależne (brak silnych zależności między elementami w różnych foldach),
rozkład danych w train i valid jest podobny (stacjonarność).

Te założenia są łamane w wielu realnych problemach:

Szeregi czasowe – przyszłość zależy od przeszłości, a rozkład może zmieniać się w czasie (sezonowość, trend).
Dane medyczne – wiele rekordów dla jednego pacjenta, silne zależności wewnątrz grup.
Dane z e-commerce – wiele sesji / zamówień dla jednego użytkownika.

Jeśli ignorujesz te zależności i stosujesz klasyczny KFold, tworzysz warunki sprzyjające data leakage. Model uczy się specyfiki konkretnego użytkownika lub pacjenta na train, a potem jest z tego samego użytkownika oceniany w valid – to nie ma nic wspólnego z prawdziwym generalizowaniem.

Wariancja estymatora a liczba foldów

Liczba foldów K wpływa na kompromis między wariancją a obciążeniem estymatora jakości modelu:

Większe K (np. 10, 20) – więcej danych w train przy każdym przebiegu, ale mniejszy fragment w valid. Zwykle mniejsze obciążenie, ale wyższa wariancja między foldami.
Mniejsze K (np. 3, 5) – więcej danych w valid w każdym foldzie, mniej w train. Wyższe obciążenie (model trenuje się na mniejszej próbce), ale niższa wariancja estymacji.

W praktyce klasyczne wybory to 5-fold lub 10-fold. LOOCV jest teoretycznie „ładne”, ale praktycznie zbyt kosztowne i często ma bardzo wysoką wariancję (każdy fold to pojedyncza próbka).

Gdy zbiór jest mały, warto rozważyć repeated KFold (np. 5-fold powtórzony 3 razy), co daje 15 pomiarów i lepszy obraz stabilności modelu.

Jak czytać średnią i odchylenie z walidacji krzyżowej

Zamiast podawać jedną liczbę typu „AUC = 0.88”, lepiej raportować średnią ± odchylenie standardowe, np. „AUC = 0.88 ± 0.03 (5-fold CV)”. Taka notacja od razu pokazuje, czy model:

działa stabilnie (małe odchylenie),
czy jest bardzo wrażliwy na różne podziały (duże odchylenie).

Jeśli dwa modele mają podobną średnią, ale jeden ma odchylenie 0.01, a drugi 0.05, w większości projektów lepiej wybrać ten stabilniejszy. Różnice rzędu 0.001 przy wysokim odchyleniu są w praktyce statystycznie bez znaczenia.

Dobór schematu walidacji do typu problemu – nie ma jednego „złotego KFold”

Klasyfikacja i regresja na niezależnych próbkach: KFold i StratifiedKFold

W klasycznych zadaniach ML, gdzie każda próbka reprezentuje niezależną obserwację (np. pojedynczy klient, pojedyncza transakcja, pojedynczy dokument), najczęściej wystarczy:

KFold – dla regresji lub klasyfikacji, gdy klasy są względnie zrównoważone i nie ma innych struktur w danych.
StratifiedKFold – dla klasyfikacji, gdy zależy ci na tym, aby rozkład klas w każdym foldzie był zbliżony do rozkładu w całym zbiorze.

Stratyfikacja jest szczególnie ważna przy małych zbiorach, gdzie istnieje ryzyko, że w jednym foldzie w ogóle nie pojawi się rzadko występująca klasa. Taki fold nie pozwala rzetelnie oszacować metryk typu recall czy F1 dla tej klasy.

Dane niezbalansowane – jak wymusić sensowną stratyfikację

Przy silnie niezbalansowanych zbiorach (np. fraud detection, rzadkie choroby) poprawna walidacja krzyżowa wymaga:

użycia StratifiedKFold zamiast zwykłego KFold,
doboru liczby foldów tak, aby w każdym foldzie była sensowna liczba próbek z klasy mniejszościowej,
czasem – ręcznego balansowania foldów lub redukcji K, jeśli danych mniejszościowych jest bardzo mało.

Nie da się poprawnie ocenić modelu na klasę rzadką, jeśli w foldzie validation jest np. jedna próbka z tej klasy. W takiej sytuacji lepiej zmniejszyć K (np. z 10 do 3) lub rozważyć inne strategie, np. repeated stratified KFold, aby uzyskać więcej odczytów.

Dane sekwencyjne i szeregi czasowe: TimeSeriesSplit i walk-forward

W problemach, gdzie czas ma znaczenie (prognozy popytu, predykcja awarii, finansowe szeregi czasowe), klasyczny KFold zwykle jest błędem. Powód jest prosty: miesza przeszłość z przyszłością. Model trenuje się na danych z 2023, a potem jest oceniany na danych z 2021 – to nienaturalne.

Lepszym wyborem są:

TimeSeriesSplit – kolejne foldy budowane są tak, że część treningowa jest zawsze wcześniejsza w czasie niż część walidacyjna,

Rolling-origin, expanding window i inne praktyczne warianty dla czasu

W zastosowaniach biznesowych sama klasa TimeSeriesSplit często nie wystarcza. Trzeba dobrać konkretną geometrię okna uczącego i walidacyjnego:

Expanding window – każde kolejne okno treningowe jest coraz dłuższe: trenowanie na [2019], walidacja [2020]; potem trenowanie na [2019–2020], walidacja [2021] itd. Dobre, gdy model ma korzystać z całej historii.
Sliding window – długość okna treningowego jest stała: trenowanie na [2019], walidacja [2020]; potem trenowanie na [2020], walidacja [2021]. Przydatne, gdy stare dane przestają być reprezentatywne.
Rolling-origin evaluation – połączenie obu podejść w systematycznym scenariuszu testowania: symulujesz, jak wyglądałby cykl „trenuj → przewiduj → przesuń okno” w rzeczywistym systemie.

Podstawowa zasada: walidacja musi odtwarzać sposób użycia modelu w produkcji. Jeśli w systemie co miesiąc trenujesz model na danych z poprzednich 12 miesięcy, sensowny schemat walidacji robi dokładnie to samo, tylko na danych historycznych.

Nie mieszaj miesięcy, kwartałów czy lat w foldach, jeśli istnieje silna sezonowość. Lepsze jest jawne dzielenie po przedziałach czasowych, np. fold 1 – train 2018Q1–2018Q3, valid 2018Q4; fold 2 – train 2018Q2–2018Q4, valid 2019Q1 itd.

Dane zgrupowane: GroupKFold, GroupShuffleSplit i „leakage przez użytkownika”

Gdy wiele próbek należy do tej samej jednostki (użytkownik, pacjent, firma, urządzenie), podstawowy KFold prawie na pewno generuje zbyt optymistyczne wyniki. W takim scenariuszu używaj:

GroupKFold – grupy (np. user_id) trafiają w całości do jednego foldu. Ten sam użytkownik nigdy nie pojawia się jednocześnie w train i valid.
GroupShuffleSplit – wariant „holdout na grupach”, przydatny gdy chcesz jeden podział train/valid, ale poprawny względem grup.

Minimalna checklista dla danych zgrupowanych:

znajdź identyfikator grupy (user_id, patient_id, session_id itp.),
użyj go jako groups w splitterze,
sprawdź, czy żadna grupa nie przecieka między foldami – prosta tabelka group → fold w pandasie usuwa wątpliwości.

Typowy antywzorzec: scoring modeli rekomendacyjnych na sesjach, przy jednoczesnym stosowaniu zwykłego KFold po wierszach. Ten sam użytkownik uczy model (jego historia) i testuje go (część jego historii ląduje w valid). Wynik walidacji jest wysoki, a w realnych nowych użytkownikach model się wykłada.

Uczenie na poziomie jednostek, nie wierszy: nested grupy i hierarchie

W praktyce pojawiają się złożone struktury: pacjent → wizyta → badanie, użytkownik → sesja → event. Wtedy pojedynczy GroupKFold po jednym identyfikatorze bywa za słaby. W takiej sytuacji:

zastanów się, jaki jest poziom, na którym naprawdę testujesz generalizację – do nowych pacjentów, nowych wizyt, czy nowych badań tego samego pacjenta,
odpowiedni poziom ustaw jako grupę – np. jeśli w produkcji model będzie widział nowych pacjentów, a nie „niewidziane wcześniej wizyty tych samych pacjentów”, to grupą musi być patient_id, nawet jeśli prognozujesz coś na poziomie badania.

Często pomagają proste reguły:

jeśli w produkcji model ma się spotykać z nowymi identyfikatorami (nowi klienci, nowe urządzenia), walidacja też powinna ich trzymać w całości w jednym foldu,
jeśli w produkcji model dostaje kolejne zdarzenia dla tych samych jednostek, a decyzje zależą od ich historii, w walidacji trzeba użyć zarówno grup, jak i porządku czasowego w ramach grup.

Walidacja w problemach rankingowych i rekomendacyjnych

Dla rekomendacji i rankingów klasyczne dzielenie po wierszach zupełnie nie oddaje realnego użycia. Kilka prostych zasad robi dużą różnicę:

dziel po użytkownikach (GroupKFold) albo po czasie interakcji w obrębie użytkownika, jeśli chcesz symulować „przyszłe kliknięcia” na podstawie historii,
w walidacji odtwarzaj typową sytuację: model widzi pewną historię użytkownika i ma przewidzieć, co kliknie dalej; nie mieszaj przyszłych zdarzeń do treningu,
metryki typu MAP@K, MRR, NDCG licz na poziomie użytkownika, a potem agreguj po użytkownikach, nie po wierszach.

Dobry prosty schemat: dla każdego użytkownika sortujesz zdarzenia po czasie, bierzesz pierwsze X jako train, ostatnie Y jako validation. Następnie foldy tworzysz po użytkownikach, nie po pojedynczych wierszach.

Detekcja anomalii i extremely imbalanced: walidacja na „prawdziwych rzadkościach”

Przy anomaliach i bardzo rzadkich klasach zwykłe KFold bywa bezużyteczne – w części foldów nie ma w ogóle przykładów pozytywnych. Kilka praktycznych trików:

zacznij od StratifiedKFold z małym K (np. 3), aby każdemu foldowi zapewnić kilka przypadków pozytywnych,
jeśli pozytywnych jest ekstremalnie mało, rozważ walidację typu leave-one-out po pozytywnych: w każdej iteracji jeden przypadek anomalii w valid, reszta (wraz z wszystkimi negatywami) w train,
sprawdzaj metryki, które działają przy tak małych liczbach – np. precision-recall dla klasy pozytywnej, nie accuracy.

Przy anomaliach czasowych (np. awarie, fraud w streamie) łączą się dwa problemy: rzadkość i czas. Wtedy sensowna walidacja musi jednocześnie:

zachować porządek czasowy,
zapewnić, że w każdym foldzie są przynajmniej pojedyncze anomalie.

Praktyczny kompromis: podziel dane na kilka kolejnych okresów (miesiące/kwartały), używając rolling-origin, a następnie upewnij się, że w każdym okresie są anomalie. W skrajnych przypadkach nie dziel czasu równo – dopasuj okresy do wystąpień anomalii.

Specjalista analizuje wykresy i dokumenty finansowe w jasnym biurze — Źródło: Pexels | Autor: www.kaboompics.com

Jak technicznie dzielić dane, żeby nie oszukiwać samego siebie

Podział train/validation/test: jedna szansa na uczciwy test

Walidacja krzyżowa nie zastępuje zestawu testowego. Rozsądny schemat:

wydziel zestaw testowy na samym początku – bez żadnych transformacji i podglądania,
na pozostałych danych wykonuj walidację krzyżową i strojenie,
zestawu testowego użyj tylko raz, na końcu, do oszacowania końcowej jakości.

Jeżeli zestaw testowy jest używany wielokrotnie do „sprawdzania pomysłów”, staje się kolejnym zestawem walidacyjnym. Wtedy finalny wynik będzie nadmiernie optymistyczny – dopasowany do testu.

Transformacje cech: najpierw dziel, potem dopiero fit

Najczęstszy techniczny błąd: dopasowanie transformacji na całym zbiorze, a dopiero potem dzielenie na foldy. Dotyczy to m.in.:

skalowania (StandardScaler, MinMaxScaler),
redukcji wymiaru (PCA, UMAP),
selekcji cech (SelectKBest, L1-based feature selection),
kodowania kategorii (TargetEncoding, CountEncoding),
imputacji braków danych.

Poprawny schemat w każdym foldzie:

wykonujesz podział na X_train, y_train, X_valid, y_valid,
tworzysz i fitujesz transformator tylko na X_train,
transformujesz X_train i X_valid tym samym dopasowanym transformatorem,
trenujesz model na przetransformowanym X_train, oceniasz na przetransformowanym X_valid.

Najprostszy sposób, żeby się nie pomylić – używać pipeline’ów (np. sklearn.pipeline.Pipeline) wraz ze splitterem przekazywanym do cross_val_score lub GridSearchCV. Pipeline gwarantuje, że transformacje są fitowane wyłącznie na train w ramach foldu.

Indeksy i mieszanie danych: jak nie rozjechać cech i etykiet

Przy ręcznym dzieleniu łatwo o trywialne błędy, które całkowicie psują walidację. Krótka lista błędów i zabezpieczeń:

niespójne indeksy – po przetasowaniu X i y osobno powstaje losowe dopasowanie cech do etykiet; zawsze shuffle’uj wspólnie (sklearn.utils.shuffle(X, y) lub DataFrame.sample(frac=1) z zachowaniem indeksów),
mieszanie danych po joinach – join po złym kluczu lub pozycjach, a nie po identyfikatorze, może skleić cechy innego użytkownika z etykietą innego,
usuwanie wierszy tylko z części danych – np. usuwasz wiersze z X po filtrze, ale zapominasz o tym samym filtrze w y.

Proste zabezpieczenie: po każdym przetwarzaniu, które zmienia liczbę lub kolejność wierszy, sprawdzaj:

czy len(X) == len(y),
czy indeksy lub identyfikatory między X i y są wciąż zsynchronizowane.

Leakage przez feature engineering: „spojrzenie w przyszłość” w funkcjach

Feature engineering często jest głównym źródłem ukrytego leakagu. Przykłady klasyczne w wielu branżach:

średnia sprzedaż produktu liczona po całej historii, w tym po przyszłych miesiącach,
cechy z agregacji po użytkowniku, liczone na całym zbiorze przed podziałem na foldy,
target encoding kategorii z użyciem etykiet z całego datasetu.

Bezpieczna zasada: cechy obliczane z danych historycznych muszą być liczone osobno w każdym foldzie, wyłącznie na części treningowej. Technicznie oznacza to:

przeniesienie funkcji budujących cechy do kroku fit/transform w pipeline’ie,
dla szeregów czasowych – budowanie cech wyłącznie z przeszłych wierszy (np. rolling, expanding) i pilnowanie, żeby walidacja nie używała informacji z przyszłości.

W target encodigu etykiet przecieki są normą. Używaj wariantów:

z K-fold target encodingiem wewnątrz foldów głównej walidacji,
lub out-of-fold encodingu – kodujesz próbkę tylko na podstawie statystyk wyliczonych bez użycia jej własnej etykiety.

W praktyce: każdą zaawansowaną cechę traktuj jak model. Jeżeli podczas jej budowy używasz informacji z etykiet lub przyszłości, musisz ją „walidować” tak samo ostrożnie jak końcowy model.

Balansowanie klas i oversampling/undersampling w walidacji

Oversampling (SMOTE, RandomOverSampler) i undersampling także potrafią wprowadzać leakage, jeśli zastosujesz je przed podziałem na foldy. Poprawna kolejność:

dzielisz dane na train/valid w danym foldzie,
tylko na train stosujesz oversampling/undersampling,
model trenujesz na zbalansowanym train,
wyniki liczysz na oryginalnym, niezbalansowanym valid.

Oversampling na całym zbiorze przed walidacją powoduje, że sklonowane lub syntetyczne próbki pojawiają się i w train, i w valid. Model w praktyce widzi prawie te same przykłady w obu częściach, więc wynik walidacji jest sztucznie zawyżony.

Ustalony podział a rozwój modelu: kiedy „zamrozić” foldy

W trakcie długiego projektu skład danych może się zmieniać (dochodzą nowe miesiące, nowe rynki). Jeżeli przy każdej zmianie wprowadzasz nowy sposób dzielenia na foldy, tracisz porównywalność wyników między iteracjami. Rozsądny kompromis:

dla danej wersji zbioru (v1, v2) zdefiniuj stały splitter (konkretny seed, konkretne grupy),
trzymaj ten splitter w kodzie lub w konfiguracji jako element definicji eksperymentu,
porówniaj modele tylko w ramach jednej wersji walidacji; przy zmianie logiki walidacji wyraźnie zaczynaj nową „linię” eksperymentów.

Najgroźniejszy błąd – wyciek danych (data leakage) w walidacji krzyżowej

Rodzaje leakagu: jawny, cichy i „biznesowy”

Data leakage nie zawsze jest oczywisty. Kilka głównych kategorii:

jawny leakage – w cechach masz coś, co wprost zawiera target (np. „czy klient odszedł” jako flaga w danych wejściowych),
cichy leakage techniczny – źle ułożony pipeline, transformacje fitowane na całości lub joiny, które dorzucają informację z przyszłości,
leakage „biznesowy” – cechy, które w realnym świecie nie są dostępne w momencie podejmowania decyzji, ale w danych historycznych już są.

Ten ostatni jest najgroźniejszy: model może wydawać się idealny w walidacji, a na produkcji dramatycznie siada. Typowy przykład: model churnu, który korzysta z flagi „wypowiedziana umowa” lub „data zamknięcia konta”, bo w danych historycznych już ją znasz.

Checklist: jak łapać leakage zanim będzie za późno

Prosty zestaw pytań, który dobrze przejść dla każdego projektu:

czy każda cecha jest dostępna w momencie, w którym model ma podjąć decyzję?
czy gdziekolwiek używasz przyszłych timestampów albo agregacji, które sięgają w przyszłość względem chwili przewidywania?
czy każdy krok feature engineeringu i preprocessing jest fitowany wyłącznie na train w danym foldzie?
czy w danych nie ma kolumn technicznych (statusy procesów, etykiety ręczne, flagi „zaakceptowane/odrzucone”), które z definicji powstają po decyzji?

Jeżeli na którekolwiek pytanie nie można odpowiedzieć „tak, na 100%”, trzeba przejrzeć kod i logikę biznesową jeszcze raz.

Leakage przez czas: kiedy timestamp jest niewystarczający

Samo sortowanie po czasie nie zawsze wystarcza. Pułapki przy danych czasowych:

asynchroniczne źródła – logi systemowe z opóźnieniem, dane finansowe po nocnym batchu,
okna raportowe – wskaźniki liczone na koniec dnia/tygodnia, podczas gdy decyzja podejmowana jest w środku okresu,
opóźnione etykiety – np. fraud wykryty dopiero po kilku dniach, ale oznaczony w danych z datą transakcji.

Żeby uniknąć subtelnego spojrzenia w przyszłość, warto zdefiniować czas decyzyjny dla każdej próbki: konkretny timestamp, po którym dane nie są już dostępne. Wszystkie cechy muszą być konstruowane wyłącznie z informacji dostępnej do tego momentu, niezależnie od tego, jak dane potem zostały zapisane w hurtowni.

Case study: scoring kredytowy z „za dobrymi” cechami

Typowy scenariusz z praktyki: budujesz model ryzyka kredytowego. Do cech trafiają:

aktualny status spłaty rat (opóźnione/terminowe),
liczba wezwań windykacyjnych,
liczba restrukturyzacji umowy.

W danych historycznych wszystko wygląda świetnie – wiesz, kto miał problemy ze spłatą. Ale model w produkcji ma decyzję podjąć przed udzieleniem kredytu, więc te cechy są niedostępne. Prawidłowa walidacja powinna je całkowicie usunąć, a cechy ograniczyć do danych wnioskowych, historii klienta sprzed decyzji itd.

Tego typu leakage najłatwiej wychwycić, gdy analityk zada sobie proste pytanie: „czy ta kolumna istniała w momencie, gdy system faktycznie decydował?”. Jeżeli odpowiedź brzmi „nie” – kolumna do kosza.

Specjaliści analizują dane finansowe na kilku monitorach w biurze — Źródło: Pexels | Autor: AlphaTradeZone

Walidacja krzyżowa a strojenie hiperparametrów – gdzie wszyscy naginają zasady

Nested cross-validation: jak naprawdę uniknąć przeuczenia na valid

Główna zasada: jeśli dobierasz hiperparametry na podstawie wyniku z walidacji krzyżowej, to ta walidacja staje się częścią procesu uczenia. Jedynym w pełni poprawnym schematem jest nested CV:

zewnętrzna pętla CV dzieli dane na train_outer i test_outer,
w każdej iteracji wewnętrzna pętla CV na train_outer służy do strojenia hiperparametrów,
najlepsze hiperparametry z wewnętrznej pętli są trenowane na całym train_outer, oceniane na test_outer,
średnia po wszystkich test_outer to końcowa estymacja jakości.

To uczciwy, ale kosztowny schemat. Sprawdza się głównie przy mniejszych datasetach lub przy modelach, które uczą się szybko. Przy dużych projektach zwykle stosuje się kompromisy.

CV + walidacja „dev”: pragmatyczny kompromis

Praktyczny schemat używany w wielu zespołach:

dzielisz dane na train, dev i test,
na train robisz walidację krzyżową i szukasz rozsądnego obszaru hiperparametrów,
kilka najlepszych konfiguracji testujesz na dev,
zestawu test dotykasz tylko raz na końcu.

Taki układ ogranicza ryzyko przeuczenia na jednym zbiorze walidacyjnym. Dodatkowo pozwala łapać przypadki, w których wynik CV jest zbyt optymistyczny względem dev (np. przez nieidealny splitter).

GridSearch, RandomSearch, Optuna, Bayesian – jak nie przestrzelić z liczbą prób

Im więcej prób hiperparametrów, tym większe ryzyko, że znajdziesz kombinację „wygraną przypadkiem” w danym schemacie walidacji. Kilka zasad:

ogranicz przestrzeń do sensownych zakresów – zamiast n_estimators 50–10000, użyj 100–1000,
zamiast setek kombinacji w GridSearch, użyj RandomizedSearchCV z rozsądną liczbą iteracji,
dla Optuny/Bayesiana: ustaw twardy limit prób oraz przerwanie przy braku poprawy (pruning).

Dobry trik: podziel hyper-tuning na dwie fazy. W pierwszej – szeroko, ale płytko (mało iteracji, grube kroki). W drugiej – węższy zakres wokół najlepszego regionu, ale już z większą uwagą.

CV w hyper-tuningu a finalny trening: spójność schematów

Częsty błąd: inne dzielenie w hyper-tuningu, inne w finalnej walidacji. Przykład: w GridSearchCV używasz domyślnego KFold z mieszaniem, a w osobnym kodzie do raportowania jakości – GroupKFold po użytkowniku. Wyniki z tych dwóch światów trudno porównać.

Bezpieczna praktyka:

definiuj splitter (np. GroupKFold) raz,
używaj go zarówno w hyper-tuningu, jak i w finalnym cross_val_score,
jeśli zmieniasz logikę walidacji (np. na time-based), wyraźnie oznacz, że to nowa generacja eksperymentów.

Overfit na metryce: kiedy cel optymalizacji szkodzi biznesowi

Strojenie hiperparametrów wyłącznie pod jedną metrykę potrafi wypaczyć model. Przykłady:

maksymalizujesz AUC, a w biznesie liczy się precyzja przy bardzo niskim recall,
maksymalizujesz F1, podczas gdy koszty false positive i false negative są mocno asymetryczne,
optymalizujesz NDCG@10, ale system w produkcji wyświetla tylko 3 wyniki.

Rozwiązanie jest dwuetapowe:

w hyper-tuningu optymalizujesz główną metrykę, ale zapisujesz też wartości metryk pobocznych,
dla kilku najlepszych konfiguracji analizujesz metryki profilowo (krzywe precision-recall, zysk/koszt przy różnych progach, itp.).

W projektach biznesowych decyzja o wyborze modelu często zapada nie po jednej liczbie, tylko po obejrzeniu całego „portretu” zachowania modelu.

Specyfika walidacji krzyżowej dla różnych typów danych i modeli

NLP: dokumenty, sekwencje i „topic leakage”

W zadaniach NLP pułapki walidacji często dotyczą struktury korpusu. Kilka typowych przypadków:

powtarzające się teksty – ten sam artykuł lub jego kopia trafia zarówno do train, jak i do valid,
podział po zdaniach przy zadaniach na poziomie dokumentu,
topic leakage – ten sam temat (np. produkt, kampania marketingowa) występuje w różnych dokumentach i jest losowo rozdzielony między foldy, mimo że w produkcji nowe tematy będą inne.

Dwa sprawdzone podejścia:

używaj GroupKFold, gdzie grupą jest np. dokument, użytkownik, konwersacja lub kampania,
przy zadaniach typu „generalizacja na nowe tematy” stosuj leave-one-group-out, gdzie grupa to np. kategoria tematyczna lub klient.

Modele językowe pretrenowane (BERT itp.) są mniej wrażliwe na małe różnice w danych, ale leakage przez powtarzające się dokumenty potrafi nadal zawyżać wyniki – szczególnie przy małych datasetach.

CV dla dużych modeli deep learning: kiedy pełne KFold nie ma sensu

Dla ciężkich modeli (duże sieci na obrazy, sekwencje) klasyczne KFold jest często niepraktyczne – trenowanie K razy przy drogim modelu potrafi zabić cały projekt. Typowe kompromisy:

simple train/valid split z bardzo pilnowaną losowością i grupowaniem (np. po pacjencie w medycznych danych obrazowych),
skromne K – np. 3-fold CV zamiast 5 czy 10,
„mini-CV” tylko na mniejszej podpróbce danych lub z mniejszym modelem (tzw. proxy model) na etapie R&D.

Użyteczny trik: w pierwszej fazie eksperymentów użyj mniejszego modelu (mniej warstw, mniejsza rozdzielczość, mniej epok), ale zachowaj docelowy schemat walidacji. Gdy ustabilizujesz pipeline i metryki, dopiero wtedy podmień model na cięższy wariant i skróć liczbę foldów.

Modele online i systemy uczące się ciągle

Przy systemach online (rekomendacje, bidding w reklamie, modele aktualizowane codziennie) walidacja statyczna szybko przestaje coś mówić. Kilka praktyk:

używaj rolling window CV – np. trenuj na ostatnich 30 dniach, waliduj na kolejnych 7, przesuwaj okno w czasie,
obserwuj dryf danych – czy wyniki walidacji systematycznie się pogarszają wraz z kolejnymi oknami,
zachowuj stały rozmiar okna (lub kilka rozmiarów) i porównuj modele przy dokładnie tych samych przedziałach czasowych.

Przy modelach online ważne jest też, żeby metryki z walidacji zbliżały się do metryk z produkcji (np. z A/B testów). Jeżeli model jest świetny w walidacji, ale na produkcji prawie nic nie poprawia, często winny jest właśnie schemat walidacji oderwany od realnego strumienia danych.

Walidacja w uczeniu federated i multi-tenant

W scenariuszach federated learning lub wielu tenantów (np. SaaS dla wielu firm) dochodzi kolejny wymiar: różne dystrybucje danych u różnych klientów. Walidacja na zmergowanych danych potrafi mocno fałszować obraz.

W praktyce lepiej:

robić walidację per klient/tenant – np. osobne foldy wewnątrz danych każdego klienta,
raportować metryki jako rozkład po klientach (medianę, kwartyle), nie tylko średnią ważoną po liczbie próbek,
przy ocenie ogólnego modelu globalnego stosować GroupKFold po kliencie – część klientów w train, część w valid.

Jeżeli model ma generalizować na nowych klientów, sensowna jest walidacja leave-one-client-out: w każdej iteracji trenowanie na wszystkich klientach oprócz jednego, walidacja na pozostawionym.

Walidacja przy modelach generatywnych i rankingowych offline

Przy modelach generatywnych (np. generowanie tekstu, dialogów) klasyczne podejścia typu accuracy często niewiele mówią. Walidacja zwykle polega na mieszance:

metryk automatycznych (BLEU, ROUGE, perplexity),
eksperymentów A/B lub ocen ręcznych,
proxy zadań, które da się ocenić klasyczną walidacją (np. klasyfikacja poprawności wygenerowanej odpowiedzi).

Offline’owa walidacja w generatywnych systemach powinna możliwie dobrze naśladować interakcję użytkownika. Dla rankingów i rekomendacji to oznacza m.in.: