Odborné vysvětlení: Vyvážení dat je proces úpravy distribuce tříd v datasetu tak, aby všechny třídy byly rovnoměrně zastoupeny. Toto je důležité zejména pro klasifikační úlohy s nevyváženými třídami, kde by model mohl být předpojatý ve prospěch většinové třídy. Metody vyvážení dat zahrnují oversampling (zvýšení počtu vzorků menšinové třídy), undersampling (snížení počtu vzorků většinové třídy) nebo generování syntetických dat.
Vysvětlení pro laiky: Představte si, že učíte počítač rozpoznávat různé druhy ovoce, ale máte 100 obrázků jablek a jen 10 obrázků hrušek. Počítač by se mohl naučit říkat “jablko” na všechno, protože to bude často správně. Vyvážení dat je jako když dokreslíte více hrušek nebo použijete méně jablek, aby počítač měl stejnou šanci naučit se rozpoznávat obojí.
Data balancing is the process of adjusting the class distribution in a dataset so that all classes are equally represented. This is especially important for classification tasks with imbalanced classes, where the model could be biased towards the majority class. Data balancing methods include oversampling (increasing the number of samples in the minority class), undersampling (reducing the number of samples in the majority class), or generating synthetic data.