O źródłach, ilości i podziale danych w medycznych modelach uczenia maszynowego

Uczenie maszynowe w medycynie opiera się na danych, których jakość, pochodzenie i sposób przygotowania decydują o skuteczności tworzonych modeli. Kluczowe znaczenie ma odpowiedni podział danych – najczęściej na pule treningowe, walidacyjne i testowe – oraz ich reprezentatywność. Niereprezentatywne lub błędnie przygotowane dane mogą prowadzić do powstania modeli obciążonych uprzedzeniami, na przykład związanymi z wiekiem, płcią czy pochodzeniem pacjentów. Z tego względu istotne jest korzystanie z możliwie zróżnicowanych źródeł danych oraz świadome unikanie błędów, które mogą zakłócić jakość predykcji.
Dane wykorzystywane w medycznych projektach najczęściej pochodzą z archiwów placówek ochrony zdrowia, czyli zbiorów zgromadzonych niezależnie od konkretnych badań. Rzadziej wykorzystywane są dane pozyskiwane samodzielnie na potrzeby konkretnego projektu, a jeszcze rzadziej – dane z dużych, publicznych baz. Te ostatnie, choć trudniej dostępne, zwykle zawierają największą liczbę rekordów i są bardziej zróżnicowane, co sprzyja tworzeniu modeli o wyższej ogólności i mniejszym ryzyku błędów systematycznych.
Podział danych nie zawsze przebiega zgodnie z idealnym modelem. Tylko niewielka część prac badawczych stosuje pełny trójpodział na dane treningowe, walidacyjne i testowe. Często zdarza się łączenie dwóch ostatnich pul lub brak jednoznacznego ich wyodrębnienia. Najczęściej spotykaną proporcją jest układ 70:30, w którym 70% danych służy szkoleniu, a pozostałe 30% – ocenie działania modelu. Rzadziej wykorzystywane są bardziej nietypowe schematy podziału, dostosowane do specyfiki konkretnego projektu lub ograniczeń liczbowych.
Wielkość zbiorów danych zależy nie tylko od źródła, lecz także od sposobu ich definiowania. W niektórych projektach jeden pacjent stanowi pojedynczy rekord, w innych – generuje ich wiele, na przykład w wyniku rejestrowania zmian zachodzących w czasie. Takie podejście pozwala istotnie zwiększyć liczbę przykładów w zbiorze treningowym, zwłaszcza przy ograniczonej liczbie uczestników badania i tym samym poprawić jakość modelu bez pozyskiwania nowych danych.
Najczęściej wykorzystywanym źródłem danych pozostają lokalne zbiory archiwalne. Publiczne bazy danych, choć znacznie mniej liczne, oferują największy potencjał pod względem liczby i różnorodności rekordów. Dane pozyskiwane samodzielnie zajmują trzecie miejsce, zarówno pod względem częstotliwości, jak i objętości. Różnice w metodologii i jakości opisów nadal stanowią istotną barierę w porównywaniu wyników badań, co wskazuje na potrzebę większej standaryzacji praktyk związanych z przygotowaniem danych w medycznych projektach uczenia maszynowego.
Materiał przygotowany z pomocą generatywnej sztucznej inteligencji na podstawie rozdziału „Źródła, ilość i podział danych w medycznych modelach uczenia maszynowego” autorstwa Marcina Rojka, Michała Azierskiego i Jakuba Kufela z książki „Medyczne zastosowania sztucznej inteligencji”.
Zamów książkę „Medyczne zastosowania sztucznej inteligencji” w Księgarni Medycznej PZWL.
Korzystając z kodu promocyjnego AI5 otrzymasz dodatkowe 5% zniżki.
Materiał we współpracy z PWN.