Machine learning, een konijn in de zak?

De zin en onzin van machine learning

door Mieke Ketelaars
6 minuten leestijd

Tot nu toe zijn er al duizenden onderzoeken verschenen die laten zien dat cognitieve gedragstherapie een effectieve behandeling is, voor een heel scala aan problemen. Dat is prachtig natuurlijk, maar we weten ook dat er altijd patiënten zijn die níet van behandeling profiteren. Hoe mooi zou het zijn als we van tevoren wisten wie er baat heeft bij een behandeling, en wie we beter iets anders kunnen aanbieden? Dat is precies waarom machine learning momenteel zo in trek is. In dit artikel vertellen we je wat de evidence base van machine learning is. Dat doen we aan de hand van een meta-analyse van Sandra Vieira en collega’s.

Wat is machine learning?

Allereerst natuurlijk de vraag: wat gebeurt er eigenlijk in die black box van machine learning? Nou, simpel gezegd gooien we een enorme bak data van patiënten in een computer en laten we die een poosje rekenen. Als het goed is, rolt er dan een algoritme uit dat je vervolgens kunt toepassen op een individuele patiënt.

In de praktijk is het natuurlijk een stukje complexer. Machine learning baseert zich grotendeels op drie principes. Ten eerste gaat het uit van generalisatie. Dat betekent dat we er data van een x aantal patiënten in stoppen, en die vervolgens toetsen aan de hand van nieuwe data. Ten tweede gaat machine learning uit van complexe problemen die veel interactie met elkaar hebben. Het laatste principe heeft te maken met de vertaling naar het individu. Bij de statistische analyses die we normaal gesproken gebruiken, gaan we uit van gemiddelden. Bij machine learning wordt een echte vertaalslag gemaakt naar het individu.

Wat is de evidence base rondom machine learning?

Dit is de hamvraag. Op basis van de informatie die we net gaven, moeten we haast wel tot de conclusie komen dat machine learning enorme potentie heeft voor de praktijk. Maar hoe goed zijn de algoritmes die op basis van machine learning worden gegenereerd? Zijn die beter dan onze eigen klinische blik of onze intuïtie?

De meta-analyse van Vieira en collega’s geeft een voorlopig antwoord op die vragen. Voor hun meta-analyse keken ze naar machine-learning-onderzoeken rondom een scala aan problematiek. Op basis van die onderzoeken concluderen ze dat met 74 procent nauwkeurigheid te voorspellen is wie van CGT gaat profiteren en wie niet.

Is dat een goed resultaat? Dat hangt er vanaf hoe je het bekijkt. 74 procent is beduidend beter dan kansniveau en in veel gevallen ook beter dan onze intuïtie. In die zin is dit resultaat absoluut een stap in de goede richting. Maar het is nog verre van perfect. Tegelijkertijd kun je stellen dat  perfectie  ook niet nodig is om klinisch bruikbaar te zijn.

Het addertje onder het gras

Toch zit er wel een addertje onder het gras. Of eigenlijk méér dan 1 addertje. De patiënten die in deze meta-analyse zijn opgenomen, vormen een keurige homogene groep. Zorgvuldig geselecteerd en zonder allerhande comorbide problemen. In de klinische praktijk is dat natuurlijk zelden het geval. De vraag is dan ook in hoeverre de nauwkeurigheid van de voorspelling behouden blijft in de weerbarstige praktijk.

Een tweede addertje is het type data dat is gebruikt. Natuurlijk weet je als behandelaar vaak wel wat de leeftijd van je patiënt is, wat de ernst van de symptomen is en of hij of zij een baan heeft. Maar in de meta-analyse van Vieira en collega’s werd buitensporig vaak gebruik gemaakt van neuro-imaging. En lang niet iedere organisatie heeft een MRI-scanner in z’n praktijk staan.

Maar zelfs als we die data wél hebben, lopen we alsnog tegen een probleem aan. Neuro-imaging studies hebben vaak notoir weinig proefpersonen. Een voorspellend algoritme op basis van neuro-imaging data geeft daardoor een groot risico op overfitting.

Dat werkt zo. Je koopt bijvoorbeeld tien konijnen. Je jast die tien konijnen door de scanner en voorspelt op basis daarvan de gemiddelde aaibaarheid van een nieuw aan te schaffen konijn. Doordat het model zich baseert op gegevens van tien schattige konijntjes, ziet de voorspellende waarde er fantastisch uit. Maar als je dat model inzet om een nieuw aaibaar konijn op te sporen, koop je al snel een kat in de zak. Want door die beperkte eerste set sluipen er al snel kleine foutjes in. Wie weet hebben die eerste tien konijnen speciaal voer gekregen met ultrazacht haargroeimiddel, of waren ze afkomstig van een zeer knuffelige konijnenfamilie. Kortom, de waarde van dat algoritme is zeer beperkt als je het op een willekeurig loslopend konijn loslaat.

Dan is er nog een laatste addertje. De meeste machine-learning-onderzoeken maken gebruik van op de plank liggende data. Het gaat om gelegenheidsgegevens. Maar zijn dat goede voorspellers? Dat valt te betwisten. Uit andere onderzoeken weten we namelijk dat zaken als vermijdingsgedrag, het maken van huiswerk en motivatie voor verandering, bepalende factoren zijn voor een goede behandeluitkomst. Maar dat zijn andere data. Het zou dus goed kunnen dat de waarde van de modellen veel beter wordt als we ook dát soort data gaan betrekken.

Alle plussen en minnen samennemend, waar brengt dat ons? De huidige resultaten zijn bemoedigend, maar ze laten ook de kinderziektes zien waar we nog mee te maken hebben. De komende jaren zullen de ontwikkelingen moeten gaan uitwijzen of we met machine learning een aaibaar konijn hebben of een kat in de zak.

Bron

  • Vieira, S., Liang, X., Guiomar, R., & Mechelli, A. (2022). Can we predict who will benefit from cognitive-behavioural therapy? A systematic review and meta-analysis of machine learning studies. Clinical Psychology Review, 102193. https://doi.org/10.1016/j.cpr.2022.102193

Misschien ook interessant voor jou