Trial By Error: meer CGT-onderzoek van Sir Simon en Professor Chalder

David Tuller, DrPH, Virology Blog, 12 augustus 2020

(*Met dank aan het goed geïnformeerde forum Science For ME en zijn leden, die mijn aandacht vestigden op deze studie vol problemen!)

In 2011 verklaarde professor Trudie Chalder op een persconferentie voor de spraakmakende PACE-studie dat twee keer zoveel patiënten met het chronisch vermoeidheidssyndroom die cognitieve gedragstherapie en oefentherapie kregen, “weer normaal” werden in vergelijking met de patiënten in de twee vergelijkingsarmen. Hoewel haar uitspraak een compleet foute voorstelling gaf van de resultaten die net in The Lancet waren verschenen, kreeg de opmerking van professor Chalder internationale media-aandacht, wat haar en haar medeonderzoekers de kans gaf om de studie voor te stellen als een succes.

Professor Sir Simon Wessely, al jarenlang haar collega aan King’s College in Londen, beweerde al even twijfelachtige dingen. Zo noemde hij de PACE-studie bijvoorbeeld “een pareltje”, ook al was ze in strijd met de wetenschappelijke basisprincipes. Maar terwijl Sir Simon de esthetische kwaliteiten van PACE bewierookt, zijn de bevindingen van het onderzoek door een groot deel van de internationale wetenschappelijke gemeenschap verworpen.

Het mag best nog eens herhaald worden dat de Amerikaanse Centers for Disease Control and Prevention verwijzingen naar PACE hebben verwijderd en het advies voor CGT en GET hebben laten vallen. Meer dan 100 experts van Columbia, Stanford, University College London, Queen Mary University of London, Berkeley en andere vooraanstaande instellingen hebben een open brief van Virology Blog aan The Lancet ondertekend waarin ze de “onaanvaardbare methodologische fouten” van het onderzoek aan de kaak stellen en een onafhankelijk onderzoek eisen.

Gezien deze geschiedenis zal het niemand verbazen dat wanneer deze twee gelijkgestemde onderzoekers hun krachten bundelen, er een weinig overtuigende mengelmoes uitkomt, met als titel: “Cognitieve Gedragstherapie voor chronische vermoeidheid en CVS: resultaten van een gespecialiseerde kliniek in het Verenigd Koninkrijk“. Deze studie is aanvaard voor publicatie in het Journal of the Royal Society of Medicine. Hoewel ze nog niet officieel is gepubliceerd, heeft King’s College London een exemplaar van het geaccepteerde ontwerp gepost. (Sir Simon is de vertrekkende voorzitter van de vereniging.)

De studie beweert de effectiviteit van CGT aan te tonen als een echte behandeling voor wat Sir Simon, Professor Chalder en hun drie coauteurs nog steeds het liefst CVS noemen. Zoals bij een groot deel van het onderzoekswerk van de boegbeelden van de ideologische CGT/GET-brigade, moet je de paper maar even in detail bekijken om te ontdekken dat de onderzoekers hun teleurstellende resultaten hebben opgedoft met een paar mooie lintjes en een grote strik.

In feite leest de paper als een poging om invloed uit te oefenen over de lopende beraadslagingen over nieuwe richtlijnen voor ME/cvs van het Britse National Institute for Health and Care Excellence. De huidige richtlijnen, gepubliceerd in 2007, bevelen CGT en GET aan voor wat toen CVS/ME werd genoemd. De herziening had dit jaar moeten plaatsvinden, maar de pandemie heeft het proces naar 2021 verschoven. Het besluit van NICE om de richtlijnen te herzien, was de afgelopen jaren een van de tekenen dat de hegemonie van het CGT/GET-paradigma voor de behandeling van ME/cvs begon af te brokkelen onder het gewicht van zijn eigen tekortkomingen en tegenstrijdigheden.

Nadat de pandemie was uitgebroken, verklaarde NICE dat GET niet mag worden beschouwd als een behandeling voor post-Covid-vermoeidheid op basis van de richtlijn uit 2007. Ondertussen adviseerde Professor Chalder post-Covid-patiënten in een video-interview om niet te veel te rusten en zo snel mogelijk na de acute fase van de ziekte hun activiteiten weer aan te vatten. Op vlak van ME/cvs is er stevig bewijs van schade als gevolg van GET, en ook in verband met Covid is er bezorgdheid dat dit advies over opbouwende oefeningen in de praktijk fout toegepast zou kunnen worden, dus het wordt steeds waarschijnlijker dat het NICE-panel de aanbevelingen voor GET volledig zal laten vallen.

CGT aanpakken wordt waarschijnlijk lastiger voor het NICE-panel, om verschillende redenen. CGT is al tientallen jaren een gevestigde therapeutische interventie. Het wordt courant aangeboden aan mensen met ernstige ziekten zoals kanker en multiple sclerose die daar bovenop depressief zijn of bijkomende mentale steun nodig hebben, dus sommige mensen kunnen moeilijk begrijpen waarom ME/cvs-patiënten bezwaar zouden hebben tegen het advies.

De reden hiervoor is dat de PACE-achtige versie van CGT zeer specifiek is voor ME/cvs en werd gepromoot als een curatieve behandeling voor de ziekte zelf, niet als aanvullende ondersteuning bovenop de medische zorg die een patiënt krijgt voor een onderliggend probleem. De interventie is gebaseerd op de onbewezen theorie dat “contraproductieve ideeën” over de ziekte de drijvende factor zijn achter het gedrag dat de vreselijke symptomen in stand houdt. En het is specifiek ontworpen om patiënten te helpen bij het overwinnen van hun zogenaamd irrationele angst om geïnvalideerd te raken door een lichamelijk ziekte. Een artikel als dit – met de indrukwekkende goedkeuringsstempel van de Royal Society of Medicine en haar voorzitter, Sir Simon zelf – zou gezien kunnen worden als een argument voor het behoud van CGT als behandeling voor ME/cvs, zelfs als NICE uiteindelijk besluit om GET te laten vallen.

**********

Schijn bedriegt

De nieuwe studie onderzoekt de resultaten van 995 patiënten die via de gespecialiseerde CVS-diensten tussen 2002 en 2016 een reeks CGT-sessies hebben gekregen. In het begin van deze periode was het CGT/GET-paradigma al de meest gangbare behandelingsaanpak. In 2003 gaf de overheid haar goedkeuring voor de financiering van de PACE-studie, die door de onderzoekers zelf werd bestempeld als de “doorsslaggevende” studie over deze behandelingen.

De onderzoekers schrijven als motivering voor de interventie: “Behandeling met CGT is gebaseerd op een model dat ervan uitgaat dat bepaalde triggers, zoals een virus en/of stress, vermoeidheidsverschijnselen veroorzaken. Vervolgens worden de symptomen onopzettelijk in stand gehouden door contraproductieve cognitieve en gedragsmatige reacties. De behandeling omvat onder andere het aanpakken van contraproductieve overtuigingen die positieve veranderingen in de weg kunnen staan.”

Deze theorie is in wezen dezelfde als die van een paper uit 1989 van een team waarin ook Sir Simon en professor Chalder zaten. In meer dan 30 jaar tijd is het idee dat er pathofysiologische processen betrokken kunnen zijn bij het bestendigen van de symptomen en niet louter “contraproductieve cognitieve en gedragsmatige reacties”, niet doorgedrongen tot deze statische formulering.

Dat zou niet erg zijn, als de resultaten van het onderzoek de hype zouden rechtvaardigen. Maar dat doen ze niet, wat de leden van de ideologische brigade ook beweren. In de nieuwe paper bevestigen Sir Simon, Professor Chalder en hun collega’s eenvoudigweg hun reeds lang bestaande standpunt, halen ze verschillende gebrekkige papers aan om hun zaak te onderbouwen en zeggen ze daar niet bij dat hun standpunt de afgelopen jaren onder goed gefundeerde en stevige kritiek zijn komen te staan. Zo noemen ze bijvoorbeeld de gerapporteerde PACE-resultaten gunstig, maar reppen ze met geen woord over de gepeerreviewde papers die de gebreken van de studie aantonen.

Het zou best kunnen dat de onderzoekers het niet leuk vinden dat hun ideeën over de “contraproductieve overtuigingen” van patiënten veel aan geloofwaardigheid hebben ingeboet en dat er een heel nummer van een academisch tijdschrift – het Journal of Health Psychology – gewijd werd aan de controverse omtrent het PACE-schandaal. Maar zowel in het klinische landschap van vandaag, als in de medische literatuur, krijgt het CGT/GET-paradigma stevige kritiek. Net als President Trump lijken Sir Simon en Professor Chalder slecht nieuws liefst te negeren en komen ze met vrolijke praatjes, ook al is hun geklets zo doorzichtig als wat.

**********

Wie waren de deelnemers?

Ten eerste lijken de onderzoekers zelf niet precies te weten of ze onderzoek deden naar patiënten met chronische vermoeidheid of naar patiënten met CVS. De titel suggereert dat het over allebei gaat. Maar de paper zelf verwijst de hele tijd naar CVS en naar deelnemers die voldoen aan de CVS-criteria. Dat de onderzoekers deze twee constructies samenvoegen is min of meer logisch, omdat zij er kennelijk van overtuigd zijn dat vermoeidheid bestaat op een continuüm, met CVS “aan het ernstigere einde van het spectrum”. Veel deskundigen zien CVS niet als een extreem geval van vermoeidheid, maar eerder als een klinische entiteit op zich, hoewel het moeilijk te definiëren valt omdat er geen biomarker is.

In de retrospectieve studie voldeden alle 995 deelnemers aan de criteria die in de NICE-richtlijnen van 2007 stond voor wat daar CVS/ME werd genoemd. Toch voldeed slechts 76% aan de Oxford-gevalsdefinitie, die zes maanden vermoeidheid vereist en geen andere symptomen, en 52% voldeed aan de CDC-criteria, die zes maanden vermoeidheid vereisen plus vier van de acht andere symptomen. Hm. Dat is vreemd. In de NICE-richtlijnen van 2007 stond dat een diagnose van CVS/ME zou kunnen worden overwogen als een patiënt vier maanden lang aan vermoeidheid lijdt in plaats van de zes maanden die vereist zijn volgens de Oxford- en CDC-criteria.

Dus had 24% van de steekproef pas sinds vier tot zes maanden last van vermoeidheid? Dat lijkt moeilijk te geloven, aangezien de deelnemers gemiddeld 6.64 jaar ziek waren. Misschien kloppen de getallen wel via een andere berekening die ik nog niet heb ontcijferd. Hebben peerreviewers die door het Journal of the Royal Society of Medicine werden aangesteld, opmerkingen gegeven of vragen gesteld over deze ogenschijnlijke verschillen? Hebben ze de paper daadwerkelijk onder de loep genomen, in tegenstelling tot een BMJ-reviewer die onlangs in zijn recensie toegaf dat hij niet “verder had gelezen dan het abstract” van de studie in kwestie?

Het is ook niet duidelijk of sommige of vele van deze deelnemers postexertionele malaise hadden, wat als een kernsymptoom van de ziekte wordt beschouwd. Noch de Oxford- noch de CDC-definitie vereisen een versie van dit symptoom – recentere en betere casusdefinities vereisen dit wel. NICE is niet duidelijk over de kwestie, en vermeldt het enerzijds als onderdeel van de vermoeidheid, maar ook als een van meerdere optionele symptomen. Zonder meer details over de proefpersonen in deze paper is het moeilijk te bepalen hoeveel mensen met CVS er in de steekproef zaten, in tegenstelling tot bijvoorbeeld idiopathische chronische vermoeidheid, die wel zou kunnen reageren op een of andere vorm van CGT.

Zoals beschreven in de paper omvatte de CGT-reeks een twintigtal sessies, tweemaal per maand. Patiënten werd gevraagd om verschillende vragenlijsten in te vullen bij het begin van de behandeling, bij de vierde en zevende sessie, bij de laatste sessie en drie maanden na de laatste sessie. De metingen gebruikten dezelfde vragenlijsten voor fysieke functie en vermoeidheid als in de PACE-studie – de SF-36 en de Vermoeidheidsvragenlijst van Chalder. Er werden ook meer algemene meetinstrumenten gebruikt, zoals die over werk en sociale aanpassing, algemene gezondheid en depressie en angst.

Het is belangrijk op te merken dat al deze metingen subjectief zijn. De studie bevat geen objectieve indicatoren – hoe ver mensen kunnen lopen, of ze weer aan het werk gaan, of ze al dan niet afhangen van sociale uitkeringen, enzovoort. En iedereen wist dat ze een interventie kregen die bedoeld was om hen te helpen. In feite werd de deelnemers bij de CGT-aanpak, net als in PACE, verteld dat al bewezen is dat de interventie werkt. Het hoeft dus niet te verbazen dat sommige mensen die zo’n interventie krijgen, kortdurende voordelen melden die ruimschoots voldoen aan wat te verwachten valt van een placeboreactie. Zonder objectieve metingen zitten dergelijke antwoorden op vragenlijsten vol mogelijke bias en zijn ze per definitie onbetrouwbaar.

Slechte resultaten zo flatterend mogelijk voorstellen

Zelfs als ze van hun mooiste kant worden voorgesteld, ondersteunen de belangrijkste resultaten niet het argument dat de behandelingen over het geheel genomen effectief zijn. Voor de fysieke functie steeg de gemiddelde score van 47.6 bij aanvang naar 57.5 bij de laatste sessie en 58.5 bij de opvolging op drie maanden. (De SF-36-schaal loopt van 0 tot 100, waarbij een hogere score staat voor een betere fysieke functie). In de PACE-studie werd een score van 65 of lager beschouwd als geïnvalideerd genoeg voor deelname, dus de deelnemers aan deze studie waren op de laatste sessie en bij opvolging gemiddeld genomen ernstig geïnvalideerd. Ook de gemiddelde CFQ-score bij de laatste sessie en bij de opvolging was matig verbeterd sinds het begin, maar vertegenwoordigde nog steeds een hoge mate van vermoeidheid.

En als we het nog meer in detail bekijken, ziet het er nog slechter uit. Het blijkt dat die uitgelichte resultaten geen rekening hielden met heel wat ontbrekende gegevens. Van de 995 deelnemers aan het onderzoek definiëren de onderzoekers 31% als “verloren-bij-opvolging”, dat wil zeggen dat deze deelnemers geen gegevens hebben verstrekt aan het einde van de behandeling of aan het einde van de opvolgingsevaluatie na drie maanden.

We hebben dus geen enkel idee wat er met bijna een derde van de deelnemers is gebeurd. Misschien werd het voor sommigen erger en werden ze aan bed gekluisterd of wie weet stapten ze zelfs uit het leven. Misschien vonden sommigen de psychotherapie saai. Misschien vonden anderen het tijdverspilling en hadden ze meer zin om wiet te roken of te gaan vissen. Het is geen goed teken dat bijna een derde van je patiënten, om welke reden dan ook, niet de moeite neemt om je te laten weten wat er met hen is gebeurd. Die hoge graad van verlies-bij-opvolging wordt niet vermeld in het abstract, en dat is een verontrustende weglating die misschien onopzettelijk is, of misschien een poging is om informatie weg te moffelen die de gerapporteerde bevindingen in een slecht daglicht stelt.

Interessant is dat de uitvallers in slechtere toestand leken te zijn bij aanvang, dan degenen die tot het einde deelnamen. Ze rapporteerden meer depressie, slechtere werk- en sociale aanpassing en een aanzienlijk slechtere lichamelijke functie – hun gemiddelde score was 7.38 punten lager op de SF-36-schaal. Misschien waren dat vooral de echte ME/cvs-ers en niet mensen met idiopathische vermoeidheid. Voor sommige van deze patiënten leidde de CGT-interventie – waar ze de boodschap kregen dat hun symptomen werden bestendigd door hun “contraproductieve overtuigingen” en irrationeel gedrag – misschien tot een verslechtering van hun gezondheid op zowel lichamelijk als psychologisch vlak.

Deze beperking werd gelukkig wel door de onderzoekers erkend. De slechtere gezondheidstoestand van de uitvallers, zo schrijven ze, “suggereert dat er enige bias in de gegevens kan zijn geslopen, in die zin dat degenen die de behandeling hebben voltooid, misschien geen weerspiegeling zijn van alle patiënten die een CGT-behandeling krijgen voor CVS”. Ondanks deze waarschuwing zetten ze hun bevooroordeelde gegevens toch in om de indruk te wekken dat de interventie effectief is.

En zelfs het uitvalcijfer van 31% is geen echte weerspiegeling van de lage dataverzameling in het onderzoek. Van de 995 deelnemers hebben er slechts 581 de CFQ beantwoord aan het einde van de behandeling en slechts 503 bij opvolging, respectievelijk 58% en 51%. Bij de SF-36 reageerden slechts 441 deelnemers bij de laatste sessie en 404 bij de opvolging, respectievelijk 44% en 41%. (Om onverklaarbare redenen hebben slechts 768 van de 995 deelnemers bij aanvang informatie op de SF-36 verstrekt).

Dat betekent dat de uitval bij de laatste sessie voor de CFQ en de SF-36 respectievelijk 42% en maar liefst 56% bedroeg, en zelfs nog slechter was bij de opvolging. Wanneer minstens de helft van de deelnemers geen gegevens op een belangrijk maatstaf levert, dan moeten de onderzoekers voorzichtig zijn met het interpreteren van de bevindingen van degenen die erin geslaagd zijn om de interventie helemaal af te maken. Als deelnemers met lagere aanvangsscores afhaken, zoals bij de SF-36, zou dat alleen al een hoger gemiddelde moeten geven onder degenen die zijn gebleven. Het is toch niet normaal dat bescheiden verbeterde gemiddelde scores uit een halfvolle steekproef voorgesteld worden als indicator voor het succes van de behandeling, als er weinig of niets bekend is over degenen die zijn uitgevallen?

Beweringen over Causaliteit

In het discussiegedeelte schrijven de onderzoekers het volgende: “De CGT-interventie heeft geleid tot significante verbeteringen bij patiënten hun zelfgerapporteerde vermoeidheid, lichamelijk functioneren en sociale aanpassing.” Als ik mijn eigen moedertaal goed begrijp, dan interpreteer ik die zin als een uitspraak over het oorzakelijke verband, en dat is niet correct. De onderzoekers hebben geen bewijs geleverd dat de CGT-interventie “heeft geleid” tot iets. Ze hebben alleen bewijs geleverd dat hun CGT-interventie chronologisch werd gevolgd door gerapporteerde veranderingen in de gemiddelde resultaten van een steeds kleiner wordende groep deelnemers.

En in hun conclusie staat nog zo’n uitglijder van formaat: “Bij gebrek aan een controlegroep met een andere aandoening, kunnen we moeilijk oorzakelijke verbanden trekken, omdat we er niet zeker van kunnen zijn dat de geziene verbeteringen enkel te wijten zijn aan CGT en niet aan andere externe variabelen.” Deze uitspraak is tegenstrijdig. Stellen dat de verbeteringen misschien “niet enkel te wijten zijn aan CGT” is hetzelfde als stellen dat ze ten minste gedeeltelijk te wijten zijn aan CGT, maar dat ook andere factoren kunnen hebben bijgedragen. In één en dezelfde zin trekken de onderzoekers een causale conclusie, terwijl ze zeggen dat ze net dát niet kunnen doen.

Laat één ding duidelijk zijn: gezien het onderzoeksontwerp is er geen enkel bewijs dat de CGT-interventie een rol heeft gespeeld. Misschien deed het iets, misschien niet. Het is jammer, maar niet verrassend, dat Sir Simon, Professor Chalder en de door de Royal Society of Medicine geselecteerde peerreviewers geen aandacht schonken of belang hechtten aan deze impactvolle causaliteitsfouten – hiermee zetten ze een aloude traditie voort van slordige argumentatie en ondermaatse peerreview op dit wetenschapsdomein.

Oh, en nog een laatste punt: in het abstract benadrukken de onderzoekers dat 90% van de patiënten “tevreden was met hun behandeling”. Vermoedelijk hield dat indrukwekkende cijfer geen rekening met de antwoorden van de 31% die verloren waren bij opvolging. Houdt het wel rekening met de vele anderen die bij de laatste sessie en de opvolging deelnamen, maar geen belangrijke informatie verstrekten op andere vragenlijsten? Wie zal het zeggen? Voor zover ik kan zien, vermeldt het onderzoek niet hoeveel deelnemers deze vraag beantwoord hebben. Het verbaast me niks dat dit subjectieve, maar misleidend voorgestelde cijfer zijn weg vond naar de conclusies van het abstract.

Mijn collega’s van het departement epidemiologie aan Berkeley gebruiken intussen de PACE-studie in hun lessen als voorbeeld van hoe je beter geen onderzoek doet. Als hun studenten werk zouden inleveren dat zo gebrekkig is als dit nieuwe Wessely-Chalder-project, dan zouden ze onmiddellijk een onvoldoende halen.