David Tuller, DrPH, Virology Blog, 16 mei 2020

UPDATE 16 MEI: Zoals ik vermeldde, werd in de studieregistratie “herstel” niet vermeld als uitkomst. De verschillende studiedocumenten bevatten echter wél een aantal verschillende uitspraken over fysiek activiteitsniveau, vermoeidheid en herstel als eindpunten. In één van de vier relevante documenten, naast de studieregistratie, stond de definitie van herstel die gebruikt werd in de rapportering van de studieresultaten – in drie ervan stond die niet, en ook niet in de studieregistratie.

Ik zal meer details geven eens ik daar de tijd voor vind. Diegenen die daar niet op kunnen wachten, kunnen de documenten hier raadplegen [in het Noors, n.v.d.r.].

**********

door David Tuller, DrPH

Na het debacle met het Lightning Process, zou je denken dat BMJ nu wel zijn les geleerd zou hebben – nl. dat redacteurs en peerreviewers ook het achtergrondmateriaal onder de loep moeten nemen voor de studies die ze willen publiceren. Dat is de beste manier om te voorkomen dat er selectief over uitkomsten wordt gerapporteerd en om er zeker van te zijn dat de bevindingen gerapporteerd werden zoals beschreven in de studieregistratie en/of het studieprotocol.

Nog even samenvatten: in 2017 publiceerde Archives of Disease in Childhood, een BMJ-vakblad, een studie over het Lightning Process als pediatrische behandeling voor wat de onderzoekers chronisch vermoeidheidssyndroom noemden. De onderzoekers van Bristol University rekruteerden meer dan de helft van de deelnemers voordat de studie geregistreerd was, en wisselden uitkomstmaten halfweg om. Vervolgens repten ze in de gepubliceerde paper met geen woord over deze saillante details. Hoewel deze handelingen alle schijn hadden van wetenschappelijk wangedrag en ze haaks stonden op de strikte richtlijnen van BMJ zelf, liet het vakblad de gerapporteerde bevindingen vorig jaar toch onveranderd staan – mits een 3000 woorden tellende correctie.

Nu heeft BMJ wéér een paper gepubliceerd die beduidend afwijkt van de metingen die in de studiedocumentatie vooropgesteld werden – in dit geval de studieregistratie. De studie, die vorige maand werd gepubliceerd door BMJ Paediatrics Open, heet “Cognitieve gedragstherapie in combinatie met muziektherapie voor chronische vermoeidheid na infectie met Eppstein-barrvirus bij adolescenten: een haalbaarheidsstudie.”

Van maart 2015 tot november 2016 rekruteerden de onderzoekers deelnemers in de drie [Noorse] provincies Oslo, Akershus en Buskerud. De senior auteur, Vegard Bruun Wyller, is professor aan het Instituut voor Klinische Geneeskunde van de Universiteit van Oslo, en hij is aanhanger van het CGT/GET-paradigma (cognitieve gedragstherapie/graduele oefentherapie).

Dit is de korte versie van het verhaal. Scores voor de vooraf vastgestelde primaire uitkomst – gemiddelde stappen per dag op drie maanden – daalden in zowel de interventiegroep als de vergelijkingsgroep. En dat niet alleen: deelnemers in de interventiegroep deden het slechter, met een gemiddelde daling van meer dan 1000 stappen per dag. Bovendien werden twee uitkomsten, die gerapporteerd werden als positieve “tendensen”, nl. postexertionele malaise en herstel, niet eens vermeld in de studieregistratie. Hoe ze überhaupt in de uitkomsten terecht kwamen, wordt niet verklaard – wat de geloofwaardigheid en de integriteit van het onderzoek ondermijnt.

(Niets van wat ik hier zeg, is een kritiek richting muziektherapie als behandelingsmethode. Het menselijk lichaam reageert op geluidspatronen op allerlei manieren die we nog niet goed begrijpen. Het probleem ligt hier bij de vraag of het onderzoek en de gerapporteerde resultaten degelijk zijn.)

**********

Is CGT plus muziek beter dan CGT alleen?

Het hoofddoel van een haalbaarheidsstudie is om wat verkennende data te verzamelen en te beslissen of het nut heeft om een volledige studie uit te voeren, maakt niet uit waarover die gaat. (Natuurlijk mogen we hierbij niet vergeten dat de studie over het Lightning Process begon als een haalbaarheidsstudie.) Haalbaarheidsstudies zijn per definitie beperkt in omvang. Ze hebben niet als bedoeling om doorslaggevende en bruikbare gegevens te leveren over interventies. Vreemd genoeg lijkt men de Noorse studie in de registratie niet te definiëren als een haalbaarheidsstudie. Misschien beslisten de onderzoekers op een gegeven moment om het roer om te gooien; in dat geval zou ik graag willen weten wat de reden daarvoor was.

Voor zover ik het goed begrijp, was het uitgangspunt van de studie iets in deze trant: CGT is aangetoond als doeltreffende behandeling voor cv en cvs, maar is slechts matig doeltreffend, en multidisciplinaire benaderingen werken goed, dus waarom zouden we er geen extraatje zoals muziek aan toevoegen, om te zien of de doeltreffendheid daardoor vergroot? Dit uitgangspunt is natuurlijk fout. De onderzoekers citeren zowel de PACE-studie als de Nederlandse FITNET-studie bij de bewering dat CGT doeltreffend is. Maar ze vermelden daar niet bij dat van deze studies is aangetoond dat ze ernstige fouten bevatten die hun beweringen onderuit halen. (Mijn analyse van PACE staat hier en die van FITNET hier.) Verder vermelden ze ook niet dat de CGT/GET-aanpak zijn status als onbetwiste internationale zorgstandaard is verloren – wat blijkt uit het feit dat de Amerikaanse Centers for Disease Control and Prevention het sinds 2017 niet meer aanraden.

Daarnaast lijken de onderzoekers zelf niet helemaal zeker te weten of ze adolescenten bestuderen met chronische vermoeidheid, of adolescenten met chronisch vermoeidheidssyndroom. De studieregistratie omschreef de interventie als “mentale training voor cvs na EBV-infectie bij adolescenten”. De titel van de gepubliceerde paper verwijst naar chronische vermoeidheid. In de paper merken de onderzoekers op dat mensen met symptomen bovenop vermoeidheid mogelijk in aanmerking komen voor de gevalsdefinities voor cvs, maar in de analyse gooien ze iedereen op één hoop.

Ze lijken te denken dat beide aandoeningen min of meer op hetzelfde neerkomen, buiten dan die extra symptomen. Of dat ze bestaan op een soort van spectrum. Of misschien denken ze dat helemaal niet. Ik kon het er niet echt uit opmaken. En om het nog verwarrender te maken, deden de deelnemers bij het begin van de studie gemiddeld ongeveer 8000 stappen of meer, terwijl de paper vroeger onderzoek aanhaalde waarin adolescenten met cvs veel minder gemiddelde stappen per dag haalden – ongeveer 4500. Met andere woorden: de chronisch vermoeide adolescenten in deze steekproef lijken fysiek veel steviger te staan dan je zou verwachten van iemand met chronisch vermoeidheidssyndroom.

De interventie bestond uit tien sessies van een “mentaal trainingsprogramma dat elementen van muziektherapie verbindt met elementen uit CGT”, plus huiswerkopdrachten. De aanwezigen op de eerste sessie waren de adolescent zelf, de ouders of voogden, beide therapeuten en een onderzoeker. Daarbovenop “werden ook persoonlijke ervaringen gedeeld door een jonge, vrijwillige patiënt die zelf hersteld was van cvs”. Interessant. In een klinische studie is het eigenlijk niet gepast dat deelnemers te horen krijgen dat de behandeling die ze gaan krijgen, zal leiden tot herstel, aangezien dat de resultaten kan beïnvloeden – vooral als het gaat om subjectieve metingen.

Of de behandeling al dan niet succesvol was, leek men vooral bij de patiënt te leggen. De studie merkte op: “het behandelingsprogramma gaat ervan uit dat patiënten ook tussen de sessies door actief deelnemen, en de therapeuten probeerden duidelijk te maken dat de eigen inspanning heel belangrijk was”. Het is wel logisch dat men zegt dat patiënten die beter willen worden, ook dingen moeten ondernemen om beter te worden. Maar deze kadering geeft de onderzoekers wel een makkelijke uitweg om de deelnemers de schuld te geven als de behandeling niet de gehoopte effecten geeft.

Van de 91 in aanmerking komende studiekandidaten die zes maanden na acute Epstein-Barrinfectie nog vermoeid bleven, gingen er slechts 43 in op de uitnodiging tot deelname. Van hen werden er 21 gerandomiseerd in de behandelingsgroep en 22 van hen werden ingedeeld in de groep die gewoonlijke zorg kreeg (Treament As Usual of TAU) – wat dus eigenlijk neerkomt op helemaal geen behandeling. De interventiegroep kende een enorme uitval, met zes mensen die waren weggevallen tegen de evaluatie op drie maanden, in vergelijking met slechts één uitvaller in de TAU-groep. Volgens de onderzoekers waren de adolescenten die niet wilden deelnemen aan het onderzoek of die uitvielen, bezorgd dat ze te veel school zouden missen.

Dat de adolescenten de onderzoekers dat antwoord gaven, betekent natuurlijk nog niks. Veel adolescenten zullen het zeker makkelijker vinden om onderzoekers te vertellen dat ze zich zorgen maken dat ze te veel school gaan missen dan te zeggen dat ze de interventie maar niks vinden. In elk geval bedankte de helft voor het aanbod en viel bijna een derde uit in de eerste fase. Je kan je dan de vraag stellen hoe acceptabel de interventie is en hoe haalbaar de studie zou zijn. (Anderzijds namen diegenen die niet uitvielen, trouw deel aan hun geplande therapiesessies, en dat is dan weer een gunstig teken.)

**********

IJverige overinterpretatie van de data

Ondanks het feit dat haalbaarheidsstudies verkennend van opzet zijn, zijn ze toch ook onderhevig aan de wetenschappelijke basisnormen. En dat betekent dat de uitkomsten gepresenteerd moeten worden zoals beloofd in de studiedocumenten – tenzij onderzoekers heel goeie redenen hebben om daarvan af te wijken. Om selectieve rapportering van resultaten te voorkomen, moet dit principe absoluut geëerd worden – spijtig genoeg wordt dit methodologisch principe maar al te vaak geschonden.

In onderliggend geval vermeldde de studieregistratie slechts één primaire uitkomst: het gemiddeld aantal stappen per dag op 12 weken, geëvalueerd via een stappenteller die gedurende een week werd gedragen. Daarna maakten de onderzoekers een lijst van 41 secundaire uitkomsten, die geëvalueerd zouden worden op 12 en 64 weken, waaronder “symptomen (vermoeidheid, pijn, slapeloosheid), cognitieve functie (uitvoerende functies) en markers van ziektemechanisme (autonome, endocriene en immuunresponsen).” Gemiddeld aantal stappen per dag op 64 weken was ook een secundaire maatstaf. (In de paper werden deze tijdstippen uitgedrukt in maanden en niet in weken.)

Aangezien de onderzoekers ervan uitgingen dat de interventie het activiteitsniveau zou opdrijven, waren de resultaten op de primaire uitkomst teleurstellend. Op drie maanden vertoonden beide groepen meetbare verlagingen van hun activiteitsniveau – en de score voor de deelnemers in de interventiegroep lag zelfs lager dan voor diegenen in de TAU-groep. Met andere woorden: de behandeling leidde niet enkel niet tot een hoger activiteitsniveau, het leidde zelfs tot slechtere resultaten.

Dit is wat het abstract van de studie zegt over de bevindingen: “Eindpunten omvatten fysieke activiteit (stappen/dag), symptoomscores, mate van herstel… In behandelingsintentieanalyses waren aantal stappen/dag meestal lager (verschil=−1158, 95% CI −2642 naar 325), terwijl postexertionele malaise meestal verbeterde (verschil=−0.4, 95% CI −0.9 naar 0.1) in de interventiegroep op 3 maanden. Bij opvolging op 15 maanden was er een trend richting hogere herstelgraad in de interventiegroep (62% vs 37%)”

En dit is de conclusie: “Een interventiestudie van CGT gecombineerd met muziektherapie voor postinfectieuze cv is haalbaar, en lijkt aanvaardbaar voor de deelnemers. De tendensen richting positieve effecten op symptomen en herstel van de patiënt zouden een volledige klinische studie kunnen rechtvaardigen.”

Dit is een ijverige overinterpretatie, ook al gebruiken ze voorzichtige bewoordingen (“tendensen richting”, “zouden kunnen rechtvaardigen”). In eender welke studie is de vooraf vastgestelde primaire uitkomst het belangrijkste cijfer en dit wordt ook zo aangeduid door eerlijke en transparante onderzoekers. In dit geval was de sterkte van de primaire uitkomst dat het ging om een objectieve meting, en geen subjectieve evaluatie die erg onderhevig is aan allerlei soorten vooringenomenheid. Bij het vergelijken van de interventie met TAU, vond de studie geen voordelen voor de primaire uitkomst. Bovendien namen de groepen minder stappen op drie maanden dan aan het begin, en de groep die de interventie kreeg, deed het slechter.

Dit soort jammerlijke bevindingen kunnen niet weggemoffeld worden. En toch lijkt het abstract geschreven alsof men de indruk wil scheppen dat de maatstaf voor fysieke activiteit één van vele, evenwaardige eindpunten is. In de conclusie van het abstract wordt niet eens vermeld dat de primaire uitkomst zo’n jammerlijk resultaat gaf. Die informatie weglaten is onaanvaardbaar. (In de volledige tekst vermelden de onderzoekers op gepaste wijze dat het gemiddelde aantal stappen per dag de primaire uitkomst was, maar ze negeren de gevolgen van dat vervelende detail.)

Bovendien maakte de studieregistratie geen melding van PEM en herstel, in de lijst van 41 secundaire uitkomsten. Deze twee punten werden blijkbaar achteraf aangewezen als uitkomsten – d.w.z. op een bepaald moment na de studieregistratie, maar voordat de finale kladversie van de paper werd geschreven. De paper geeft geen reden waarom deze nieuwe uitkomstmaten er opeens bij worden genomen. Maar we moeten wel opmerken dat het abstract zijn argumentatie vooral baseert op de “positieve” mogelijkheden van de interventie op de resultaten voor PEM en herstel, terwijl het de teleurstellende resultaten negeert voor de vooraf aangeduide primaire uitkomst.

Hm. Dat is niet hoe rapportage van wetenschappelijk onderzoek normaal gezien gebeurt. Zelfs eerstejaarsstudenten epidemiologie aan Berkeley weten dat ze zulke amateuristische trucjes niet moeten uithalen.

********

PEM en herstel nader bekeken

Laat ons nu even kijken naar de uitkomsten waarover de onderzoekers beweren dat er een “tendens” is richting positieve effecten – PEM en herstel.

Dit is wat ze schreven over hun opvolgingsmethode van PEM: “Het symptoom postexertionele malaise, vaak beschouwd als meest kenmerkende symptoom van cvs, werd in kaart gebracht via één enkel item (‘Hoe vaak ervaar je meer vermoeidheid de dag na een inspanning?’).” Die vraag alleen is een weinig precieze manier om PEM te meten. Maar in ieder geval rapporteerden beide groepen een vermindering van dit symptoom, met minimale verschillen tussen de twee.

Dit verbaast me niks. Deelnemers deden minder stappen, dus het is logisch dat ze minder PEM rapporteerden. Aangezien de verwachting was dat de interventie het activiteitsniveau zou doen stijgen, lijkt het twijfelachtig en onterecht om verminderde PEM in deze context te interpreteren als een indicatie van mogelijk succes, in plaats van als weergave van een verminderd activiteitsniveau.

In de paper werd herstel gedefinieerd als een score van drie of minder op de Vermoeidheidsschaal van Chalder, waarbij lagere cijfers duiden op minder vermoeidheid. Een score van vier of hoger op die schaal was de drempel voor deelname aan de studie. Aangezien herstel als uitkomst niet werd meegenomen in de studieregistratie, had men de resultaten normaal gezien moeten voorstellen als een reductie in gerapporteerde vermoeidheid, zonder te verwijzen naar herstel. Maar natuurlijk klinkt “herstel” beter dan “verminderde vermoeidheid”.

De onderzoekers zouden het argument kunnen bovenhalen dat de interventie bedoeld was om “chronische vermoeidheid” te verlichten, want dan is het aanvaardbaar om een reductie tot drie op de vermoeidheidsschaal te beschouwen als een teken van herstel. In dat geval hadden ze dat punt moeten aanhalen toen ze hun uitkomsten vooraf vaststelden – en niet op één of ander niet-gespecificeerd later moment, toen de keuze mogelijk beïnvloed werd door de lopende ontwikkelingen in de studie.

Bovendien is het belangrijk om op te merken dat de statistieken die verschaft werden voor herstel – 62% in de interventiegroep vs. 37% in de TAU-groep – uit een analyse volgens protocol komen, niet de analyses volgens behandelingsintentie, die verschaft werden voor de andere uitkomsten. Dat wil zeggen dat de onderzoekers simpelweg het aantal mensen die de hersteldrempel gehaald hadden, gedeeld hebben door het aantal deelnemers die nog in die studiearm zaten, waarbij ze de uitvallers over het hoofd hebben gezien. Een analyse volgens behandelingsintentie daarentegen, houdt rekening met het feit dat er in elke arm mensen zijn uitgevallen, en dat hun uitkomsten onbekend zijn.

Analyses volgens behandelingsintentie worden over het algemeen beschouwd als een voorzichtigere en betere weerspiegeling van de realiteit. De analyse volgens behandelingsintentie van de scores voor de vermoeidheidsschaal tonen erg weinig verschil tussen de interventiegroep en de TAU-groep. Diezelfde scores omvormen tot een hersteluitkomst, en dan een analyse volgens protocol verschaffen, is een slim trucje om de bevindingen op te smukken. Ik denk dat we wel mogen veronderstellen dat de beslissing om deze herstelanalyse te maken, genomen werd nadat de studie al was geregistreerd. (Bovendien lijkt er in Tabel #4, waarin ook de hersteldata staan, informatie te kort over één persoon in elk van de studiearmen; de totale som klopt niet.)

En dan nog iets… ik kan niet begrijpen dat men een definitie van herstel gebruikt die de primaire uitkomst van een studie negeert. Deze studie documenteerde dat mensen minder stappen per dag deden dan voordien, niet meer – wat het argument voor de doeltreffendheid van de interventie onderuit haalt. Als mensen minder stappen doen, dan hoeft het niet te verbazen dat ze minder vermoeidheid rapporteren – of minder PEM. Het is toch wel wat verwaand om te beweren dat er een “tendens” is richting herstel, als patiënten die de interventie kregen, slechter presteerden op een vooraf vastgestelde – en objectief gemeten – primaire uitkomst.

Samengevat schiet deze gepubliceerde paper op meerdere vlakken tekort. BMJ Paediatrics Open had hem niet mogen aanvaarden zonder erop aan te dringen dat de resultaten gerapporteerd zouden worden in overeenstemming met de in de studieregistratie vastgestelde maatstaven. BMJ beweert dat het streng optreedt tegen selectieve uitkomstrapportering, en toch blijven de vakbladen van BMJ maar papers publiceren die zich schuldig maken aan deze jammerlijke praktijken.

Deze post is al heel lang, en ik heb zelfs nog niks gezegd over de peerreviews en het behandelingshandboek van de studie, wat ook interessant was om lezen. Hopelijk heb ik binnenkort de tijd om daar verder op in te gaan.

https://www.virology.ws/2020/05/18/trial-by-error-more-strangeness-with-that-norwegian-cbt-music-therapy-study/

Trial By Error: meer over die rare Noorse CGT/muziektherapie-studie

David Tuller, DrPH, Virology Blog, 18 mei 2020

In een goed ontworpen klinische studie moeten het protocol, de registratie en het statistisch analyseplan mekaar aanvullen en niet mekaar tegenspreken. Onderzoekers spenderen zeer veel tijd aan het ontwikkelen van protocols voor klinische studies. Het zijn de routekaarten voor het project, en ze bevatten (hopelijk toch) goed uitgedokterde en duidelijk gedefinieerde primaire en secundaire uitkomsten. Deze documenten moeten goedgekeurd worden door toezichts- en ethische commissies en er moeten vaak meerdere versies geschreven worden voordat ze uiteindelijk worden goedgekeurd, en gefinancierd.

Voordat patiënten worden gerekruteerd, moeten onderzoekers hun klinische studie aanmelden bij een erkend register. Deze studieregistratie moet dezelfde primaire en secundaire uitkomsten bevatten als het protocol. Wanneer de onderzoekers een statistisch analyseplan ontwerpen, zou dat meer in detail moeten gaan over hoe de data geanalyseerd moeten worden voor de primaire en secundaire uitkomsten, die opgelijst staan in zowel het protocol als de studieregistratie.

Het spreekt voor zich dat het gepubliceerde rapport van eender welke klinische studie zijn eigen vooropgestelde primaire en secundaire uitkomsten moet aanhouden, zoals gesteld in het protocol, de registratie en het statistisch analyseplan. Tenzij de onderzoekers van bevoegde toezichtscommissies de toestemming hebben gekregen om noodzakelijke wijzigingen aan te brengen, nadat ze daar afdoende redenen voor hebben gegeven. En als zoiets voorvalt, dan moeten zulke wijzigingen vermeld worden in het gepubliceerde verslag.

Deze manier van handelen is cruciaal om zogenaamde selectieve uitkomstrapportering te vermijden, nl. dat onderzoekers verschillende opties hebben en daaruit enkel de allermooiste resultaten kunnen pikken. Alle grote medische vakbladen zeggen dat ze zweren bij deze principes.

**********

Op zaterdag schreef ik over een studie die onlangs werd gepubliceerd door BMJ Paediatrics Open, met als titel “Cognitieve gedragstherapie in combinatie met muziektherapie voor chronisch vermoeidheidssyndroom na infectie met Epstein-Barrvirus bij adolescenten: een haalbaarheidsstudie”. Nadat het vakblad de studie had gepost, kwam er een levendige discussie op gang op het forum Science for ME. Enkele van de zeer pientere mensen daar duidden een paar bedenkelijke punten aan, waaronder enkele verschillen tussen de studieregistratie en de gerapporteerde uitkomsten.

De studie was onderdeel van een groter Noors onderzoeksproject met als titel Chronische Vermoeidheid na Acute Infectie met Epstein-Barrvirus bij Adolescenten, afgekort CEBA. Het belangrijkste onderdeel ervan was een prospectieve studie die 200 adolescenten volgde, ter evaluatie van factoren omtrent de aanhoudende vermoeidheid die kan optreden na acute virale ziekte. Het tweede was een gerandomiseerde studie ter evaluatie van een interventie die cognitieve gedragstherapie combineert met muziektherapie, voor die adolescenten die aanhoudende vermoeidheid hadden.

In mijn post merkte ik op dat de studieregistratie niet sprak over herstel en postexertionele malaise als uitkomst – ondanks het feit dat de onderzoekers beslisten om deze maatstaven in de verf te zetten toen ze zeiden dat verder onderzoek wellicht nodig was. Ik merkte ook op dat de auteurs in hun conclusies de vreselijk slechte bevindingen op de primaire uitkomst probeerden weg te moffelen, of dat ze tenminste probeerden om de gevolgen van die bevindingen te negeren.

Ik heb sindsdien het protocol en het statistisch analyseplan bestudeerd, dat ik vond op deze pagina van Universitair Ziekenhuis Akershus, waaraan de hoofdauteur en de senior auteur verbonden zijn. Op de pagina staat ook nog een ander protocol en statistisch analyseplan, voor de grotere prospectieve studie.

Uit geen van deze studiedocumenten valt af te leiden dat het klinische studieaspect van dit onderzoek opgesteld was als haalbaarheidsstudie. De vooropgestelde studie-uitkomsten bevatten niets wat te maken heeft met haalbaarheid. In plaats daarvan lijkt de studie gelanceerd te zijn geweest als een kleine, maar volledige gerandomiseerde studie, wellicht met het idee dat de resultaten gebruikt zouden kunnen worden in de klinische praktijk. Spijtig genoeg haalde men bij de rekrutering niet de gewenste cijfers en ook de eindresultaten vielen tegen. Aangezien deze gerandomiseerde studie zo goed als mislukt was, ziet het ernaar uit dat de onderzoekers het roer dan maar hebben omgegooid.

Hm. Zoals ik documenteerde over de studie over het Lightning Process, gepubliceerd in een ander BMJ-vakblad in 2017, veranderde het ethisch en methodologisch krakkemikkige onderzoeksteam van University of Bristol zijn haalbaarheidsstudie in een volledige studie, en overtrad daarmee allerlei soorten regels. In dit geval lijken de onderzoekers het omgekeerde te hebben gedaan. Ze begonnen met een echte gerandomiseerde studie, maar hebben die gedegradeerd tot een haalbaarheidsstudie. Interessante manier van werken!

**********

Laat ons nu even een kijkje nemen in de uitspraken over de eindpunten. De documenten die gepost staan op de website, in deze volgorde: “onderzoeksprotocol”, “onderzoeksprotocol – verwerking”, “statistisch analyseplan” en “statistisch analyseplan deel 2”. Het tweede protocol en het tweede statistische analyseplan horen bij de haalbaarheidsstu- oeps!- ik bedoel natuurlijk de gerandomiseerde studie.

“Protocol – verwerking” bevat deze uitspraak: “Het primaire eindpunt in onderliggende studie is patiënten hun functionele capaciteit, geoperationaliseerd als gemiddeld aantal stappen/dag tijdens een periode van zeven dagen na 12 weken van mentale interventie.” Het vermeldt ook “herstel”, en merkt op dat “wij herstel definiëren als een gedichotomiseerde Chaldervermoeidheidsscore van <4; vermoeidheidsscore is een secundair eindpunt in onderliggende studie”. Het protocol zegt niets over postexertionele malaise als uitkomst.

“Statistisch analyseplan deel 2” meldt dezelfde uitkomst als enige primaire uitkomst. Maar in tegenstelling tot het protocol, vermeldt het plan niets over herstel. Dit is verbluffend, want statistische analyseplannen moeten meer duidelijkheid scheppen over de methodes die gebruikt moeten worden bij het evalueren van de data. Gezien het feit dat men noch in de studieregistratie, noch in het statistisch analyseplan spreekt over herstel, is het onduidelijk wat ze met die term bedoelen. Het statistisch analyseplan zegt ook niks over postexertionele malaise als uitkomst.

Door de tegenstrijdige informatie over uitkomsten in de belangrijkste documenten, en dan vooral door de manier waarop de uitkomsten worden gepresenteerd in de gepubliceerde studie, heb ik niet veel vertrouwen in de integriteit van het onderzoek. En zoals ik al opmerkte in mijn vorige post, lijkt het alsof de onderzoekers hun uiterste best hebben gedaan om het slechte nieuws over de onbetwistbare primaire uitkomst te verdoezelen.

**********

Dus laten we nog even samenvatten: een groep onderzoekers lanceert een gerandomiseerde studie. De rekrutering valt tegen en de interventiearm kent heel wat uitval, wat de analyse van de data ingewikkeld maakt. Bovendien zijn de resultaten voor de primaire interventie rampzalig. De onderzoekers bagatelliseren deze vervelende resultaten en focussen op twee andere eindpunten, die geen van beiden waren opgenomen in de studieregistratie of het statistisch analyseplan (alhoewel één ervan heel even opdook in het protocol). De onderzoekers publiceerden vervolgens hun kleine gerandomiseerde studie als een haalbaarheidsstudie voor een nieuwe en grotere gerandomiseerde studie, zonder in de paper te vermelden dat de studie niet als haalbaarheidsstudie was begonnen.

Ik heb een flauw vermoeden dat dit niet helemaal door de beugel kan. Deze onderzoekers – en de redacteurs bij BMJ Paediatrics Open – hebben nog heel wat uit te leggen.

Wordt vervolgd…

https://www.virology.ws/2020/05/20/trial-by-error-norways-double-whammy-of-fuzzy-science/

Trial By Error: Noorwegen krijgt dubbele dosis wazige wetenschap

David Tuller, DrPH, Virology Blog, 20 mei 2020

Noorwegen wordt op dit moment geplaagd door een dubbele dosis slechte wetenschap. Aan de ene kant is er een groep van onderzoekers die blijkbaar niet konden beslissen of hun pas gepubliceerd onderzoek over CGT en muziektherapie nu een volledige gerandomiseerde studie was, of een haalbaarheidsstudie. (Meer daarover hieronder.) Aan de andere kant hebben we Dagbladet, een veel gelezen roddelblad dat reclame maakt voor een nieuwe studie over het Lightning Process – met dezelfde senior auteur als het onderzoek over muziektherapie. Dagbladet heeft tot hier toe twee verhalen gepubliceerd over de kwestie (hier en hier), en er is misschien nog meer op komst.

De verhalen in Dagbladet zitten propvol onjuistheden en weglatingen over ME, over patiënten, over het Lightning Process, en over de studie over het Lightning Process uit 2017 – te veel om hier allemaal te bespreken. Het eerste artikel vermeldt mij en mijn kritiek op het onderzoek over deze zweverige interventie. Naar mij wordt verwezen als journalist en blogger. Ik heb echt niets tegen die benamingen. Maar net als in vorige artikels, worden mijn academische functies niet vermeld. Ook zegt men niks over het feit dat mijn journalistiek onderzoek over slechte wetenschap – zoals de studie over CGT en muziektherapie – onderdeel is van mijn functiebeschrijving.

Het verhaal vermeldt dat de Noorse ME-Vereniging mijn crowdfundingsactie heeft ondersteund. Wat men daarmee wil insinueren, is dat ik onderzoek over het Lightning Process enkel onderuit haal omwille van die financiële steun – en niet omdat het pure rotzooi is. Dagbladet heeft dus blijkbaar meer bedenkingen bij mijn financiering dan bij de gedocumenteerde ethische en methodologische overtredingen in de studie uit 2017. De reporter heeft daarentegen schijnbaar geen enkel probleem met het feit dat een prominente aanbieder van Lightning Process nauw betrokken is bij de voorgestelde Noorse studie. Zo iemand heeft er toch overduidelijk allerlei financiële en professionele belangen bij om een zweem van wetenschappelijke onderbouwing te vinden voor deze mengelmoes aan neurologuïstische programmering, osteopathie en levenscoaching.

Voor zover ik weet, heeft de reporter geen enkele poging ondernomen om met mij in contact te komen. Ik ben heel makkelijk te vinden. Mijn academische functie en mijn professionele titel aan UC Berkeley zijn makkelijk vindbaar, als je het even online opzoekt. Ik ben van plan om vandaag een brief naar de redacteur te sturen.

**********

Op maandag schreef ik over het protocol en het statistisch analyseplan voor dat dinges met CGT en muziektherapie. Ook de peerreviews zijn interessant leesvoer en scheppen wat meer duidelijkheid over hoe het project afgleed van volledige gerandomiseerde studie naar haalbaarheidsstudie. BMJ Paediatrics Open voert een open reviewbeleid, wat wil zeggen dat de peerreviewers niet anoniem zijn. De auteurs kunnen hun namen zien, en eender wie de reviews wil bekijken, kan dat ook. De reviews hangen als bijlage aan het artikel op de website van het vakblad. Dit soort systeem heeft heel wat voordelen wat betreft transparantie en controleerbaarheid.

Maar het kan ook leiden tot gênante situaties wanneer een reviewer, zoals één van de twee die dit manuscript geëvalueerd hebben, het volgende schrijft: “Ik heb niet verder gelezen dan het abstract.” BMJ gaat prat op de striktheid van zijn peerreviewproces. Dat soort fierheid valt moeilijk te rijmen met het feit dat BMJ Paediatrics Open blijkbaar niet aan de peerreviewer heeft gevraagd om dieper te gaan dan enkel het abstract. Als ze dat wel hadden gedaan en hij niet verder wou gaan, dan hadden ze het manuscript nog kunnen doorsturen naar iemand anders. (Ik veronderstel dat ze dat niet hebben gedaan, omdat er niets in de documentatie doet vermoeden dat zulke opvolging werd uitgevoerd.)

Gezien hij er eerlijk over was, treft de reviewer geen schuld, alhoewel hij misschien beter gewoon had bedankt voor de review. De verantwoordelijkheid lag bij BMJ Paediatrics Open om te beslissen of zo’n beperkte controle zou voldoen aan de zogenaamd strenge normen voor kwaliteit en integriteit van BMJ. Ofwel hebben de redacteurs de review niet nauwkeurig gelezen, ofwel besloten ze dat een review van niet meer dan het abstract volstond.

Wat de beweegredenen ook geweest zijn, andere toeschouwers zien dit wellicht ook als een verontrustende dwaling in redactioneel toezicht, en ze vinden wellicht ook dat BMJ hier zijn verantwoordelijkheid niet is nagekomen tegenover zijn lezers, én tegenover de medische literatuur. Dat dit soort fouten gebeuren, doet vermoeden dat minachting voor of onverschilligheid tegenover degelijke kwaliteitscontrole (wat overduidelijk werd door hun rampzalige aanpak van de studie over het Lightning Process uit 2017) misschien wel ingebed zit in het systeem, en dat het zich niet beperkt tot één enkel vakblad of één enkele redacteur van BMJ.

In de kladversie die werd ingediend voor review bij het vakblad, kondigde de titel de studie niet aan als “haalbaarheidsstudie”, maar als “een verkennende gerandomiseerde studie”. (Hadden ze degelijke resultaten verkregen, dan hadden ze misschien dat woord “verkennende” wel laten vallen.) De eerste reviewer was vol lof over meerdere aspecten van de studie, maar merkte ook het volgende op:

“Uit de doelstellingen van de studie en de manier waarop de studie is omschreven, wordt me niet helemaal duidelijk of dit nu bedoeld was als een haalbaarheidsstudie, nl. om te kijken naar de haalbaarheid (is dit uitvoerbaar?), aanvaardbaarheid (hoe ervaren patiënten het?) en om een eerste idee te geven van de mogelijke effectgrootte, ter staving van een toekomstige grotere studie, óf dat dit bedoeld was als een volledige studie. Ik denk dat dit algemeen duidelijk moet worden gemaakt aan de lezer, en dat interpretaties/conclusies in overeenstemming moeten zijn met de vooropgestelde doelstellingen.”

In reactie schreven de onderzoekers het volgende: “Dank u. Wij zijn het hiermee eens – deze studie moet beschouwd worden als een haalbaarheidsstudie, en het manuscript is dienovereenkomstig geherformuleerd.”

Een opmerkzame redacteur zou gemerkt hebben dat dit antwoord een non-antwoord is. De reviewer vroeg niet hoe de studie “beschouwd moet worden” nu ze af is. De reviewer vroeg of de studie bij aanvang een studie met volledige statistische kracht was, of een haalbaarheidsstudie. Zij wilde dat de auteurs dat punt zouden ophelderen, niet dat ze er omheen zouden draaien. De interpretatie en de conclusies, zo merkte ze op, moesten “in overeenstemming zijn met de vooropgestelde doelstellingen” – niet in overeenstemming met hoe de auteurs die doelstellingen achteraf herdefinieerden.

En dit is hoe de gepubliceerde paper de doelstelling omschrijft: “De doelstelling van deze studie was om de haalbaarheid te onderzoeken van dit mentale trainingsprogramma bij adolescenten die lijden aan cv na acute EBV-infectie, en om preliminaire effectinschattingen te maken, als basis voor een volledige studie in de toekomst.”

Dit is aantoonbaar fout. Zoals ik in mijn eerdere post opmerkte, werd deze studie nergens in het protocol, en ook nergens in andere documenten een haalbaarheidsstudie genoemd. Ondanks het feit dat de reviewer dit vlakaf vraagt, maakte de gereviseerde versie niet duidelijk of dit bedoeld was als volledige studie. In plaats daarvan herschreven de auteurs de paper – en de geschiedenis van het onderzoek – alsof ze vanaf dag één de bedoeling hadden gehad om een haalbaarheidsstudie uit te voeren.

Van auteurs mag verwacht worden dat ze verantwoording afleggen voor het fout voorstellen van hun onderzoek. En hetzelfde geldt voor de redacteurs die het artikel hebben aanvaard voor publicatie, zonder gevolg te geven aan het feit dat een reviewer meldde dat hij de paper zelf niet had bekeken. Heeft eigenlijk iemand bij het vakblad de begeleidende studiedocumenten gelezen? Ik gok van niet.