Trial By Error: meer over de herziene Cochranereview over bewegingstherapie

David Tuller, DrPH, Virology Blog, 9 oktober 2019

Vorige week [2 oktober 2019] herpubliceerde Cochrane zijn erg problematische systematische review over “beweging voor CVS” en dit lokte een stortvloed uit aan commentaar over de organisatie haar gebrekkige besluitvorming en de lage kwaliteit van haar wetenschappelijke redenering. Eén erg pienter lid van het forum Science For ME, Michiel Tack [ook bij ons een bekend lid natuurlijk: bedankt voor je werk Michiel! n.v.d.r.], postte een uitstekend overzicht van de verschillen tussen de vorige versie en de versie die vorige week werd gepubliceerd.

Ik herpost dit hieronder, met zijn toestemming. Eén van de grote teleurstellingen van de review is het laatste punt dat Michiel aanhaalt, nl. dat de nieuwe versie volhoudt dat het bewijs omtrent vermindering van vermoeidheid via lichaamsbeweging van “gemiddelde” kwaliteit is. Maar uit e-mailverkeer in mei tussen Cochrane en het Noorse instituut dat de reviewauteurs vertegenwoordigt, leek het alsof de kwaliteit of zekerheid van het bewijs lager ingeschaald zou worden. David Tovey, Cochranes onlangs gepensioneerde hoofdredacteur, stelde in die e-mails duidelijk dat het bewijs voor vermindering van vermoeidheid enkel omschreven kon worden als van “lage” kwaliteit of zekerheid, zoals ik niet lang geleden rapporteerde. Misschien was Karla Soares-Weiser, de nieuwe hoofdredacteur, het niet eens met dat standpunt. Als dat zo is, dan heeft ze het duidelijk niet bij het rechte eind.

Nog een teleurstellend aspect dat Michiel opmerkte, is dat PACE beoordeeld wordt als laag risico op selectieve reporteringsbias. Je kan je de vraag stellen of wijzigingen die gemaakt worden na rekrutering van deelnemers, kan worden aanvaard als “vooraf gespecificeerd”. In studies met open onderzoeksopzet die voortgaan op subjectieve uitkomsten – zoals letterlijk elke studie in de Cochranereview – kennen onderzoekers meestal al de algemene uitkomstentrends voordat ze de eigenlijke data hebben ingekeken. Dus het is absurd dat men beweert dat de keuzes die men in dat soort studies maakt nadat de data al verzameld zijn, “vooraf gespecificeerd” kunnen worden genoemd. Het is een schande dat Cochrane dit soort bedrieglijke kunstgrepen toelaat.

Michiel, bedankt voor je uitstekende werk! De online discussie op het forum Science for ME kan je hier volgen.

**********

Ik dacht dat het nuttig kon zijn om een overzicht te maken van de grootste wijzigingen in vergelijking met de versie uit 2017. Ik focus het liefst op de belangrijkste vergelijking van bewegingstherapie versus een passieve controle-aandoening…

1) Andere omschrijving van CVS

Myalgische encefalomyelitis (ME) verschijnt in het abstract. De omschrijving van CVS is veranderd van “een veelvoorkomend, invaliderend en ernstig gezondheidsprobleem gekarakteriseerd door medisch onverklaarde vermoeidheid”, naar “een ernstige aandoening gekarakteriseerd door aanhoudende postexertionele vermoeidheid en sterke symptomen gerelateerd aan cognitieve, immuun- en autonome disfunctie”.

2) Diagnostische criteria

De gewijzigde review maakt duidelijk dat de resultaten enkel toepasbaar zijn op patiënten geselecteerd via de Fukuda- of Oxfordcriteria. In de conclusie van het abstract staat nu het volgende: “Alle studies werden uitgevoerd op ambulante patiënten gediagnosticeerd via de criteria uit 1994 van de Centers for Disease Control and Prevention of de Oxfordcriteria, of beide. Het is mogelijk dat patiënten gediagnosticeerd via andere criteria een ander effect ervaren.”

3) Gestandaardiseerd gemiddeld verschil (SMD)

De versie uit 2017 richtte zich op gemiddelde verschillen (MD), waarbij men alle resultaten bundelt die dezelfde versie van een vragenlijst gebruiken. Het probleem van deze benadering is, dat je geen overzicht krijgt van alle resultaten voor één uitkomst (bijvoorbeeld vermoeidheid) als er verschillende vragenlijsten werden gebruikt. En dat is natuurlijk wat de lezers vooral interesseert: het resultaat voor alle vermoeidheidsuitkomsten samen. Daarvoor moet men resultaten van verschillende vragenlijsten voor dezelfde uitkomst bundelen in wat men een gestandaardiseerd gemiddeld verschil (SMD) noemt. In de oude versie werden SMD’s enkel gerapporteerd in de gevoeligheidsanalyse. Wijlen Robert Courtney stipte aan dat dit niet overeenkwam met het protocol (Edmonds et al., 2004) en dat het de auteurs de kans gaf om hun resultaten positiever voor te stellen. Een voorbeeld: het effect op vermoeidheid bij opvolging was niet statistisch significant als het uitgedrukt werd in SMD, maar door te focussen op gemiddelde verschillen voor aparte versies van de Vermoeidheidsschaal van Chalder werd dit minder zichtbaar in de review.

4) Herberekening naar de 33-puntenversie van de Vermoeidheidsschaal van Chalder

Het nadeel van een SMD is dat het moeilijk te interpreteren valt omdat de resultaten niet meer gelinkt zijn aan de eigenlijke vragenlijst. Daarom heeft Cochrane aan de auteurs gevraagd om de grootte van de SMD-resultaten voor alle vermoeidheidsuitkomsten te herberekenen naar een MD voor de 33-puntenversie van de Chalder Vermoeidheidsschaal, die intussen de meest courant gebruikte versie is. Dus eerst werden alle vermoeidheidsresultaten samengenomen en dan werd berekend hoe groot dat effect zou zijn op de 33-puntenversie van de Chalder Vermoeidheidsschaal. De SMD voor vermoeidheid was -0.66, wat doet vermoeden dat de effectgrootte middelmatig was. Maar als dit opnieuw uitgedrukt wordt op de Chalder Vermoeidheidsschaal, dan komt het overeen met een reductie van 3.4 punten op de Chalder Vermoeidheidsschaal, wat eerder klein lijkt.

5) Minimaal Belangrijke Verschillen (MID)

Om in te schatten of een reductie van 3.4 punten op de Chalder Vermoeidheidsschaal klinisch significant is, zochten de auteurs naar minimaal belangrijke verschillen (MID). Ze vonden geen studie over CVS die dit deed, maar een paper over Lupus rapporteerde een drempel van rond de 2.3 punten op de Chalder Vermoeidheidsschaal. Volgens de auteurs toont dit aan dat de verandering, veroorzaakt door bewegingstherapie, klinisch significant was. Ze maakten ook een inschatting van MID voor andere uitkomstmaten.

6) Gestandaardiseerde taal als weerspiegeling van het GRADE-evaluatiesysteem

In de vorige review gebruikten de auteurs geen consistente methode om de bewijskracht te beschrijven. Ze deden uitspraken die hun eigen indruk van het bewijs weerspiegelden, zoals “veelbelovend bewijs doet vermoeden dat bewegingstherapie kan bijdragen tot het verlichten van sommige symptomen van CVS” of “het zou kunnen dat patiënten met CVS over het algemeen baat hebben bij […] het volgen van bewegingstherapie” of “wij vinden dat het bewijs suggereert dat bewegingstherapie een doeltreffende en veilige behandeling kan zijn” of “zeven studies toonden op een consistente manier een vermindering aan in vermoeidheid na bewegingstherapie op het einde van de behandeling”. De nieuwe verwoording is gestandaardiseerd en weerspiegelt kwaliteitsscores van het GRADE-evaluatiesysteem. Het woord “wellicht” weerspiegelt bewijs van middelmatige kwaliteit, “het zou kunnen dat” weerspiegelt bewijs van lage kwaliteit en “onzeker” weerspiegelt bewijs van erg lage kwaliteit. Over het algemeen betekent dit dat de resultaten voorzichtiger worden geformuleerd om het onderliggende bewijs te weerspiegelen. Een voorbeeld: in de versie uit 2017 werd het woord “onzeker” één keer gebruikt, in de aangepaste versie gebruikt men het 76 keer.

7) Bewijs voor ongewenste voorvallen wordt “onzeker”

Eén van de meest opvallende wijzigingen door het consistente gebruik van het GRADE-evaluatiesysteem is hoe het bewijs over ongewenste voorvallen wordt gepresenteerd. De nieuwe versie beperkt zich tot voorzichtige uitspraken, zoals “we zijn niet zeker over het risico op ernstige ongewenste bijwerkingen omdat de zekerheid van het bewijs erg laag is”. De vorige versie erkende wel dat het moeilijk was om conclusies te trekken door gebrek aan voldoende data, maar het deed ook grote uitspraken zoals “er is geen bewijs dat suggereert dat bewegingstherapie slechte resultaten zou kunnen geven” of “er werd weinig melding gemaakt van ernstige bijwerkingen” of “bewegingstherapie maakte de symptomen niet erger voor mensen met CVS”. In de conclusie schreef de auteur: “wij vinden dat het bewijs suggereert dat bewegingstherapie een […] veilige behandeling zou kunnen zijn”. Deze uitspraken zijn intussen ofwel verwijderd, ofwel anders verwoord.

8) Onzekere resultaten bij opvolging

Nog een opmerkelijke wijziging is het bewijs over de opvolging op lange termijn voor uitkomsten als vermoeidheid en fysiek functioneren. De analyse van de data toont aan dat de verbeteringen op dit metingspunt niet meer statistisch significant waren. Zoals wijlen Robert Courtney aanhaalde, werd dit niet vermeld in het abstract of uitgelegd in de hoofdtekst. Het vorige abstract schreef verwarrend genoeg dat “studieauteurs een positief effect rapporteerden van bewegingstherapie aan het einde van de behandeling met betrekking tot […] fysiek functioneren […] en subjectief ervaren wijziging in de algemene gezondheid.” Men maakt niet duidelijk dat dit “positieve effect” niet statistisch significant was als de data samen werden genomen. De resultaten voor vermoeidheid bij opvolging werden in het abstract niet vermeld. Het nieuwe abstract maakt duidelijk dat voor elke uitkomst, behalve slaap, de resultaten bij opvolging onzeker zijn, omdat de zekerheid van het bewijs erg laag ligt.

9) Uitbreiding van de samenvatting van de bevindingstabellen

De resultaten voor vermoeidheid en fysiek functioneren bij opvolging worden nu gepresenteerd in de samenvatting van de bevindingstabellen, wat niet het geval was in de vorige versie. In plaats van te vermelden of een meting afgenomen werd na de behandeling of bij opvolging, geven de samenvattingstabellen nu het exacte tijdstip of de tijdsinterval van de uitkomstevaluaties. Over het algemeen zijn deze tabellen met samenvattingen van de bevindingen uitgebreider geworden en tonen ze ook de resultaten voor vergelijking 2 bewegingstherapie versus psychologische behandeling, vergelijking 3 bewegingstherapie versus adaptieve pacingtherapie en 4 bewegingstherapie versus antidepressiva.

10) Wellicht

De auteurs hebben de resultaten voor vermoeidheid na behandeling geklasseerd als van middelmatige kwaliteit, wat weerspiegeld wordt in de verwoording “bewegingstherapie had wellicht een positief effect op vermoeidheid”. De vorige versie klasseerde het bewijs voor vermoeidheid na behandeling ook als “van middelmatige kwaliteit”, maar gebruikt een andere formulering. In de conclusie schreef men: “patiënten met CVS kunnen […] zich minder vermoeid voelen na bewegingstherapie”. Het woord “wellicht” werd niet gebruikt.

11) Hoog risico op uitvoerings- en detectiebias onderstreept

Het aangepaste abstract maakt duidelijk dat de studies in de review op bepaalde vlakken een hoog risico hebben op bias. Men zegt: “de meeste studies hadden een laag risico op selectiebias. Ze hadden allemaal een hoog risico op uitvoerings- en detectiebias.” De vorige versie liet dit meer in het midden en schreef: “Risico op bias verschilde in alle studies, maar binnenin elke studie werd weinig variatie gevonden in het risico op bias in al onze primaire en secundaire uitkomstmaten.” In het onderdeel Discussie beweerde men in de vorige versie zelfs dat “risico op bias bij alle studies relatief laag lag”.

12) De 11-puntenversie van de Vermoeidheidsschaal van Chalder voor de FINE-studie

De auteurs maken nu gebruik van de 11-puntenversie van de Vermoeidheidsschaal van Chalder voor de FINE-studie (Wearden et al., 2010) in plaats van de 33-puntenversie, wat nooit zo gepubliceerd is in de gepeerreviewde literatuur. Voor de FINE-studie betekende dit een wijziging in de SMD van -0.43 naar -0.27. Dit veranderde echter weinig aan de algemene SMD voor vermoeidheid: in plaats van -0.68 [-1.02, -0.35] komt het nu op -0.66 [-1.01,-0.31].

13) Meer gevoeligheidsanalyses

De aangepaste review bevat meer gevoeligheidsanalyses. Dit zijn extra analyses die worden uitgevoerd om te zien of de resultaten hetzelfde blijven als er iets op een andere manier wordt geïnterpreteerd of als sommige studies worden weggelaten uit de analyse. Zo bleek in de vorige versie bijvoorbeeld uit een test dat het weglaten van de studie door Powell et al. uit 2001 de resultaten beïnvloedde, omdat deze studie een veel grotere verbetering rapporteerde dan andere studies. De nieuwe versie testte ook welke resultaten het weglaten van de PACE-studie en de FINE-studie had op de resultaten voor belangrijke uitkomsten zoals vermoeidheid en fysiek functioneren. De aangepaste review bevat ook gevoeligheidsanalyses voor uitkomsten van slaap en subjectief ervaren wijziging in algemene gezondheid, die in de vorige versie niet werden gerapporteerd.

14) Twee bijkomende studies vermeld: GETSET en Marques et al.

De auteurs merkten op dat er, sinds hun systematische zoekopdracht van de literatuur in mei 2014, twee nieuwe gerandomiseerde studies gepubliceerd werden, die relevant zijn en meegenomen zouden kunnen worden in toekomstige updates. Deze studies rapporteerden ook positieve bevindingen voor GET:

Marques M, De Gucht V, Leal I, Maes S. Effects of a selfregulation based physical activity program (the “4-STEPS”) for unexplained chronic fatigue: a randomized controlled trial. International Journal of Behavioral Medicine 2015;2:187-96. [DOI: 10.1007/s12529-014-9432-4]

Clarke LV, Pesola F, Thomas JM, Vergara-Williamson M, Beynon M, White PG. Guided graded exercise self-help plus specialist medical care versus specialist medical care alone for chronic fatigue syndrome (GETSET): a pragmatic randomised controlled trial. Lancet 2017;390(10092):363-73. [DOI: 10.1016/ S0140-6736(16)32589-2]

15) Extra feedback en commentaren

Er werd extra feedback ingediend. Volgens Richard Gardner kan het misleidend zijn als men beweert dat er geen bewijs is dat bewegingstherapie tot verslechtering kan leiden, aangezien er geen conclusie kan worden getrokken over de uitvalcijfers. Adrienne Wooding merkte op dat de Cochranereview ME/cvs verkeerdelijk plaatst onder de categorie psychische gezondheid. Mark Vink verwees naar zijn heranalyse van en kritiek op de Cochranereview, waarin hij aangaf dat objectieve uitkomsten over het algemeen geen verbetering aantonen na bewegingstherapie.

16) Kleine, onbelangrijke wijzigingen aan de tekst

Als men de vorige en de aangepaste teksten naast elkaar zet, ziet men dat sommige onderdelen herschreven, ingekort of geherformatteerd zijn. Naar mijn mening zijn dit geen belangrijke wijzigingen aan de analyse. In plaats daarvan lijken het eerder verduidelijkingen, verklaringen voor de gemaakte wijzigingen of inkortingen van de tekst, omdat die anders te lang werd. Daarom heb ik ervoor gekozen om niet in detail te treden over deze kleine wijzigingen, want dat zou het overzicht alleen maar complexer maken. Als iemand nog belangrijke wijzigingen aan de tekst vindt die ik over het hoofd heb gezien, laat het mij dan a.u.b. weten, zodat dit overzicht geüpdatet kan worden.

De volgende wijzigingen werden voorgesteld, maar afgewezen:

1) Objectieve uitkomsten

Tom Kindlon en Robert Courtney merkten op dat, met uitzondering van het gebruik van gezondheidsdiensten, Larun et al. niet rapporteren over objectieve uitkomsten. De gerandomiseerde studies die werden meegenomen in de review bevatten gegevens over uitkomsten, zoals inspanningstesten, een conditietest, de wandeltest van zes minuten, tewerkstellingstoestand en uitbetaling van uitkeringen. Objectieve uitkomsten zijn veelal minder onderhevig aan bias door gebrek aan blindering. De analyse door Vink & Vink-Niese toonde aan dat, behalve enkele uitzonderingen, objectieve uitkomsten over het algemeen niet significant verbeterden na bewegingstherapie. In 2015 antwoordden de auteurs dat “het protocol voor deze review geen objectieve metingen bevatte”. Maar ze leken het wel eens met het idee dat objectieve metingen nauwkeurig bekeken moesten worden in het geval er een update zou komen. Er werden in de aangepaste review geen extra objectieve uitkomsten gerapporteerd.

2) Therapietrouw

Kindlon vroeg ook naar gegevens over therapietrouw, nl. informatie over of de studiedeelnemers de bewegingstherapie effectief volgden zoals voorgeschreven. Hij schreef: “het zou interessant zijn als u ongepubliceerde gegevens zou kunnen verkrijgen uit activiteitenlogboeken, verslagen over hartslagmonitoren en andere geregistreerde gegevens die zouden helpen om een beeld te krijgen van welke beweging in werkelijkheid werd uitgevoerd en hoe nauwgezet die werd nageleefd.” Opnieuw lijken de auteurs het eens te zijn dat dit een belangrijk punt is dat in beschouwing moet worden genomen in een update van de review. Er werd geen informatie verschaft over naleving in de aangepaste versie van 2019.

3) Selectieve rapportering in de PACE-studie

Tom Kindlon en Robert Courtney stelden allebei dat de PACE-studie niet geclassificeerd mag worden als laag risico op bias voor selectieve rapportering. Ze verwezen naar de Cochranetool voor het evalueren van risico op bias (RoB 1), waarin het lage risico op bias als volgt werd uitgelegd: “Het studieprotocol is beschikbaar en alle vooraf gespecificeerde (primaire en secundaire) uitkomsten van de studie die van belang zijn in de review, zijn gerapporteerd op de vooraf gespecificeerde manier.” Kindlon en Courtney stelden dat dit niet het geval was bij de PACE-studie en dat de studie daarom niet geclassificeerd mocht worden als laag risico op bias. Hun commentaren werden ondersteund door Cochraneredacteur Nuala Livingstone tijdens een interne audit van Courtneys klacht tegen Cochrane. In hun reactie uit 2015 erkenden Larun et al. dat er wijzigingen waren aangebracht aan geplande analyses gespecificeerd in het protocol van de PACE-studie, maar stelden ze dat “deze wijzigingen opgesteld werden voordat de analyses begonnen waren en voordat de uitkomstgegevens ingekeken werden”. In de aanpassing van 2019 zijn alle beoordelingen over risico op bias hetzelfde gebleven, onder meer het lage risico op bias omtrent selectieve rapportering voor de PACE-studie. De auteurs praten dit als volgt goed: “Het protocol en het statistische analyseplan waren niet officieel gepubliceerd voordat rekrutering van deelnemers begon, waardoor sommige lezers beweren dat de studie niet beschouwd mag worden als een post-hocstudie. De studieauteurs zijn het hier niet mee eens, en hebben notulen gepubliceerd van een vergadering van een Studiestuurgroep (TSC), waarin wordt gesteld dat TSC akkoord ging met de wijzigingen aan de analyses die na het originele protocol werden doorgevoerd, en hier goedkeuring voor had gegeven, voordat de analyses begonnen waren.”

4) Voorstel tot analyse van de uitgesloten gegevens van Jason et al.

Voor de uitkomst van fysiek functioneren bij opvolging werd de studie door Jason et al. uitgesloten, vanwege grote verschillen bij aanvang: de bewegingsgroep had veel lagere scores (39) op fysiek functioneren dan de relaxatiegroep (54). Kindlon merkte op dat “het goed zou zijn als andere methodes onderzocht zouden worden (bv. het gebruik van beginpuntniveaus als covarianten) om dat soort gegevens te analyseren.” De auteurs antwoordden dat dit de analyse heel erg complex zou maken en dat dit veel eenvoudiger aangepakt kan worden in een review op basis van individuele patiëntendata. De aanpassing van 2019 gebruikt geen alternatieve methode om de resultaten van Jason et al. mee te rekenen op fysiek functioneren bij opvolging.

5) Vermoeidheid na behandeling gedegradeerd tot bewijs van lage kwaliteit

Uit een publiek beschikbaar e-mailgesprek weten we dat de vorige hoofdredacteur van Cochrane, David Tovey, erg gekant was tegen het feit dat de resultaten voor vermoeidheid na behandeling werden geclassificeerd als bewijs van middelmatige kwaliteit. Hij schreef: “de conclusie dat dit bewijs is van middelmatige zekerheid, lijkt mij onverdedigbaar”. Tovey argumenteerde dat het lager geclassificeerd mocht worden omwille van tegenstrijdigheden (omwille van aanzienlijke heterogeniteit, weerspiegeld door een I2 van 80%) of onnauwkeurigheid (omdat de betrouwbaarheidsinterval van het effect de minimale drempel van de klinische significantie niet haalt). De auteurs – vertegenwoordigd door beambten van het Noorse Volksgezondheidsinstituut (NIPH) – stelden dat de heterogeniteit vooral te wijten was aan de studie door Powell et al.: toen die werd weggelaten, werd de heterogeniteit aanvaardbaar, terwijl de effectgrootte gemiddeld bleef. Omtrent onnauwkeurigheid argumenteerden ze dat GRADE adviseert om slechts lager te gaan classificeren als de betrouwbaarheidsinterval niet boven de drempel van geen effect uitkomt, en niet boven de drempel van geen klinisch significant effect. In het e-mailgesprek leken de auteurs het wel eens met het feit dat dit allebei randgevallen waren die op verschillende manieren geïnterpreteerd konden worden. Om die reden stelden ze volgend compromis voor, zoals uitgelegd door Atle Fretheim van het NIPH: “Ik stel een compromis voor: we classificeren het bewijs voor deze uitkomst gewoon als laag-middelmatig. De auteurs zijn akkoord gegaan om de term “zou kunnen” te gebruiken (wat meestal bewijs aanduidt van lage zekerheid) als ze de zekerheid van het bewijs beschrijven, in plaats van de term “wellicht” (wat meestal middelmatige zekerheid aanduidt). Ze zijn ook akkoord gegaan om geen categorisering van de effectgrootte te gebruiken.” Een alternatieve oplossing die werd voorgesteld was om de term “lage tot middelmatige bewijskwaliteit” te gebruiken. De aanpassing van 2019 gebruikt echter de woorden “wellicht” en “bewijs van middelmatige zekerheid”.

Trial By Error: meer over de herziene Cochranereview over bewegingstherapie

Geef een reactie Reactie annuleren

Zijbalk

Volg ons

Recente Links