Eigentlich sollte jeder neuen Studie mit Skepsis begegnet werden. Das Problem ist nicht, dass alle Studien schlecht sind, sondern, dass das „Rauschen“ (Signal to Noise) so groß ist. Wenn wir doch schon alles wissen, was es zu wissen gibt, warum Forschen wir überhaupt.

Wir Prof. Tim Noakes gerne fragt: „Wenn wir wirklich schon alles wissen, wozu haben wir überhaupt noch Universitäten. Das Geld können wir uns doch sparen?“. Dazu gibt es von mir (auch) ein klares Nein. Selbst in der Mathematik finden wir noch Neues. In der Medizin und Gesundheit gibt es noch viel mehr ungeklärte Fragen, oder solche die man noch besser erforschen kann.

Doch gerade wenn es um den Lebensstil, um Bewegung und Ernährung geht haben wir mit Studien Große Probleme. „Wir wissen einfach nicht, wie wir Diät und Sport messen sollen“, sagt Dr. Barnett Kramer, Leiter der Krankheitsprävention beim US Krebs Institut. Seine Abteilung arbeitet daran, die Unstimmigkeiten in der Forschung zu beseitigen. „Man kann Leute zwar frage, wie oft in der Woche sie Brot oder Beeren essen und man kann sie bitten ein Ernährungs-Tagebuch über die letzten 24 Stunden zu führen“. Aber, wie er sagt, verwundert es nicht, dass viele Leute sich falsch erinnern oder den Forschern die Antworten liefern, die sie in einem besseren Licht erscheinen lassen.

Die Fragebogen-Tests haben auch noch weitere schwächen. Dies habe ich bereits in einem früheren Artikel gezeigt. Die Food Frequency Questionaires

dietary-recall-nhanes-screenshots

Wenn ich dich alle vier Jahre nach deiner Nahrungsaufnahme frage und dir dabei 133 Fragen stelle, wie genau ist das? Die Übereinstimmung mit einem echten Ernährungsprotokoll liegt bei ca. 0.5.

Wenn ich eine Münze Werfe hast du auch eine 50:50 Chance das richtige Ergebnis zu „erraten“. Genau ist etwas Anderes!

Die Situation ist so schlimm, dass oft nur publiziert wird, was Wissenschaftler von Anfang an geglaubt haben, sagt Dr. John Ioannidis, Professor der Medizin an der Stanford Universität in Kalifornien. Es gibt so viele verschiedene Nährstoffe und Ernährungsweisen. So viele Resultate (Outcomes): Herzinfarkt, Gesamtsterblichkeit, Krebs. Welche Daten soll man sammeln. Und über welchen Zeitraum? Zwei Monate. Sechs Monate, 10 Jahre?

Und die Forscher können wählen, was sie wollen. “Ich kann jedes Resultat, dass ich haben will, aus jedem Satz an Beobachtungsdaten herauskitzeln“, so Dr. Ioaannidis. Das ist das, was der Lancet Chefredakteur Dr. Richard Horten “retrofit hypothis” nennt. Es wird einfach so lange gesucht und herumgerechnet, bis ein Ergebnis gefunden wird. Hauptsache es stimmt mit meiner Überzeugung überein.

Was sind also die Probleme mit Studien?

Unzureichende Nullhypothese

Auch dem Cochrane Glossar:

[Es] wird üblicherweise die Hypothese aufgestellt, dass zwischen den verschiedenen Gruppen einer Studie kein Unterschied (Nullhypothese) besteht.

Am Beispiel der sechs bzw. sieben Länder Studie von Ancel Keys heißt das, das man z.b: die Hypothese: Kohlenhydrate führen zu Herzinfarkt oder Eiweiß führt zu Herzinfarkt genauso untersuchen hätte sollen wie Fett. Erst wenn der UNTERSCHIED zwischen diesen Hypothesen signifikant ist, kann man eine Aussage treffen.

Störfaktoren

Hier möchte ich besonders auf den Healthy User Bias eingehen. Wenn z.B. Vegetarier in Studien besser abschneiden, kann das auch an anderen Faktoren liegen. Viele Forscher probieren zumindest die Faktoren herauszurechnen, die sie kennen (Rauchen, generell mehr Aufenthalt im Freien,…). Was oft vergessen wird sind sozioökonomische Unterschiede. Familien die sich vegetarische, vegan oder bio ernähren haben oft auch ein höheres Einkommen und deshalb ganz andere finanzielle Möglichkeiten bei der Nahrungsmittel-Wahl. Das kann einen erheblichen Einfluss haben und hat nicht unbedingt mit z.b. der vegetarischen Ernährung zu tun, als vielmehr mit einer generellen Auswahl von frischeren, weniger verarbeiteten Lebensmitteln. Und plötzlich sind Vegetarier gesünder obwohl es heißem müsste: „Familien mit einem höheren Einkommen, die in der Nähe eines Wochenmarktes oder Bio-Supermarkt leben, leben gesünder“.

Korrelation (aus A folgt nicht unbedingt B)

Korrelation heißt nicht Kausalität, sagen Forscher.

a-b

Je größer der Brandschaden, desto mehr Feuerwehrleute sind im Einsatz. Doch wie hängt das zusammen. Wenn wir weniger Feuerwehrleute zum Einsatz schicken, wird der Schaden dann kleiner ausfallen?

Der Zusammenhang geht oft in eine Richtung, aber nicht (immer) in die andere Richtung. Für das Abnehmen kann man das einfach veranschaulichen. Sagen wir, eine Person hat Gewicht verloren. Was sagt uns das über die Kalorienzufuhr? Genau. Diese Person hat weniger Kalorien zu sich genommen als sie verbraucht hat. Sie hat ja abgenommen. Hilft uns das in irgendeiner Weise? Nein. Wir können nämlich nicht sagen, dass es in die andere Richtung auch immer stimmt. Nur weil man weniger Kalorien zu sich nimmt, als man verbraucht, nimmt man nicht automatisch ab. Ich kann also, nachdem eine Person abgenommen hat, sagen, dass diese mit an Sicherheit grenzender Wahrscheinlichkeit weniger Kalorien konsumiert hat, als sie verbraucht hat, aber im Vorhinein zu sagen, konsumiere weniger Kalorien, dann nimmst du ab kann ich daraus nicht ableiten. Das liegt daran, dass beim Abnehmen auch die Zusammensetzung der Kalorien, das Timing und vor allem die Hormone einen großen Einfluss haben.

Genauso wie beim Brandeinsatz externe Faktoren (wie trocken ist es. Ist es ein Holzhaus oder eines aus Beton, gibt es in der Nähe eine Löschwasserquelle) bestimmen, wie rasch und schnell der Brand gelöscht werden kann, ist es auch im Abnehm-Beispiel. So intuitiv es ist die Beziehung einfach umzudrehen, so falsch ist es in der Praxis. Wir denken gerne in Geschichten und nicht statistisch und deshalb fällt es Forschern besonders schwer, diesen Punkt zu sehen, vor allem, wenn die alternative mit ihrer Annahme übereinstimmt.

Teststärke: Power und der P-Wert

Die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer konkreten Alternativhypothese (zum Beispiel „Es gibt einen Unterschied“) entscheidet.

Wikipedia

Statistiker und Mediziner lieben ihren P-Wert. Man sieht oft (P < 0.01) oder (P-trend = 0.05) hinter Ergebnissen stehen. In P-Wert: ein echter Test von statistischer Signifikanz? (p – value, a true test of statistical significance? A cautionary note) schreiben die Forscher:

Die medizinischen Journale sind voll von P-Werten und Tests von Hypothesen. Es ist gemeinhin Praxis bei medizinischer Forschung anzugeben ob ein Test „statistisch Signifikant“ war, ohne das oft verstanden wird, was das bedeutet. […] Aber ob ein P-Wert tatsächlich eine Aussage über die Signifikanz ist, darüber gibt es seit [bald 70] Jahren eine Debatte. […]

In den 30 Jahren hat R.A. Fisher eine einfache Idee. […] Fisher sah den P-Wert als einen Index der Stärke des Beweises gegen die Null-Hypothese. […] Er schlug vor ein P-Wert < 0.05 als Standard zu nehmen.

0.05 ist also eher „willkürlich“ gewählt.

In einer andern Studie von Little et al (The statistical power of epidemiological studies analyzing the relationship between exposure to ionizing radiation and cancer, with special reference to childhood leukemia and natural background radiation) schreiben die Forscher:

Wir argumentieren, dass alle vorangegangene Studien zu schwach (underpowered) sind (alle haben eine Teststärke < 80%) und sind unquantifizierbaren Vorurteilen (Bias) und Störfaktoren ausgesetzt.

Bei Beobachtungsstudien brauchen wir eine sehr große Anzahl an Personen, damit ein P-Wert von < 0.05 überhaupt sinn macht. Ohne separater Berechnung der Teststärke sind viele Ergebnisse, obwohl sie „offiziell“ signifikant sind, unbrauchbar.

Tiermodelle

Nachkommen Generation 4 - Links: Western Diet Maus; Rechts Standard Maus

Im Artikel zu einer Roten Fleisch Studie frage ich: „Eine genetisch defekte Maus, künstlich zusammegestellte Ernährung und Antikörper aus roten Blutkörperchen von Schimpansen? Wie relevant ist das für uns Menschen?“

Die Tiermodelle sind gut, um eine Hypothese aufzustellen, nicht aber, um sie zu testen.

Are animal models predictive for humans?

Aber, wenn wir empirisch Analysen von Tiermodellen machen, dann verfehlen diese das Ziel die menschliche Reaktion vorherzusagen.

Was können wir tun?

Wenn wir wirklich verstehen wollen, was ein Ergebnis bedeutet, müssen wir die Statistischen Grundlagen verstehen und die typischen Vorurteile (Bias bzw. Bestätigungsfehler) der Forscher verstehen. Nur so werden wir nicht verrückt bei der Flut an neuen Forschungsergebnissen.

Der Anfang des Artikels basiert auf Ideen aus der N.Y. Times: We’re So Confused

The following two tabs change content below.

Leo Tulipan

Leo ist erst durch das Buch Good Calories, Bad Calories so richtig bewußt geworden, wie falsch die aktuellen Ernährungsempfehlungen sind. Dass er eine "gut formulierte" Low Carb Ernährung nun schon seit 2 Jahren erfolgreich umsetzen kann, verdankt er seiner Frau Julia sowie Dr. Phinney und Dr. Volek
Message Us

Pin It on Pinterest

Shares

E-Mail Newsletter & Paleo Einsteiger Kurs

In einer Woche das 1x1 der Steinzeit Ernährung und der Kohlenhydratreduzierung kostenlos über meine Kursplatform kennenlernen.

Du hast dich erfolgreich angemeldet! Schau in deinen Posteingang, um die Anmeldung zu bestätigen.

E-Mail Newsletter & Paleo Einsteiger Kurs

In einer Woche das 1x1 der Steinzeit Ernährung und der Kohlenhydratreduzierung kostenlos über meine Kursplatform kennenlernen.

Du hast dich erfolgreich angemeldet! Schau in deinen Posteingang, um die Anmeldung zu bestätigen.