Relevante Tierversuche für die Medikamentenentwicklung

Der Nutzen von Tierversuchen für die Medikamentenentwicklung wird immer wieder in Frage gestellt. Marianne Martic und August Schubiger zeigen anhand einiger Beispiele auf, wieso Tierversuche in der Medikamentenentwicklung nötig sind, wo die gegenwärtigen Probleme liegen und mit welchen Massnahmen die Aussagekraft von zukünftigen Studien verbessert werden kann.

29. Jan 2015 · August Schubiger · Marianne Martic

Tierversuche im Zuge der Medikamentenentwicklung werden immer wieder als unnötige Tierquälerei harsch kritisiert. So hat z.B. eine europäische Bürgerinitiative bis November 2013 über eine Million Unterschriften für ein europäisches Gesetz mit dem Ziel eines Ausstieges aus der tierexperimentellen Forschung gesammelt: „Auf der Grundlage erheblicher ethischer Einwände und eindeutiger wissenschaftlicher Nachweise für die fehlende Gültigkeit des "Tiermodells" zur Vorhersage der Reaktion beim Menschen drängen wir die Europäischen Kommission, die Richtlinie 2010/63/EU zum Schutz der für wissenschaftliche Zwecke verwendeten Tiere außer Kraft zu setzen und einen neuen Vorschlag zu unterbreiten, der auf der Abschaffung der Tierversuche beruht und stattdessen - in der biomedizinischen und toxikologischen Forschung - verbindlich den Einsatz von Daten vorschreibt, die direkte Relevanz für den Menschen haben." [1]

Gibt es tatsächlich eindeutige wissenschaftliche Nachweise für die fehlende Gültigkeit des Tiermodells zur Vorhersage der Wirksamkeit von Medikamenten beim Menschen? Betrachten wir die medizinische Entwicklung der letzten rund 150 Jahre, finden wir immer wieder Ergebnisse aus tierexperimenteller Forschung, die entscheidende Grundlagen für bahnbrechende Fortschritte geschaffen haben. Ein Beispiel sind die berühmten Feldexperimente Louis Pasteurs an Schafen und Rindern; dabei wurde die Wirksamkeit der Anthrax-Impfung getestet. Pasteur legte damit die Grundlage zur Entwicklung aller beim Menschen angewandter Impfstoffe [2,3]. Ein weiteres interessantes Beispiel ist die Entwicklung von Salvarsan und schliesslich Neosalvarsan, dem ersten Medikament gegen Syphilis von Paul Ehrlich. Er nannte es ein „magic bullet“. Die Anwendung dieser Arsentherapie am Patienten wäre schon zu Anfang des letzten Jahrhunderts undenkbar gewesen, ohne die vorgängige Prüfung von Wirksamkeit und Verträglichkeit am Tiermodell. 1908 wurde Paul Ehrlich für seine Forschung der Nobelpreis verliehen [4,5].

Fakt ist auch, dass die gängige Praxis zur Zulassung neuer Medikamente wesentlich durch zwei Tragödien in der Medizingeschichte als Folge von fehlenden oder ungenügenden Tierversuchen beeinflusst wurde. Im Zuge des Sulfanilamid-Disasters starben Mitte der 1930er Jahre Hunderte Menschen in den USA. Grund dafür war die in Tieren nicht getestete Verabreichung des Wirkstoffes mittels des Lösungsmittels Diethylenglycol, das sich nachträglich als giftig erwies. Die zweite Tragödie ereignete sich rund zwanzig Jahre später und ging als Contergan-Skandal in die traurige Geschichte der Medikamentenentwicklung ein. Das Beruhigungsmittel Thalidomid (Contergan®) verursachte schwere Dysmelien (d.h. Missbildungen der Extremitäten) bei Tausenden von Säuglingen, deren Mütter in den späten 1950er und frühen 1960er Jahren eben genanntes Medikament gegen Morgenübelkeit während der Frühschwangerschaft eingenommen hatten. Retrospektiv wurde festgestellt, dass die teratogene Wirkung von Thalidomid in Tiermodellen hätte vorhergesagt werden können. Nicht zuletzt als Folge des Contergan-Skandals wurde in Deutschland das erste Medikamentengesetz eingeführt. In den USA wurde das bestehende Gesetz ausgeweitet; Wirksamkeits- und Toxizitätstests an Tieren wurden damit Pflicht [6,7,8]. Auf Grund der oben beschriebenen Tatsachen kann also keine Rede davon sein, dass Tierversuchsresultate keine Übertragbarkeit auf den Menschen besitzen.

Bei der Durchführung von Tierversuchen gelten aber zu Recht, besonders auch in der Schweiz, strenge Richtlinien. In einem Prozess der individuellen Güterabwägung jedes eingereichten Tierversuchsgesuchs entscheidet die Tierversuchskommission über die Bewilligung oder Abweisung des entsprechenden Antrags. Dabei wird nach dem Prinzip 3R (Replace, Reduce, Refine nach dem 1959 erschienenen Buch „The Principles of Humane Experimental Technique“ von Russell and Burch) sorgfältig geprüft, ob der Erkenntnisgewinn für die Menschheit aus dem geplanten Versuch das durch das Experiment entstehende Leid am Tier überwiegt. Wo möglich sollen alternative Methoden zum Einsatz kommen (Replace), tierexperimentelles Vorgehen soll so schonend wie möglich gestaltet werden (Stichwort Narkose, Schmerzlinderung etc.; Refine) und es sollen nur so viele Tiere pro Experiment untersucht werden wie nötig (Reduce).

Mit polemischen Slogans wie in der eingangs erwähnten Bürgerinitiative mit dem Titel „Stop Vivisection“ wird ein Bild von tierexperimenteller Praxis suggeriert (Lebendsektion), welches mit der gängigen 3R-konformen Tierversuchsdurchführung nichts zu tun hat, jedoch bei ganz vielen Menschen schreckliche Bilder heraufbeschwört. Solche radikalen und bewusst Negativemotionen weckende Forderungen führen in eine Sackgasse, da es zum heutigen Zeitpunkt nicht möglich ist, Tierversuche vollumfänglich aussagekräftig zu ersetzen. Tatsache ist aber auch, dass in der tierexperimentellen Praxis Verbesserungsbedarf besteht. In den letzten zehn bis fünfzehn Jahren wurde in vielen wissenschaftlichen Journalen schwere Kritik an der Aussagekraft von Tierversuchen geübt und das mit gutem Grund.

Die Erfolgsrate von Patiententests in der Klinik lag gemäss einer Untersuchung von Thomson-Reuters 2010 nämlich bei tiefen 18%, d.h. nur bei jedem fünften Medikament wurde eine positive Wirkung beim Menschen richtig vorhergesagt. In mehr als der Hälfte der Versagensfälle lautete die Ursache „mangelnde Wirksamkeit“ [9].

Eine Literaturstudie im Bereich Hirnschlagforschung, die sich mit der Übertragbarkeit von tierexperimentellen Daten auf den Menschen befasste, zeigte positive Wirksamkeit von knapp 500 medizinischen Interventionen am Tiermodell (total erfasst wurden über tausend solcher Interventionen). Beim Menschen erwiesen sich bisher allerdings lediglich drei als wirksam [10]. Auf Grund dieser inakzeptabel grossen Diskrepanz wurde versucht die Ursachen für die offenbar nicht übertragbaren Ergebnisse aus Tiermodellen im Bereich Hirnschlag zu finden. Eine Metaanalyse (d.h. eine Zusammenfassung von Primärdaten mittels quantitativ statistischer Methoden) zeigte, dass es zwei Kategorien von Ursachen gibt [11]:

Die erste betrifft versuchsplanerische Mängel spezifisch für den Bereich Hirnschlag:

  • Das Tiermodell widerspiegelt den durchschnittlichen Patienten nur ungenügend (Bsp.: Verwendung junger, gesunder Tiere als Modellbasis vs. mehrheitlich ältere Patienten mit typischen Gesundheitsbeschwerden wie Bluthochdruck oder Diabetes, d.h. Komorbiditäten)
  • Der Startzeitpunkt der Behandlung ist nicht vergleichbar: Median von 10 Minuten nach Einsetzen des Schlags im Tiermodell vs. Median von 5 Stunden nach Einsetzen des Schlags im Patienten

Die zweite Kategorie bezieht sich auf allgemein versuchsplanerische Aspekte, die grundsätzlich auf jedes Forschungsgebiet oder Krankheitsfeld übertragen werden können. Die wichtigsten davon:

  • Randomisierte Zuteilung von Versuchstieren auf Versuchsgruppen
  • Verblindete Durchführung (wo möglich) von Versuchen und verblindete Datenauswertung (d.h. die versuchsdurchführende Person oder die auswertende Person weiss nicht, welches Testtier zu welcher Versuchsgruppe gehört)
  • Berechnung der notwendigen Mindestgruppengrösse (d.h. Anzahl Tiere pro Versuchsgruppe) zur Generierung von statistisch verlässlich auswertbaren Resultaten. Wenn zu wenige Tiere zum Einsatz kommen, sind die Daten nicht aussagekräftig, es kommt zu einer Verschwendung von Tierleben.

Ähnliche Probleme wie in der Hirnschlagforschung wurden auch in Forschungsgebieten anderer Krankheitsgebiete gefunden. In der Krebsforschung wurde beispielsweise festgestellt, dass potentielle Medikamente hauptsächlich an Tieren mit Primärtumoren getestet werden, während die Metastasenbildung häufig nicht untersucht wird. Eine höhere Übereinstimmung von tierexperimentellen Daten mit den Ergebnissen an menschlichen Patienten konnte erreicht werden, wenn bei den eingesetzten Tiermodellen zusätzlich zu Primärtumoren auch Metastasen untersucht wurden [12].

Wie kommt es nun dazu, dass in der (tierexperimentellen) Forschung Defizite wie beschrieben keine Seltenheit sind?
Wissen bezüglich Versuchsplanung und statistischer Auswertungsmethoden etc., welches während der (universitären) Ausbildung vermittelt werden sollte, ist bei Versuchsplanern und -durchführenden nachweislich oft nur rudimentär vorhanden (z.B. die korrekte Durchführung einer randomisierten Zuteilung von Versuchstieren auf experimentelle Gruppen) [13]. Vielen Studiengängen fehlt es da vermutlich an einer gezielteren Vernetzung und Übertragung von rein disziplinärem Wissen auf die konkrete, interdisziplinäre Anwendung im Versuch; von der Planung bis zur statistischen Auswertung und Dateninterpretation.

Es muss auch erwähnt werden, dass Wissenschaftler einem enormen Publikationsdruck ausgesetzt sind. Da es einfacher ist, positive Resultate (z.B. „Ein potentielles Medikament zeigt Wirkung im Tier“) zu veröffentlichen als negative oder neutrale, besteht eine nicht zu unterschätzende Verzerrung in der Fachliteratur in „positiver“ Richtung. Dies hat zur Folge, dass umfassende Literaturanalysen zu einem bestimmten Thema – zum Beispiel der Wirksamkeit eines potentiellen Medikaments – tendenziell zu einer Überschätzung von Effekten führen. Eine realistische Beurteilung von Forschungsergebnissen anhand der vorhandenen Fachliteratur ist somit kaum vollumfänglich möglich. Im Bereich Hirnschlag wurde mittels statistischer Methoden geschätzt, dass ungefähr ein Drittel der ermittelten Wirksamkeit einer medizinischen Intervention auf die Verzerrung der Literatur ins Positive zurückzuführen ist [14]. Das heisst: hätten alle jemals generierten Ergebnisse zur Wirksamkeit benannter Intervention, die neutralen und negativen eingeschlossen, den Analysten vorgelegen, wäre die Wirksamkeit der Intervention um einen Drittel tiefer eingestuft worden.

Das Urteil über die Publikation eines wissenschaftlichen Artikels stützt sich hauptsächlich auf die Einschätzung von sogenannten Peer-Reviewers, Fachleuten innerhalb eines Forschungsgebietes. Hier stecken wir also in einem Teufelskreis: die Qualität einer zu prüfenden Arbeit wird an den eigenen Standards gemessen, welche aber häufig die oben erwähnten Qualitätsanforderungen auch nicht erfüllen.

Es konnte in der Vergangenheit mehrfach gezeigt werden, dass tiefe Studienqualität wiederum zu einer tendenziellen Überschätzung von Effekten führt (z.B. durch fehlende Randomisierung oder Verblindung) [11,15]. Spätestens hier beisst sich die sprichwörtliche Katze dann in den Schwanz, wir erinnern uns: Positive Ergebnisse werden eher publiziert als negative oder neutrale.

Zur Lösung oben genannter Probleme braucht es daher ganz klare Richtlinien von tierversuchsbewilligenden Behörden, Geldgebern und wissenschaftlichen Journalen bezüglich der Durchführung und Auswertung eines Versuchs, damit die höchst mögliche Verlässlichkeit der generierten Daten gewährleistet werden kann, unabhängig davon, ob das Ergebnis positiv, negativ oder neutral ausfällt. Dazu wäre der Einbezug von zusätzlichen Fachleuten anderer Gebiete, namentlich der Statistik und Versuchsplanung, gerade bei Bewilligungs- und Publikationsentscheiden wichtig. Zu dieser Schlussfolgerung sind in jüngster Vergangenheit viele Journale, darunter Top-Shots wie Science und Nature, gekommen und diese haben nun begonnen, ihre Richtlinien und Beurteilungspraxis anzupassen [16,17]. Weitere Journale werden nicht umhinkommen nachzuziehen, wenn sie nicht als Ramsch gelten wollen.

Als bestehende allgemeingültige Richtlinien sollten Wissenschaftler der tierexperimentellen Praxis die ARRIVE guidelines (Animal Research: Reporting of In Vivo Experiments) schon bei der Planung ihrer Versuche zu Rate ziehen [18]. Diese Richtlinien dienen dazu, die Berichterstattung über Tierversuche und die Auswertung der dadurch gewonnen Ergebnisse möglichst transparent und aussagekräftig zu gestalten. So könnte ein Grossteil der Ursachen für wenig relevante Tierversuche effektiv eingedämmt werden, damit die höchst mögliche Aussagekraft von tierexperimentellen Ergebnissen gewährleistet werden kann.
 

[1] ec.europa.eu/citizens-initiative/public/initiatives/finalised/details/2012/000007/de

[2] Pasteur, L. (2002): Summary report of the experiments conducted at Pouilly-le-Fort, near Melun, on the anthrax vaccination. Yale Journal of Biology and Medicine 75 , 59-62.

[3] Schwartz, M. (2001): The life and works of Louis Pasteur. Journal of Applied Micro- biology 91 , 597-601.

[4] Bosch, F., and Rosich, L. (2008): The contributions of Paul Ehrlich to pharmacology: A tribute on the occasion of the centenary of his Nobel prize pharmacology. Pharmacology 82 , 171-179.

[5] Kaufmann, S.H.E. (2008): Paul Ehrlich: Founder of chemotherapy. Nature Reviews Drug Discovery 7 , 373.

[6] fda.gov/AboutFDA/WhatWeDo/History/FOrgsHistory/CDER/CenterforDrugEvaluationandResearchBrochureandChronology/ucm114465.htm

[7] Hildebrandt, A.G. (2004): Pharmacology, drug efficacy, and the individual. Drug Metabolism Reviews 36 , 845-852.

[8] contergan.grunenthal.info/grt-ctg/GRT-CTG/Die_Fakten/Das_deutsche_Arzneimittelrecht_nach

[9] Arrowsmith, J. (2011): Trial watch: Phase II failures: 2008-2010. Nature Reviews Drug Discovery 10 , 1.

[10] O'Collins, V.E., Macleod, M.R., Donnan, G.A., Horky, L.L., van der Worp, B.H., and Howells, D.W. (2006): 1026 Experimental treatments in acute stroke. Annals of Neurology 59 , 467-477.

[11] Sena, E.S., van der Worp, B., Howells, D., and Macleod, M. (2007): How can we improve the pre-clinical development of drugs for stroke? Trends in Neuroscience 9 , 433-439.

[12] Ebos, J.M.L., Lee, C.R., Cruz-Munoz, W., Bjarnason, G.A., Christensen, J.G., and Kerbel, R.S. (2009): Accelerated metastasis after short-term treatment with a potent inhibitor of tumor angiogenesis. Cancer Cell 15 , 232-239.

[13] Couzin-Frankel, J. (2013): When mice mislead. Science 342 , 922-925.

[14] Sena, E.S., van derWorp, H.B., Bath, P.M.W., Howells, D.W., and Macleod, M.R. (2010): Publication bias in reports of animals stroke studies leads to major overstatement of efficacy. PLOS Biology 8 , e1000344.

[15] Bebarta, V., Luyten, D., and Heard, K. (2003): Emergency medicine animal research: Does use of randomization and blinding affect the results. ACAD Emerg Med 10,684-687.

[16] McNutt, M. (2014): Reproducibility. Science 343,229.

[17] http://www.nature.com/authors/policies/reporting.pdf [18] http://www.nc3rs.org.uk/page.asp?id=1357

Autor*Innen

August Schubiger (69) ist emeritierter Professor für Radiopharmazie ETH und seit 2009 Fellow am Collegium Helveticum.

Marianne Martic (32) hat chemische Biologie an der ETH studiert und danach am Institut für Radiopharmazie von ETH, USZ und PSI promoviert. Sie arbeitet als wissenschaftliche Mitarbeiterin am Collegium Helveticum und interessiert sich im Besonderen für die Übertragbarkeit von Resultaten aus der tierexperimentellen Forschung auf den Menschen.

Disclaimer

Der vorliegende Blogeintrag gibt die persönliche Meinung der Autoren wieder und entspricht nicht zwingend derjenigen von reatch oder seiner Mitglieder.