Header

Künstliche Gesundheitsintelligenz

Zwischen Algorithmus und Evidenz: Wie verlässlich ist Gesundheitswissen aus der KI?

Immer mehr Nutzer verlassen sich auf Chatbots, weil sie schnelle Antworten liefern, komplexe Zusammenhänge verständlich erklären können und als hilfreich und vertrauenswürdig bewertet werden. Gerade bei gesundheitlichen Fragen spielt Zeit eine große Rolle – etwa wenn ein plötzlicher Ausschlag oder ein unerwartetes Symptom auftaucht. Viele Menschen suchen erst nach Informationen, bevor sie einen Arzt aufsuchen. Doch die Geschwindigkeit birgt auch Risiken, denn nicht jede KI-Antwort ist verlässlich. Vor diesem Hintergrund prüft die Stiftung Gesundheitswissen in einer Machbarkeitsstudie, ob ein evidenzbasierter Gesundheits-Chatbot möglich ist – und wie er Menschen beim Suchen, Finden und Bewerten von medizinischen Informationen unterstützen kann. Erste Tests zeigen: KI kann Wissen fundiert vermitteln, wenn Qualität und Kontrolle stimmen.

Die Messlatte: Qualitätsanforderungen an Gesundheitswissen

Seriöse Gesundheitsinformationen müssen hohen Ansprüchen genügen, um verlässliche Orientierung zu bieten. Für die Stiftung Gesundheitswissen zählen dazu insbesondere: 

  • Evidenzbasierung: Informationen müssen auf aktuellen wissenschaftlichen Erkenntnissen beruhen. Nicht jede Studie ist gleich wertvoll – die Aussagekraft (Evidenz) muss klar erkennbar sein.
  • Neutralität: Die Darstellung soll ausgewogen sein, ohne Angst zu schüren oder einzelne Behandlungen zu favorisieren. Das bedeutet, dass bei Therapie-Alternativen beispielsweise operative und medikamentöse Optionen gleichberechtigt und sachlich erläutert werden.
  • Transparenz: Quellen müssen nachvollziehbar angegeben werden, sodass Nutzer selbst nachprüfen können, woher die Informationen stammen.
  • Laienverständlichkeit: Medizinische Fachbegriffe werden erklärt, Fachjargon wird reduziert, ohne die inhaltliche Genauigkeit zu verlieren. Der Bot sollte also nicht einfach „Myokardinfarkt“ verwenden, sondern kurz erklären, dass es sich um einen Herzinfarkt handelt.

Seriöse Gesundheitsinformationen müssen hohen Ansprüchen genügen.

Der große Hoffnungsträger: das Potenzial von KI

KI-Chatbots könnten all diese Anforderungen theoretisch erfüllen. Sie verarbeiten riesige Datenmengen in Sekunden, fassen Wissen zusammen und liefern Antworten schneller, als ein Arzt ans Telefon gehen kann. Besonders spannend ist, dass
KI auch Zusammenhänge herstellen kann, die in herkömmlichen Internetrecherchen schwer zu überblicken sind. Beispielsweise kann ein Bot Symptome, Risikofaktoren und mögliche Behandlungswege kombinieren und dabei mehrere evidenzbasierte
Quellen berücksichtigen. Damit bietet er die Chance, nicht nur Informationen bereitzustellen, sondern sie in einen sinnvollen Kontext zu setzen.

Die Hürden: Probleme bei Evidenz, Neutralität und Korrektheit

Bislang liefern Chatbots nicht immer verlässliche Informationen. Die größten Herausforderungen sind dabei:

  1. Halluzinationen: KI „erfindet“ Antworten, wenn passende Informationen fehlen. Das kann harmlose Symptome dramatisieren oder Fehlinterpretationen fördern.
  2. Verzerrungen: und Voreingenommenheit: KI übernimmt unbewusst die Voreingenommenheit in den Texten, mit denen sie trainiert wurde. Ein Bot könnte also bestimmte Therapien häufiger empfehlen, weil sie in den Trainingsdaten
    häufiger vorkommen, auch wenn sie nicht die aktuell beste verfügbare Therapie-Option darstellen.
  3. Mangelnde Evidenzbasierung: Bots können die Qualität ihrer Quellen nicht selbst bewerten und verwenden veraltete oder anekdotische Informationen oft gleichwertig mit wissenschaftlich fundierten Studien. Da Chatbots zudem individuelle Antworten für jede Anfrage generieren, greifen klassische Prüfmechanismen zu kurz. Neue Ansätze zur Qualitätssicherung sind daher nötig – etwa automatisierte Kontrollinstanzen, die jede Antwort auf Plausibilität prüfen und Abweichungen markieren.
     

Der Lösungsansatz: ein Forschungsprojekt zur Qualitätsprüfung der KI

Angesichts der bestehenden Chancen und Risiken führt die Stiftung Gesundheitswissen gemeinsam mit der ZTM Bad Kissingen GmbH eine Machbarkeitsstudie durch, um die Umsetzbarkeit eines Chatbots zu prüfen, der die Qualitätsanforderungen an Gesundheitswissen erfüllen kann – und dahingehend evidenzbasiert ist. Der Fokus liegt auf einem kontinuierlichen Prüfsystem, das Halluzinationen und Verzerrungen automatisiert erkennt und minimiert. Das Besondere: Nicht die Technik selbst steht im Mittelpunkt, sondern die Sicherstellung der Qualität. Ziel ist es, Mechanismen zu entwickeln, die auch bei Millionen Anfragen pro Tag verlässlich arbeiten. Die Studie prüft unter anderem, wie eine zweite KI als Kontrollinstanz Antworten systematisch prüfen kann – gewissermaßen eine Zweitprüfung in Echtzeit. 

Mit qualitätsgesicherten Daten und gezielten Anweisungen sinkt die Fehlerquote von KI deutlich.

Erste Erfolge: Qualität ist steuerbar

Erste Tests zeigen vielversprechende Ergebnisse: Mit qualitätsgesicherten Daten und gezielten Anweisungen sinkt die Fehlerquote deutlich. Der Bot kann Nutzen und Risiken von Behandlungen transparent darstellen und ausgewogene, neutrale Antworten liefern. Aktuell wird untersucht, wie diese Mechanismen automatisiert und skaliert werden können. Mit diesem Projekt will die Stiftung Gesundheitswissen Menschen künftig verlässlicher beim Umgang mit Gesundheitsinformationen unterstützen und die Chancen der KI optimal nutzen. Eine Zusammenarbeit mit anderen qualitätsgesicherten Anbietern soll die Datenbasis weiter stärken und den Chatbot noch leistungsfähiger machen. Die Kombination aus evidenzbasiertem Wissen, automatisierter Qualitätssicherung und praxisnaher Aufbereitung kann die Art und Weise verändern, wie Menschen medizinische Informationen recherchieren – und gleichzeitig das Risiko reduzieren, dass Fehlinformationen Angst schüren oder Fehlentscheidungen fördern.

Markus Seelig

leitet in der Stiftung den Geschäftsbereich Gesundheitskommunikation und -aufklärung. Besonders wichtig sind ihm eine patientenzentrierte Versorgung
und ein gutes Zusammenspiel von medizinischem Fachpersonal und Patienten.
 

Stiftungsmagazin kompetent "Künstliche Gesundheitsintelligenz"

Quellen und Hinweise

Unsere Gesundheitsinformationen können eine gesundheitsbezogene Entscheidung unterstützen. Sie ersetzen nicht das persönliche Gespräch mit einem Arzt oder einer Ärztin und dienen nicht der Selbstdiagnostik oder Behandlung.

Zu Risiken und Nebenwirkungen: Vertrauen Sie Dr. Bot?

Albrecht S. ChatGPT als doppelte Herausforderung für die Wissenschaft: Eine Reflexion aus der Perspektive der Technikfolgenabschätzung. In: Schreiber G, Ohly L, Hrsg. KI:Text: Diskurse über KI-Textgeneratoren. 1. Auflage. Boston: De Gruyter; 2024. S. 13–28.

Ayers JW, Poliak A, Dredze M et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023; 183(6):589–96. doi: 10.1001/jamainternmed.2023.1838.

Ayers JW, Zhu Z, Poliak A et al. Evaluating artificial intelligence responses to public health questions. JAMA Netw Open 2023; 6(6):e2317517. doi: 10.1001/jamanetworkopen.2023.17517.
Burtell M, Toner H. The surprising power of next word prediction: Large Language Models explained: Part 1; 2024; letzte Aktualisierung: 08.03.2024. Verfügbar unter: https://cset.georgetown.edu/article/the-surprising-power-of-next-word-prediction-large-language-models-explained-part-1/ [21.11.2025].

Haase I, Xiong T, Rissmann A, Knitza J, Greenfield J, Krusche M. ChatSLE: Consulting ChatGPT-4 for 100 frequently asked lupus questions. Lancet Rheumatol 2024; 6(4):e196-e199. doi: 10.1016/S2665-9913(24)00056-0.

Haver HL, Ambinder EB, Bahl M, Oluyemi ET, Jeudy J, Yi PH. Appropriateness of breast cancer prevention and screening recommendations provided by ChatGPT. Radiology 2023; 307(4):e230424. doi: 10.1148/radiol.230424.

Hübsch T, Vogel-Adham E, Vogt A, Wilhelm-Weidner A. Sprachgewandt in die Zukunft: Large Language Models im Dienst der beruflichen Weiterbildung: Ein Beitrag der Digitalbegleitung im Rahmen des Innovationswettbewerbs INVITE; 2024. Verfügbar unter: https://www.bibb.de/dokumente/pdf/Huebsch_et_al_2024_Sprachgewandt_in_die_Zukunft.pdf [21.11.2025].

Kelbert P, Siebert J, Jöckel L. Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten?; 2023; letzte Aktualisierung: 12.12.2023. Verfügbar unter: https://www.iese.fraunhofer.de/blog/large-language-models-ki-sprachmodelle/ [21.11.2025].

Kim H-W, Shin D-H, Kim J, Lee G-H, Cho JW. Assessing the performance of ChatGPT's responses to questions related to epilepsy: A cross-sectional study on natural language processing and medical information retrieval. Seizure 2024; 114:1–8. doi: 10.1016/j.seizure.2023.11.013.

Koopman B, Zuccon G. Dr ChatGPT tell me what I want to hear: How different prompts impact health answer correctness. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics; 2023. S. 15012–15022.

Löser A, Tresp V, Hoffart J, Morik K. Große Sprachmodelle: Grundlagen, Potenziale und Herausforderungen für die Forschung [Whitepaper aus der Plattform Lernende Systeme, München]; 2023. Verfügbar unter: https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_WP_Grosse_Sprachmodelle_Forschung.pdf [21.11.2025].

Schümann N. Exkurs: Large Language Models. In: Schümann N, Hrsg. Gamechanger Künstliche Intelligenz: Wie künstliche Intelligenz inspiriert und kreatives Potenzial entfesselt. 1. Auflage. Freiburg, München, Stuttgart: Haufe; 2024. S. 31–39.

Schümann N (Hrsg.). Gamechanger Künstliche Intelligenz: Wie künstliche Intelligenz inspiriert und kreatives Potenzial entfesselt. 1. Auflage. Freiburg, München, Stuttgart: Haufe; 2024.
Scquizzato T, Semeraro F, Swindell P et al. Testing ChatGPT ability to answer laypeople questions about cardiac arrest and cardiopulmonary resuscitation. Resuscitation 2024; 194:110077. doi: 10.1016/j.resuscitation.2023.110077.

Seemann M. Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft; 2023. Verfügbar unter: https://www.boeckler.de/de/faust-detail.htm?sync_id=HBS-008697 [21.11.2025].

Siebert J, Kelbert P. Wie funktionieren LLMs? Ein Blick ins Innere großer Sprachmodelle; 2024; letzte Aktualisierung: 17.06.2024. Verfügbar unter: https://www.iese.fraunhofer.de/blog/wie-funktionieren-llms/ [21.11.2025].

Wachsmuth H. Large Language Models: Künstliche Intelligenz, die den Menschen erreicht. Unimagazin 2024; (1):42–4. doi: 10.15488/17794.

Walker HL, Ghani S, Kuemmerli C et al. Reliability of medical information provided by ChatGPT: Assessment against clinical guidelines and patient information quality instrument. J Med Internet Res 2023; 25:e47479. doi: 10.2196/47479.

Ye C, Zweck E, Ma Z, Smith J, Katz S. Doctor versus artificial intelligence: patient and physician evaluation of large language model responses to rheumatology patient questions in a cross-sectional study. Arthritis & Rheumatology 2024; 76(3):479–84. doi: 10.1002/art.42737.

 

Unsere Angebote werden regelmäßig geprüft und bei neuen Erkenntnissen angepasst. Eine umfassende Prüfung findet alle drei bis fünf Jahre statt. Wir folgen damit den einschlägigen Expertenempfehlungen, z.B. des Deutschen Netzwerks für Evidenzbasierte Medizin.

Informationen dazu, nach welchen Methoden die Stiftung Gesundheitswissen ihre Angebote erstellt, können Sie in unserem Methodenpapier nachlesen.

Autoren und Autorinnen:Markus Seelig

Die Stiftung Gesundheitswissen hat das Ziel, verlässliches Gesundheitswissen in der Bevölkerung zu stärken. Die an der Erstellung unserer Angebote beteiligten Personen haben keine Interessenkonflikte, die eine unabhängige und neutrale Informationsvermittlung beeinflussen.

Weitere Hinweise zum Umgang mit Interessenkonflikten finden Sie hier.

Alle unsere Angebote beruhen auf den derzeit besten verfügbaren wissenschaftlichen Erkenntnissen. Sie stellen keine endgültige Bewertung dar und sind keine Empfehlungen.

Weitere wichtige Hinweise zu unseren Angeboten finden Sie hier.

Erstellt am: 07.01.2026