Doktor Google bekommt Konkurrenz: Anstatt seitenweise Suchergebnisse zu durchforsten, können Internetnutzer auf der Suche nach Gesundheitsinfos auch einfach eine künstliche Intelligenz (KI) befragen. Die KI-Chatbots ChatGPT und Co. liefern schnelle Antworten auf alle möglichen Fragen. Aber stimmen ihre Antworten auch? Erfahren Sie auf dieser Seite, wie Sie diese Anwendungen nutzen und die Ergebnisse beurteilen können.
KI-Chatbots wie ChatGPT oder Google Gemini basieren auf sogenannten Large Language Models (LLM). Diese künstlichen Intelligenzen sind darauf trainiert, menschliche Sprache zu verarbeiten und zu generieren. In der Praxis funktioniert das wie ein Chat mit einem Freund oder einem Mitarbeiter im Kundensupport: Man gibt eine Frage oder eine Anweisung in ein Textfenster ein und der Chatbot antwortet darauf.
KI-Chatbots können auf gezielte Fragen antworten, z. B.:
Welche Hausmittel helfen gegen Erkältung?
Man kann der KI aber auch größere Arbeitsaufträge geben, z. B.:
Stelle mir die wichtigsten Infos über Asthma zusammen.
Anders als bei der Suchmaschine werden bei KI-Chatbots keine Suchbegriffe verwendet. Stattdessen stellt man der KI Fragen oder gibt ihr Anweisungen, was sie tun soll. Je konkreter man die Frage oder Anweisung formuliert, desto zufriedenstellender fällt in der Regel auch das Ergebnis aus.
Mögliche Fragestellungen oder Anweisungen sind:
Wichtig: Manche KI-Chatbots können Ihre Eingaben benutzen, um zu lernen und sich weiterzuentwickeln, oder sie können diese für die Fragen anderer Nutzer und Nutzerinnen verwenden. Geben Sie den Bots deshalb keine persönlichen Informationen wie Namen, Diagnosen oder Ihre Adresse.
Suchmaschinen durchsuchen das Internet nach den eingegebenen Suchbegriffen und liefern passende Websites, die eine Antwort auf die Nutzerfrage enthalten können. KI-Chatbots dagegen erzeugen selbst Antworten auf Nutzerfragen aus Material, das sie während ihres Trainings erhalten haben.
Krankheitsbeschwerden im Internet recherchieren – das haben wohl die meisten Menschen schon gemacht.
Mit einem KI-Chatbot kann man sich die Suche sogar noch erleichtern.
Aber kann man den Antworten auch vertrauen?
Dazu ist es wichtig zu wissen, wie solche Chatbots überhaupt funktionieren.
Die technische Grundlage bilden bei Chatbots meist sogenannte Large Language Models, kurz LLMs.
Das ist eine künstliche Intelligenz, die mithilfe von unzähligen Daten darauf trainiert ist, menschliche Sprache zu verarbeiten und zu generieren.
Sie kann auf Fragen antworten oder auch Arbeitsaufträge erledigen, zum Beispiel Inhalte zu bestimmten Krankheitssymptomen zusammenstellen.
Aber: Die KI denkt nicht wie ein Mensch.
Sie kann eine Nutzerfrage oder ihre eigene Antwort darauf nicht verstehen.
Vielmehr erkennt sie ein Muster in der Sprache.
Sie lernt zum Beispiel, welche Worte und Wortfolgen zu bestimmten Themen gehören.
Daraus berechnet sie, welche Wörter am besten zur Nutzerfrage passen, und reiht sie aneinander.
Und das geht nicht immer gut:
Manchmal baut die KI aus ihren Informationen auch falsche Antworten zusammen.
Dafür gibt es mehrere mögliche Ursachen:
Stellt man der KI eine Frage zu einer Erkrankung, erhält man zwar immer eine Antwort – allerdings muss diese nicht zwingend richtig sein.
Deshalb kann sie bei Gesundheitsfragen auch keinen Arztbesuch ersetzen.
Wissen ist gesund.
In diesem Text sprechen wir über textbasierte Large Language Models. Diese sind im Kern dem menschlichen Gehirn nachempfunden: Sie bestehen aus vielen Schichten von künstlichen Nervenzellen, die Informationen verarbeiten und analysieren. So können sie in großen Textmengen Muster und Zusammenhänge erkennen und Bedeutungen erfassen.
Bevor ein KI-Chatbot Nutzerfragen beantworten kann, muss er trainiert werden. Dafür erhält er große Mengen an Textdaten. Diese stammen aus Webseiten, digitalisierten Artikeln, Büchern und anderen Quellen. Mit diesen Daten erfasst die KI Muster unserer Sprache: Sie lernt, Wahrscheinlichkeiten für Wörter und Wortfolgen bestmöglich vorherzusagen. Diese Wahrscheinlichkeiten, die sie sich während des Trainings angeeignet hat, verwendet die KI später auch, um Antworten auf Nutzeranfragen zu generieren. Es ist also nicht so, als würde die KI unsere Frage oder ihre eigene Antwort darauf tatsächlich verstehen. Vielmehr reiht sie Wörter aneinander, die ihrer Erfahrung nach mit großer Wahrscheinlichkeit zusammengehören.
Antworten von KI-Chatbots sind nicht immer richtig. Dafür gibt es mehrere mögliche Ursachen:
KI-Chatbots haben keine Vorstellung von wahr und falsch, sondern erzeugen ihre Informationen anhand von Mustern und Wahrscheinlichkeiten. Auch wenn richtige Trainingsdaten vorliegen, kann die KI eine falsche Information erzeugen, wenn diese genauso plausibel oder plausibler klingt als die richtige Information. Auch Quellenangaben können frei erfunden sein.
Da Informationen von KI-Chatbots fehleranfällig sind oder sogar frei erfunden sein können, sollte man sie nicht ohne weitere Überprüfung annehmen – schon gar nicht, wenn es dabei um Gesundheitsthemen geht. Es gibt verschiedene Wege, die Antwort von einem KI-Chatbot zu überprüfen:
Sie sind sich unsicher, ob die Antwort stimmt? Oder haben Sie eine wichtige Frage zu Krankheitsbeschwerden oder einer medizinischen Behandlung? Zeigen Sie die Informationen Ihrem Arzt, Ihrer Ärztin oder anderen Gesundheitsfachleuten und ziehen Sie weitere seriöse Quellen zurate.
Regelmäßig untersuchen Studien, wie genau KI-Chatbots überhaupt auf Gesundheitsfragen eingehen. Am häufigsten wird die Anwendung ChatGPT untersucht. Auswertungen zeigen, dass ChatGPT auf Gesundheitsfragen überwiegend korrekt und vertrauenswürdig antwortet. Zum Teil bevorzugten Studienteilnehmende sogar die Antworten der KI, da diese länger waren und deshalb als vertrauenswürdiger und mitfühlender bewertet wurden. Forschende sehen daher ein großes Potenzial in der Bereitstellung von Gesundheitsinformationen. Dennoch kommen die Forschenden auch zu dem Ergebnis, dass die Aussagen der Chatbots stets kritisch hinterfragt und geprüft werden sollten, denn manchmal sind falsche, veraltete oder widersprüchliche Antworten enthalten. Ebenso hängt die Informationsausgabe auch stark von der Formulierung der Frage oder Anweisung ab.
Es gibt eine ganze Reihe an KI-Chatbots und sprachbasierten Assistenten von verschiedenen Anbietern, die mit unterschiedlichen LLMs arbeiten. Neben den kostenlosen Open-Source-Programmen stehen auch kostenpflichtige Anwendungen zur Verfügung.
Hier ein paar ausgewählte Sprachmodelle:
ChatGPT von OpenAI: In der Version GPT-4 kann das Programm auf Nutzerfragen oder Aufgaben in natürlicher Sprache reagieren. In der kostenlosen Version kann man ChatGPT eine begrenzte Anzahl von Anfragen stellen. Dafür benötigt man ein Nutzerkonto.
Google Gemini von Google: Dies ist ein KI-Chatbot, der gesprächsähnlich auf Anfragen reagiert. Hier können Nutzer nicht nur Text, sondern z. B. auch Fotos oder Codes eingeben oder sich anzeigen lassen. Google Gemini ist kostenlos. Man benötigt ein Google-Nutzerkonto.
Meta AI von Meta: Dabei handelt es sich um einen kostenlosen Sprachassistenten, der auf Facebook, Instagram, WhatsApp und Messenger eingesetzt wird.
Copilot: Copilot ist ein KI-Assistent, der in verschiedene Microsoft-Produkte wie Word, Excel, Powerpoint und Microsoft Teams integriert wurde und bei unterschiedlichen Aufgaben helfen kann.
Perplexity: Perplexity generiert Antworten mithilfe von ausgewiesenen Quellen aus dem Internet und zitiert die Links innerhalb seiner Antwort. Der Chatbot arbeitet mit verschiedenen Sprachmodellen, u. a. mit Modellen von OpenAI und Claude.
Claude von Claude Anthrophic ist ein Sprachmodell, das von einigen Aussteigern von OpenAI gegründet wurde.
Vorteile:
Nachteile:
Beim Vergleich der Suchmaschine Google mit Chat GPT bewerteten Ärzte die Qualität der Antworten auf Gesundheitsfragen und der bereitgestellten Quellen. Dabei beurteilten sie die Antworten von ChatGPT als besser und umfassender. Ein weiterer Pluspunkt: Die KI erkennt auch vorhandene Wissenslücken und berichtet diese in ihren Antworten. Allerdings gab ChatGPT nicht immer zuverlässige Quellen an oder es fehlten sogar Quellen.
Unsere Gesundheitsinformationen können eine gesundheitsbezogene Entscheidung unterstützen. Sie ersetzen nicht das persönliche Gespräch mit einem Arzt oder einer Ärztin und dienen nicht der Selbstdiagnostik oder Behandlung.
Albrecht S. ChatGPT als doppelte Herausforderung für die Wissenschaft: Eine Reflexion aus der Perspektive der Technikfolgenabschätzung. 1st. Boston: De Gruyter; 2024.
Ayers JW, Zhu Z, Poliak A, Leas EC, Dredze M, Hogarth M et al. Evaluating artificial intelligence responses to public health questions. JAMA Netw Open:e2317517.
Ayers JW, Poliak A, Dredze M, Leas EC, Zhu Z, Kelley JB et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023; 183(6):589–96.
Bruno A, Mazzeo PL, Chetouani A, Tliba M, Kerkouri MA. Insights into classifying and mitigating LLMs' hallucinations; 2023. Verfügbar unter: https://arxiv.org/pdf/2311.08117v1 [04.03.2025].
Bsharat SM, Myrzakhan A, Shen Z. Principled instructions are all you need for questioning LLaMA-1/2, GPT-3.5/4; 2023. Verfügbar unter: https://arxiv.org/pdf/2312.16171 [04.03.2025].
Burtell M, Toner H. The surprising power of next word prediction: Large Language Models explained, Part 1; 2024. Verfügbar unter: https://cset.georgetown.edu/article/the-surprising-power-of-next-word-prediction-large-language-models-explained-part-1/ [04.03.2025].
Haase I, Xiong T, Rissmann A, Knitza J, Greenfield J, Krusche M. ChatSLE: consulting ChatGPT-4 for 100 frequently asked lupus questions. The Lancet Rheumatology 2024; 6(4):e196-e199.
Haver HL, Ambinder EB, Bahl M, Oluyemi ET, Jeudy J, Yi PH. Appropriateness of breast cancer prevention and screening recommendations provided by ChatGPT. Radiology 2023; 307(4):e230424.
Hübsch T, Vogel-Adham E, Vogt A, Wilhelm-Weidner A. Sprachgewandt in die Zukunft: Large Language Models im Dienst der beruflichen Weiterbildung. Ein Beitrag der Digitalbegleitung im Rahmen des Innovationswettbewerbs INVITE. VDI/VDE Innovation + Technik GmbH : Berlin; 2024. Verfügbar unter: https://www.pedocs.de/volltexte/2024/28659/pdf/Huebsch_et_al_2024_Sprachgewandt_in_die_Zukunft.pdf [04.03.2025].
Kelbert P, Siebert J, Jöckel L. Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? Fraunhofer IESE 2023. Verfügbar unter: https://www.iese.fraunhofer.de/blog/large-language-models-ki-sprachmodelle/ [04.03.2025].
Kim H-W, Shin D-H, Kim J, Lee G-H, Cho JW. Assessing the performance of ChatGPT's responses to questions related to epilepsy: A cross-sectional study on natural language processing and medical information retrieval. Seizure 2024; 114:1–8.
Koopman B, Zuccon G. Dr ChatGPT tell me what I want to hear: How different prompts impact health answer correctness. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing December 2023. Verfügbar unter: https://aclanthology.org/2023.emnlp-main.928.pdf [04.03.2025].
Lehmhaus, L., Kränzler C., Börner M. Große Sprachmodelle: Ein Überblick; 2023. Verfügbar unter: https://www.bitkom.org/sites/main/files/2023-06/BitkomLeitfadenGrosse-Sprachmodelle.pdf [04.03.2025].
Liu HY, Alessandri Bonetti M, Lorenzi F de, Gimbel ML, Nguyen VT, Egro FM. Consulting the digital doctor: Google versus ChatGPT as sources of information on breast implant-associated anaplastic large cell lymphoma and breast implant illness. Aesth Plast Surg 2024; 48(4):590–607.
Löser A, Tresp V, Hoffart J, Morik K. Große Sprachmodelle: Grundlagen, Potenziale und Herausforderungen für die Forschung; 2023. Verfügbar unter: https://www.plattform-lernende-systeme.de/files/Downloads/Publikationen/AG1_WP_Grosse_Sprachmodelle_Forschung.pdf [04.03.2025].
Perplexity enterprise; 2024. Verfügbar unter: https://www.perplexity.ai/enterprise [04.03.2025].
Schümann N, editor. Gamechanger Künstliche Intelligenz: Wie künstliche Intelligenz inspiriert und kreatives Potenzial entfesselt. 1. Auflage. Freiburg, München, Stuttgart: Haufe Group; 2024.
Schümann N. Exkurs: Large Language Models. In: Schümann N, editor. Gamechanger Künstliche Intelligenz: Wie künstliche Intelligenz inspiriert und kreatives Potenzial entfesselt. 1. Auflage. Freiburg, München, Stuttgart: Haufe Group; 2024. p. 31–9. Verfügbar unter: https://link.springer.com/chapter/10.34157/978-3-648-17563-7_4 [04.03.2025].
Scquizzato T, Semeraro F, Swindell P, Simpson R, Angelini M, Gazzato A et al. Testing ChatGPT ability to answer laypeople questions about cardiac arrest and cardiopulmonary resuscitation. Resuscitation 2024; 194:110077.
Seemann, Michael. Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft 2023. Verfügbar unter: https://www.econstor.eu/bitstream/10419/278731/1/1860439527.pdf [04.03.2025].
Seemann, Michael. Künstliche Intelligenz, Large Language Models, ChatGPT und die Arbeitswelt der Zukunft. Verfügbar unter: https://www.econstor.eu/bitstream/10419/278731/1/1860439527.pdf [04.03.2025].
Siebert J, Kelbert P. Wie funktionieren LLMs? Ein Blick ins Innere großer Sprachmodelle. Fraunhofer IESE 2024. Verfügbar unter: https://www.iese.fraunhofer.de/blog/wie-funktionieren-llms/ [04.03.2025].
Wachsmuth H. Large Language Models : Künstliche Intelligenz, die den Menschen erreicht. Uni Magazin 2024 [cited 2024 Jul 22]:42–4. Verfügbar unter: https://www.repo.uni-hannover.de/bitstream/handle/123456789/17928/42_Large%20Language%20Models.pdf?sequence=1&isAllowed=y [04.03.2025].
Walker HL, Ghani S, Kuemmerli C, Nebiker CA, Müller BP, Raptis DA et al. Reliability of medical information provided by ChatGPT: assessment against clinical guidelines and patient information quality instrument. Journal of Medical Internet Research 2023; 25:e47479.
Ye C, Zweck E, Ma Z, Smith J, Katz S. Doctor versus artificial intelligence: patient and physician evaluation of Large Language Model responses to rheumatology patient questions in a cross-sectional study. Arthritis & Rheumatology 2024; 76(3):479–84.
Züger T, Faßbender J, Kuper F, Nenno S, Katzy-Reinshagen A, Kühnlein I. Exkurs: Civic Coding . Verfügbar unter: https://www.civic-coding.de/fileadmin/civic-ai/Dateien/Civic_Coding_Exkurs_barrierefrei.pdf [04.03.2025].
Unsere Angebote werden regelmäßig geprüft und bei neuen Erkenntnissen angepasst. Eine umfassende Prüfung findet alle drei bis fünf Jahre statt. Wir folgen damit den einschlägigen Expertenempfehlungen, z.B. des Deutschen Netzwerks für Evidenzbasierte Medizin.
Informationen dazu, nach welchen Methoden die Stiftung Gesundheitswissen ihre Angebote erstellt, können Sie in unserem Methodenpapier nachlesen.
Die Stiftung Gesundheitswissen hat das Ziel, verlässliches Gesundheitswissen in der Bevölkerung zu stärken. Die an der Erstellung unserer Angebote beteiligten Personen haben keine Interessenkonflikte, die eine unabhängige und neutrale Informationsvermittlung beeinflussen.
Weitere Hinweise zum Umgang mit Interessenkonflikten finden Sie hier.
Alle unsere Angebote beruhen auf den derzeit besten verfügbaren wissenschaftlichen Erkenntnissen. Sie stellen keine endgültige Bewertung dar und sind keine Empfehlungen.
Weitere wichtige Hinweise zu unseren Angeboten finden Sie hier.
Erstellt am: 18.03.2025