[사이언스미디어센터] 전문가 의견 <의사보다 뛰어난 LLM? AI의 의료 임상 추론 능력 (사이언스)>

(엠바고 5월 1일 03시/ 해외 전문가 의견) LLM이 의료 현장 바꿀까?

2026. 4. 30.

잘 안 보이실 땐 여기를 눌러주세요.

전문가 의견 26-048 의사보다 뛰어난 LLM? AI의 의료 임상 추론 능력 (사이언스)

2026.4.30. **엠바고 5월 1일(금) 03시**

> SMCK 등록 기자에게만 엠바고 전 사전 발송된 메일입니다. -> 기자 등록하기

배경
- 대형 언어 모델(LLM)이 응급실 의사 결정이나 진단 식별, 치료 단계 선택 등 일반적인 임상 추론 작업에서 인간 의사보다 우수한 성능을 보일 수 있다는 새로운 연구 결과가 나옵니다. 실제 응급실 데이터를 활용한 연구로, 인공지능과 의사의 능력을 광범위한 임상 추론 작업에서 비교한 최대 규모 연구 중 하나입니다.
  - 논문 제목: Performance of a large language model on the reasoning tasks of a physician (Science)
  - 엠바고 5월 1일 03시 (링크는 엠바고 해제 뒤 활성화)

미국과 영국, 호주 등 국제 공동연구팀은 OpenAI의 LLM인 o1 시리즈의 진단 및 치료 계획 수립 능력을 수백 명의 의사 및 기존 AI 시스템과 비교해 종합적으로 평가했습니다.
- 평가에는 표준화된 임상 사례에 대해 LLM이 평가하는 실험 5건과, 매사추세츠주의 주요 응급 의료 센터에서 무작위로 선정된 응급실 환자를 대상으로 한 실제 연구가 사용됐습니다.
연구 결과, 총 6가지 실험 전체에서 LLM 모델이 진단 및 치료 계획 수립시, 인간과 동등하거나 그 이상의 성능을 보였음을 발견했습니다.
LLM의 경우, 최소한의 정보로 신속한 결정을 내려야 하는 응급실 초기 단계의 환자를 분류할 때 가장 두드러졌습니다.
- 원래 인간과 LLM은 모두 임상 데이터가 많아질수록 성능이 향상됩니다.
- 하지만 LLM의 경우, 불확실한 상황에서도 단편적이고 정형화되지 않은 의료 기록 데이터까지 효과적으로 활용해 탁월한 성능을 보였습니다.
연구팀은 의사의 평가와 함께 LLM을 사용할 경우, 진단 오류나 진단 지연 및 의료 접근성 불평등을 줄일 수 있다며 전향적인 임상시험이 필요하다고 주장했습니다.
- 다만, 임상 현장에서는 시각 및 청각적 단서가 매우 중요한데 현재 AI는 이러한 영역에서 아직 부족한 면이 있다고 지적했습니다.
- 또, 이번 결과가 인공지능 시스템이 스스로 의료 행위를 할 수 있거나, 의사가 진단 과정에서 배제될 수 있음을 의미하지는 않는다고 강조했습니다.

전문가 의견 요청 내용
- 국내 전문가의 의견을 구했으나 적절한 의견을 받지 못했습니다.
- 영국과 독일, 스페인 SMC에서 수집한 해외 전문가 의견을 전달합니다.

기자 여러분은 아래 주의사항을 참고해 활용해주시길 부탁드립니다.

엠바고는 5월 1일 03시(KST) 해제됩니다. 이후 자유롭게 활용 가능합니다.
되도록 원문을 그대로 활용해주시길 부탁드립니다.
SMCK를 꼭 인용할 필요는 없습니다. 만약 인용 출처가 필요한 경우, 아래 형식을 따를 수 있습니다.
- "ㅇㅇㅇ(전문가)는 한국과학기술미디어센터에 ㅁㅁㅁ라고 말했다."

*SMCK 홈페이지 | 📌 이런 메일을 계속 받고 싶으시다면: 전문가 의견 구독(기자 등록)

아래는 영국 사이언스미디어센터(UK SMC)에서 수집한 전문가 반응입니다. 영국 SMC 홈페이지에서도 확인할 수 있습니다.

Professor Ewen Harrison, Professor of Surgery and Data Science and Co-Director Centre for Medical Informatics, University of Edinburgh, said:

“This is an important study showing that modern AI systems can be good at one of the central tasks of doctors and nurses: taking the information available about a patient and suggesting which diagnoses should be considered.

“This matters - these systems are no longer just passing medical exams or solving artificial test cases. They are starting to look like useful second-opinion tools for clinicians, particularly when it is important to consider a wider range of possible diagnoses and avoid missing something important.

“But this does not mean AI should be quickly ushered into clinical care without limits. Producing a good list of possible diagnoses is not the same as improving patient care. We still need studies showing that these tools help doctors and nurses make better decisions, reduce harm, avoid unnecessary tests, and work safely in busy hospitals and GP practices.

“This study moves the field forward, but it does not by itself change clinical practice. The responsible route is not to ban these systems, but also not to let them drift into casual use. They should be tested in real clinical settings, used as second-opinion tools rather than replacements for clinicians, and monitored against the outcomes that actually matter to patients: better, safer, quicker care.”

Dr Wei Xing, Assistant Professor in the University of Sheffield’s School of Mathematical and Physical Sciences, said:

“This is one of the largest evaluations of LLMs in clinical reasoning to date, and the inclusion of real emergency department data is a genuine step forward. Two findings in the paper, however, deserve more scrutiny than they received. In one management reasoning experiment, physicians using GPT-4 scored 41%, no better than GPT-4 alone at 42% and well above physicians without AI at 34%, suggesting that doctors may unconsciously defer to the AI's answer rather than thinking independently. This tendency could grow more significant as AI becomes more routinely used in clinical settings.

“The real-world data from 76 patients at a single elite academic centre tells a more nuanced story than the headline implies: o1 identified the correct diagnosis in 67% of triage cases against 55% and 50% for the two attending physicians, a genuine gap, but one with no accompanying analysis of where or for whom the model fails. Whether errors concentrate among elderly patients, non-English speakers, or those with atypical presentations remains entirely unknown, and without that analysis a strong average accuracy offers limited reassurance. What this study demonstrates is that an LLM can outperform physicians on structured, text-based reasoning tasks under controlled conditions. It does not demonstrate that AI is safe for routine clinical use, nor that the public should turn to freely available AI tools as a substitute for medical advice.”

Prof Aldo Faisal, Professor of AI & Neuroscience, Imperial College London, said:

Is this good quality research?

“Methodologically from the evaluation perspective this is exemplary: many physician baselines, blinded comparisons on real ER cases, validated rubrics. This is how clinical AI evaluation should be done.”

What are the implications? Is there overspeculation?

“A model that performs well on Boston case vignettes tells you little about a 78-year-old in a London emergency department with a head injury. That’s why we need sovereign, open health foundation models trained on UK and European health data. UK and Europe cannot safely deploy clinical AI for its own patients using only closed commercial American models. That is why we are building Nightingale AI.”

What does this paper actually show us?

“The question is no longer whether these systems can reason about a vignette, but whether they can reason about a patient and their multimodal data not just text — which is precisely the gap Nightingale AI is built to close.”

How does this fit with existing evidence?

“The trajectory is unambiguous — each generation of frontier models outperforms the last. The question now is whether we’ve saturated these benchmarks – I think we have. The frontier has moved from ‘can the model get the diagnosis’ to ‘can it help a clinician make a better decision in a real workflow.’”

Have the authors accounted for limitations?

“Three limitations matter. It’s text only — no imaging, no ECG, no patient in front of you. The cases were curated for teaching; real data are messy and contain many modalities. And the model is a closed US commercial system whose training data is a trade secret — we cannot fully audit what we cannot see inside.”

Are there risks of hallucinations and over-reliance?

“Both risks are real and this paper doesn’t address them. LLMs still confabulate confidently, and the more fluent the output, the more dangerous a wrong answer becomes.

“They used a US closed commercial model - we cannot fully audit what we cannot see inside.

“The answer is open, inspectable models with proper monitoring — which is precisely what Nightingale AI is being built to provide.”

Is AI ready to overtake doctors in the emergency room?

“No. Emergency medicine isn’t a diagnostic puzzle on text-based patient descriptions — it’s triage, resuscitation, judgement under uncertainty, talking to frightened families. The testing on scores of text vignettes don’t measure any of that. An AI second opinion at triage could be valuable, but only after prospective trials show real benefit. We are not there yet.”

Message for the public who might want to diagnose themselves with public/consumer AI?

“Don’t. A consumer chatbot is not a medical device. It has no regulatory status and no liability when it’s wrong. Use these tools to prepare better questions for your doctor — not to replace one.” … The gap between paper benchmark and real-world medicine is enormous.”

Declared interests

Prof Aldo Faisal: “Note I lead the Nightingale AI European/UK academic open and sovereign health foundation model called Nightingale-AI (nightingale—ai.org).”

Professor Ewen Harrison: “The senior authors and I are editors at NEJM AI.”

For all other experts, no reply to our request for DOIs was received.

아래는 독일 사이언스미디어센터(SMC Germany)에서 수집한 전문가 반응입니다. 독일 SMC 홈페이지에서도 확인할 수 있습니다.

► Prof. Dr. Felix Nensa

Forschungsgruppenleiter am Institut für künstliche Intelligenz in der Medizin und leitender Oberarzt am Institut für Diagnostische und Interventionelle Radiologie und Neuroradiologie, Universitätsklinikum Essen

Methodik der Studie

„Die Studie ist methodisch sauber gemacht. Sie nutzt mit Bond und R-IDEA validierte Bewertungssysteme, zwei verblindete Bewerter sowie TRIPOD-LLM-konforme Dokumentation. Außerdem wurden im Notaufnahme-Experiment tatsächlich echte, unstrukturierte elektronische Gesundheitsdaten (EHR-Daten) genutzt. Das geht über das übliche Vignettendesign hinaus.“

Übertragung auf die Praxis

„Die praktische Aussagekraft ist dennoch gering. Die getesteten Modelle OpenAI o1-preview und OpenAI o1 sind schon Anfang 2025 durch o3 abgelöst worden. Mittlerweile sind viele weitere Generationen dazugekommen. Schon bei Publikation waren sie nicht mehr State of the Art.“

„Für klinische Aufgaben werden zudem zunehmend agentische Systeme verwendet. Diese können über Tools auf spezialisierte Wissensdatenbanken zugreifen und sind reinen Sprachmodellen in der Regel deutlich überlegen. Auch die Beschränkung auf textbasierte Anfragen greift zu kurz. Denn moderne Modelle arbeiten multimodal. Insbesondere Bilder und Videos können sie verarbeiten. Das macht bei medizinischen Fragestellungen einen erheblichen Unterschied.“

„Bemerkenswert ist außerdem, dass die Studie zwar einen Vergleichsarm ‚Mensch und GPT-4‘ enthält, aber keinen Arm ‚Mensch und o1‘. Damit beantwortet sie genau die wissenschaftlich entscheidende Frage nach dem optimalen kombinierten System Mensch-Maschine nicht.“

Möglichkeit, dass Szenarien aus dem Modell-Training bekannt waren

„Zum ‚Auswendiglernen‘ Der einzige Test bestand im Vergleich der Leistung vor und nach dem Trainingsende im Oktober 2023. Mit nur 34 Fällen nach dem Ende ist diese Sensitivitätsanalyse strukturell unterdimensioniert. Etablierte Methoden wie Membership Inference Attacks, Paraphrase Robustness oder Closed- und Open-Book-Vergleiche (Möglichkeiten, um herauszufinden, ob bestimmte Daten im Training eines KI-Modells vorhanden waren; Anm. d. Red.) hätten vermutlich deutlich belastbarere Aussagen erlaubt.“

Einordnung in den Forschungskontext

„Die Ergebnisse sind nicht überraschend und reihen sich in eine Linie früherer Arbeiten ein. Diese finden für textbasierte Vignetten regelmäßig eine Überlegenheit moderner Sprachmodelle gegenüber Ärzt:innen. Währenddessen legen andere Studien nahe, dass Ärzt:innen mit GPT-4 oft kaum besser abschneiden als ohne [II]. Das deutet eher auf ein Workflow- und Vertrauensproblem hin als auf ein Modellproblem.“

„Der praktische Nutzen solcher Benchmarks bleibt daher begrenzt. Wesentlich wichtiger wären prospektive Studien am kalibrierten Gesamtsystem Mensch-Maschine mit aktueller Technologie. Oder noch besser: kontinuierliche Studien mit adaptiver Rekalibrierung und weiteren Endpunkten: Mitarbeiter- und Patientenzufriedenheit sowie Wirtschaftlichkeit und Ergebnisbewertung.“

Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme

„Eine plausible Erklärung ist, dass der Vorteil gerade dort am größten ist, wo wenig Information vorliegt und gleichzeitig schnell entschieden werden muss. Das trifft genau auf die Triage-Situation zu. Dort sind menschliche Entscheidungen unter Zeitdruck und Datenmangel besonders fehleranfällig. Sprachmodelle sind bestimmten situativen Einflüssen, die menschliche Entscheidungen prägen können, nicht in gleicher Weise ausgesetzt. Diese Einflüsse können etwa emotionale Interaktion mit Patient:innen, Unterschiede in Symptomdarstellung und Persönlichkeit, eine überfüllte Notaufnahme oder Ermüdung nach einer langen Schicht sein. Dadurch können Sprachmodelle Muster, Prävalenzen, ‚Satisfaction of Search‘ und ‚cannot miss‘-Diagnosen potenziell konsistenter berücksichtigen.“

Sinnvoller Einsatz von Sprachmodellen

„Den größten Mehrwert sehe ich derzeit darin, dass Sprachmodelle durch eine ganz andere Arbeitsweise in bestimmten Bereichen komplementär zu menschlichen Stärken und Schwächen sind. Außerdem können sie 24 Stunden am Tag, sieben Tage die Woche mit konstanter Qualität arbeiten, wenn sie korrekt eingesetzt werden. Dadurch können sie helfen, menschliche Fehler zu reduzieren.“

„Wichtig ist dabei immer die Betrachtung und sorgfältige Kalibrierung des Gesamtsystems Mensch-Maschine sowie die kontinuierliche Qualitätskontrolle. Für die kann man sich technisch viel aus der Labormedizin abschauen: interne und externe Qualitätskontrollen, Ringversuche (Experimente werden unter verschiedenen Umständen durchgeführt und die Ergebnisse verglichen; Anm. d. Red.) sowie Drift-Monitoring (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.).“

„Zur Vermeidung eines Automation Bias (Beeinflussung der menschlichen Entscheidung durch die Antwort der Maschine; Anm. d. Red.) gehört, dass Ärzt:innen ihre eigene Differenzialdiagnose begründen, bevor sie die KI-Ausgabe sehen. Außerdem müssen Konfidenzintervalle ausgewiesen und Entscheidungsänderungen systematisch erfasst und ausgewertet werden.“

Wie gelingt die Evaluierung von KI-Systemen?

„Wir müssen weg von realitätsfernen Einzelsystem-Experimenten und hin zu Studien an Systemen, die tief in die klinischen Abläufe integriert sind. Sie sollten Ende-zu-Ende im praktischen Einsatz überprüft werden. Konkret heißt das: ‚Silent Testing‘ beziehungsweise ‚Shadow Deployment‘. Dabei liefe das Modell mit, würde aber nicht ins Geschehen eingreifen. Sinnvoll könnten auch prospektive Stepped-Wedge-Cluster-RCTs (Art der randomisierten kontrollierten Studie, bei der die Teilnehmenden die Intervention in verschiedenen Wellen bekommen; Anm. d. Red.) und kontinuierliche Leistungsüberwachung mit Drift-Detection (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.) sein. Eine weitere Option wäre ein Post-Market-Surveillance-Modell analog zur Medical Device Regulation (MDR) oder der In Vitro Diagnostic Regulation (IVDR) (Überwachung eines Systems würde auch nach Markteinführung fortgesetzt; Anm. d. Red.).“

„Als Endpunkte gehören neben Diagnosegenauigkeit insbesondere die Zeit, bis eine Diagnose gestellt wurde, dazu. Außerdem sollten Verweildauer, 30-Tage-Mortalität, Wiedereinlieferung, Kosten sowie Patienten- und Mitarbeiterzufriedenheit berücksichtigt werden. Das ist zugegeben viel mehr Aufwand. Aber den betreiben wir ja auch in anderen Bereichen, in denen es um viel geht – zum Beispiel in der Luftfahrt.“

► Prof. Dr. Thomas Neumuth

Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig

Methodik der Studie

„Die Studie ist sorgfältiger angelegt als die meisten bisherigen Vergleiche zwischen künstlicher Intelligenz (KI) und Ärzt:innen: Sie prüft die KI in sechs verschiedenen Aufgaben und vergleicht sie mit hunderten Mediziner:innen. Außerdem bewerten zwei unabhängige Fachärzt:innen die Antworten, ohne zu wissen, ob sie von einem Menschen oder von der KI stammen.“

„Schwächen gibt es trotzdem: Manche Teilexperimente nutzen nur fünf oder sechs Fälle und die Bewertung ‚richtig oder falsch‘ hängt am ärztlichen Urteil. Zudem wurde nur Text getestet, nicht das, was im Klinikalltag wirklich passiert. Den Verdacht, dass die KI alte Fälle des New England Journal of Medicine (NEJM) aus dem Training kennt, haben die Autor:innen ernst genommen: Sie verglichen Fälle vor und nach dem Trainingsstichtag und fanden keinen Unterschied. Und sie nutzten zusätzlich Fälle, die nie veröffentlicht worden waren. Der überzeugendste Teil sind deshalb die 76 echten Notaufnahme-Fälle aus dem Krankenhaus. Die kann die KI unmöglich vorher gesehen haben.“

Einordnung in den Forschungskontext

„Wirklich neu sind die Ergebnisse nicht. Sie bestätigen einen Befund, der seit etwa zwei Jahren in mehreren Studien immer wieder auftaucht: Die KI alleine schneidet oft besser ab als Ärzt:innen. Und überraschenderweise schneidet sie auch besser als Ärzt:innen ab, die die KI als Hilfsmittel nutzen dürfen. Das ist eigentlich kontraintuitiv. Man würde erwarten, dass ‚Mensch plus Maschine‘ das beste Team ist. In der Praxis nehmen Ärzt:innen die KI-Vorschläge aber oft nur halbherzig an, ignorieren sie oder vertrauen ihnen zu wenig.“

„Neu an dieser Studie ist vor allem die Größe des Vergleichs und der Schritt aus der Lehrbuchwelt heraus: Sie testet die KI nicht nur an aufgeräumten Übungsfällen, sondern an echten, unsortierten Patientendaten aus einer Notaufnahme.“

Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme

„Dass die KI ausgerechnet bei der ersten Einschätzung in der Notaufnahme glänzt, hat einen einfachen Grund: Genau dort liegen kaum Informationen vor und die Zeit ist knapp. Menschen neigen dann dazu, sich vorschnell auf eine Verdachtsdiagnose festzulegen. Die KI kann dagegen viele mögliche Erklärungen gleichzeitig im Kopf behalten, ohne müde zu werden.“

Sinnvoller Einsatz von Sprachmodellen

„Den größten Nutzen wird das Sprachmodell nicht beim Stellen der endgültigen Diagnose haben, sondern als eine Art Sicherheitsnetz im Hintergrund: Es kann seltene oder leicht übersehene Krankheiten in Erinnerung rufen und prüfen, ob alle wichtigen Untersuchungen angefordert wurden. So kann es klassische Fehlerquellen abfedern.“

„Sinnvoll integriert wäre die KI als verpflichtende Zweitmeinung: Die Ärztin entscheidet zuerst selbst, danach zeigt das System seinen Vorschlag, sodass der Mensch die Verantwortung behält. Damit niemand der KI blind vertraut, braucht es klare Regeln, Schulungen und eine laufende Kontrolle der Empfehlungen.“

Übertragung auf die Praxis

„Die Ergebnisse sind nur bedingt übertragbar. Im Klinikalltag passiert viel mehr, als Text zu lesen: Ärzt:innen sehen, ob ein Patient unruhig wirkt, hören auf seinen Atem, schauen Röntgenbilder an und stellen Rückfragen. All das fehlt in der Studie komplett, weil das Modell nur fertig aufgeschriebene Fälle bekommt. Auch die Aufgabe, eine Zweitmeinung an drei festen Punkten zu geben, bildet keine echte Notaufnahme ab. Denn in der geht es vor allem um schnelle Triage (Verfahren zur Priorisierung von Notfällen; Anm. d. Red.) und sofortiges Handeln.“

„Ob ein KI-System wirklich hilft, lässt sich deshalb nicht durch immer neue Schreibtisch-Tests klären, sondern nur durch echte klinische Studien. Diese sollten messen, was zählt: weniger Fehldiagnosen, kürzere Wartezeiten sowie bessere Patientenergebnisse. Und es braucht eine dauerhafte Überwachung im Einsatz, ähnlich wie bei neu zugelassenen Medikamenten.“

Gesetzlicher Rahmen für die Verwendung von Sprachmodellen bei der Diagnose

„Rechtlich gesehen darf eine allgemeine LLM-gestützte Sprach-KI in Europa und den USA bisher nicht regulär für Diagnosen eingesetzt werden: Sobald sie zur Diagnose oder Therapieempfehlung dient, gilt sie als Medizinprodukt und muss zugelassen werden. Und genau das ist bislang für kein generatives Sprachmodell der Fall.“

„Das Problem ist grundsätzlich: Die heutigen Zulassungsverfahren sind für Software gedacht, die immer dieselbe Antwort gibt. Sprachmodelle aber antworten jedes Mal etwas anders und werden ständig aktualisiert. Außerdem sind sie für tausende Krankheitsbilder einsetzbar. Für so etwas gibt es schlicht noch keinen passenden Zulassungsweg. Wer das Modell heute am Patienten einsetzt, bewegt sich also entweder in einer klar abgegrenzten Forschungssituation oder in einer Grauzone. In dieser Grauzone ist unklar, wer haftet, wenn etwas schiefgeht – Ärztin, Klinik oder Hersteller.“

„Bevor solche Systeme in den Regelbetrieb gehen können, braucht es echte klinische Studien mit messbarem Patientennutzen. Außerdem sind eine eindeutige Festlegung, wofür das Modell genau zugelassen ist, sowie eine laufende Sicherheitsüberwachung wie bei Medikamenten wichtig. Haftungs- und Datenschutzregeln müssen geklärt und eine Lösung dafür gefunden werden, wie sensible Patientendaten überhaupt an solche Systeme weitergegeben werden dürfen.“

Interessenkonflikte

Prof. Dr. Felix Nensa: „Ich sehe keinen Interessenkonflikt.“

Prof. Dr. Thomas Neumuth: „Ich habe keine Interessenskonflikte.“

아래는 스페인 사이언스미디어센터(SMC Spain)에서 수집한 전문가 반응입니다. 스페인 SMC 홈페이지에서도 확인할 수 있습니다.

Ignacio Miranda, responsable de la Unidad de Diagnóstico por Imagen de Mama en el International Breast Cancer Center (IBCC) y en el Centro Médico Teknon de Barcelona, dice:

“El estudio analiza si un modelo de lenguaje avanzado (LLM) puede realizar tareas de razonamiento clínico al nivel de los médicos. El resultado principal es que el modelo iguala o supera a los profesionales en varias pruebas, incluso en algunos casos reales de urgencias.

Para evaluarlo, los investigadores compararon el modelo con cientos de médicos en seis tipos de tareas: diagnóstico en casos complejos, explicación del razonamiento clínico, decisiones de tratamiento, casos diagnósticos clásicos, estimación de probabilidades y situaciones reales en urgencias.

Los resultados muestran un rendimiento muy alto: el modelo acierta el diagnóstico en la mayoría de los casos (hasta casi el 98 % si se incluyen diagnósticos cercanos), selecciona correctamente pruebas médicas, obtiene puntuaciones casi perfectas en razonamiento clínico y supera a médicos en decisiones de tratamiento. También muestra un rendimiento comparable o superior en urgencias, especialmente, en fases iniciales con poca información.

Sin embargo, el estudio tiene limitaciones importantes: se basa solo en texto, utiliza casos más estructurados que la práctica real (casos más ‘limpios’), no cubre todas las áreas de la medicina y no sustituye el juicio clínico completo.

En conclusión, estos modelos ya superan muchos estándares clásicos de razonamiento médico y podrían mejorar el diagnóstico y la toma de decisiones. Aun así, es necesario validarlos en entornos reales y definir cómo integrarlos de forma segura.

La idea central no es reemplazar al médico, sino usar la IA como una herramienta de apoyo potente, especialmente, en situaciones complejas o con incertidumbre.

El estudio es gran calidad. Está bien diseñado, compara directamente con médicos, incluye distintos tipos de pruebas y hasta casos reales de urgencias. Aun así, no es una evidencia definitiva sino una demostración sólida de capacidad en condiciones controladas.

Como decía, tiene algunas limitaciones importantes. Solo analiza texto (sin exploración física ni imágenes), usa casos más ordenados que en la práctica clínica real y no mide si mejora resultados en pacientes. Además, la comparación con médicos es algo artificial y no profundiza en errores críticos. En resumen, evalúa rendimiento teórico más que práctica clínica real.

En cuanto a implicaciones, confirma que la IA ya es competitiva en tareas cognitivas médicas y mejora lo visto en estudios previos. Sin embargo, todavía faltan ensayos clínicos reales, validación de seguridad y pruebas de impacto en pacientes antes de adoptarla ampliamente.

Como comentaba, la integración más realista no es sustituir a los médicos, sino usar la IA como apoyo para una segunda opinión, sistema de alerta, ayuda al razonamiento y soporte en el triaje, especialmente, en situaciones de presión y poca información. La clave es usarla como ‘copiloto’, no de forma autónoma.

El rol del médico cambia, pero sigue siendo esencial. Tendrá menos peso el memorizar o enumerar diagnósticos y más el integrar información compleja, tomar decisiones, tratar con pacientes y supervisar la IA. En conjunto, el escenario más probable es que la combinación médico + IA supere claramente a cualquiera por separado”.

Declara no tener conflictos de interés.

한국과학기술미디어센터(SMCK) 소개

한국과학기술미디어센터는 근거 기반의 과학 정보를 언론에 제공하는, 과학계와 미디어 사이의 다리 역할을 하는 독립 비영리 조직입니다. 잘못된 정보와 가짜 뉴스가 넘쳐나는 세상에서, 제대로 된 전문가의 해설과 의견을 빠르고 다양하게 기자들에게 제시하고 이를 체계적으로 아카이빙하는 역할을 합니다.

2025년 7월 이사회를 구성하고(이사장 노정혜 전 한국연구재단 이사장) 센터장(이근영 전 한겨레 과학전문기자)을 선임했으며, 같은해 9월 개소식을 열며 활동을 시작했습니다.

*참고 기사:

SMCK 역할

SMCK는 세 분야 전문가인 과학자, 기관 커뮤니케이터(홍보팀), 기자에게 구체적인 도움을 드리고자 설립됐습니다. 각각 아래와 같습니다.

과학자, 연구자에게는 의견과 해설이 온전한 맥락과 함께 제공되는 안전한 발언 공간이 돼줍니다. 선의를 위해 한 논평이 기사화 과정에서 왜곡되거나 부정확하게 변질될 우려를 줄이는 완충 작용을 합니다.
기관 홍보 담당자에게는 기관의 성과를 기자들에게 보다 객관적이고 정교하게 알리고, SMC 글로벌 네트워크를 통해 영향력을 높일 기회를 제공합니다.
기자에게는 사안을 해석하는 데 도움이 될 치우침 없는 종합적인 정보를 빠르고 풍성하게 제공하고, 이를 통해 기사에서 과학과 기술을 보다 자유롭고 편리하게 활용하도록 돕습니다.

SMCK는 이를 통해, 궁극적으로 근거에 기반해 사안을 합리적으로 판단하고 이것이 정책에까지 반영되는 사회를 만드는 데 기여하고자 합니다.

해외 협력

사이언스미디어센터(SMC)는 2002년 영국에서 최초로 설립됐고 현재 호주와 뉴질랜드, 독일, 스페인, 대만, 아일랜드 등으로 확장됐습니다. 한국은 2025년 12월, 7번째 센터로 합류했습니다. 글로벌 네트워크에 포함된 8개 조직은 엄격한 독립성과 신뢰성이라는 가치를 공유하고 있으며 협력을 통해 주요한 국제 과학 이슈에 공동 대응하고 있습니다.