В исследовании Harvard AI поставил более точные диагнозы в приемном отделении, чем два врача
11:00 AM PDT · May 3, 2026
Новое исследование изучает, как большие языковые модели работают в разных медицинских сценариях, включая реальные случаи из приемного отделения, — и как минимум в одном случае модель, похоже, оказалась точнее врачей.
Исследование было опубликовано на этой неделе в Science и подготовлено командой исследователей под руководством врачей и специалистов по компьютерным наукам из Harvard Medical School и Beth Israel Deaconess Medical Center. Авторы сообщили, что провели серию экспериментов, чтобы оценить, как модели OpenAI сравниваются с врачами.
В одном из экспериментов исследователи сосредоточились на 76 пациентах, поступивших в приемное отделение Beth Israel, сравнивая диагнозы двух дежурных врачей с диагнозами, сгенерированными моделями OpenAI o1 и 4o. Эти диагнозы оценивали два других дежурных врача, которые не знали, какие ответы были получены от людей, а какие — от AI.
«На каждом диагностическом этапе o1 либо немного превосходила двух дежурных врачей и 4o, либо показывала результат на их уровне», — говорится в исследовании. Авторы добавили, что различия «были особенно заметны на первом диагностическом этапе (первичная сортировка в приемном отделении), где информации о пациенте меньше всего, а необходимость принять верное решение наиболее срочная».
В пресс-релизе Harvard Medical School, посвященном исследованию, исследователи подчеркнули, что они вообще не «предобрабатывали данные» — модели AI получали ту же информацию, которая была доступна в электронных медицинских записях на момент постановки каждого диагноза.
При таком наборе данных модель o1 смогла дать «точный или очень близкий диагноз» в 67% случаев на этапе сортировки, тогда как один врач сделал это в 55% случаев, а другой — в 50% случаев.
«Мы протестировали AI-модель практически по каждому доступному бенчмарку, и она превзошла как предыдущие модели, так и наши врачебные базовые показатели», — сказал Arjun Manrai, руководитель AI-лаборатории в Harvard Medical School и один из ведущих авторов исследования, в пресс-релизе.
Meet your next investor or portfolio startup at Disrupt
Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $410.
Meet your next investor or portfolio startup at Disrupt
Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $410.
San Francisco, CA|October 13-15, 2026
Если говорить прямо, исследование не утверждает, что AI уже готов принимать реальные решения о жизни и смерти в приемном отделении. Напротив, в нем говорится, что полученные результаты показывают «неотложную необходимость проспективных испытаний, чтобы оценить эти технологии в реальных условиях оказания помощи пациентам».
Исследователи также отметили, что изучали только то, как модели работают с текстовой информацией, и что «существующие исследования показывают: современные foundation models более ограничены в рассуждениях по нетекстовым входным данным».
Adam Rodman, врач Beth Israel и один из ведущих авторов исследования, сказал The Guardian, что сейчас вокруг диагнозов AI «нет формальной рамки ответственности», а пациенты по-прежнему «хотят, чтобы люди помогали им проходить через решения о жизни и смерти [и] сопровождали их в сложных решениях о лечении».
Материал — перевод статьи с английского.
Оригинал: In Harvard study, AI offered more accurate emergency room diagnoses than two human doctors