ИИ превосходит врачей в диагностике: результаты исследования и вызовы реальной практики

1

Новое исследование, опубликованное в журнале Science, показывает, что продвинутые системы искусственного интеллекта теперь могут соответствовать или даже превосходить точность диагнозов, поставленных врачами, в контролируемых клинических условиях. В ходе работы исследователи протестировали новейшую модель логического вывода от OpenAI — o1 — сравнив её с предыдущими версиями ИИ и медицинскими специалистами. Это событие стало значительным этапом в развитии медицинских технологий. Однако эксперты предупреждают: несмотря на впечатляющие результаты, технология пока не готова заменить врачей из-за сложности и непредсказуемости реальной медицинской практики.

Исследование: ИИ против человеческого диагноза

Исследователи использовали ранее невиданные клинические случаи, чтобы сравнить эффективность модели o1 от OpenAI с её предшественником GPT-4, а также с опытными врачами и резидентами. Тестирование проводилось в среде, имитирующей электронные медицинские карты пациентов из отделения неотложной помощи одной из больниц Бостона.

Результаты оказались поразительными:
* Преимущество ИИ: Модель o1 устанавливала точный диагноз более чем в двух третях случаев при первичном сортировании пациентов.
* Показатели людей: В то же время два опытных лечащих врача ставили правильный диагноз лишь примерно в половине случаев.
* Прогресс моделей: Модель o1 продемонстрировала значительное улучшение по сравнению с GPT-4, что подчеркивает стремительное развитие возможностей искусственного интеллекта в области логического мышления.

Доктор Роберт Уachter, профессор и заведующий кафедрой медицины Калифорнийского университета в Сан-Франциско (UCSF), назвал эти результаты «неоспоримым» доказательством того, что современный ИИ способен превосходить как старые языковые модели, так и человеческих врачей в определении диагнозов и следующих шагов лечения. Однако он подчеркнул, что этот успех ограничен специфическими условиями и пока не может быть напрямую перенесён в клиническую практику.

Разрыв между данными и реальностью

Несмотря на обнадеживающую статистику, исследование имеет заметные ограничения, которые не позволяют ИИ немедленно взять на себя ведущую роль в диагностике. Эксперименты опирались исключительно на текстовые данные, часто искусственно «очищенные» и структурированные клинические записи. Это резко контрастирует с хаотичной реальностью приёмных отделений, где врачам приходится интерпретировать широкий спектр нетекстовых сигналов.

Ключевые элементы, отсутствовавшие в тестировании ИИ, включали:
* Визуальные и слуховые признаки: уровень дистресса пациента, цвет кожи, паттерны дыхания и другие физические симптомы.
* Медицинскую визуализацию: рентгеновские снимки, МРТ и другие диагностические изображения.
* Состояние пациента: такие факторы, как страх, состояние опьянения или быстрое физическое ухудшение.

Доктор Ашвин Рамасвами, преподаватель урологии в больнице Маунт-Синай, отметил, что ИИ работал с информацией, которая уже была отфильтрована и задокументирована людьми. В реальной жизни врачи должны сами собирать эти данные, параллельно управляя непредсказуемым поведением пациентов и их эмоциональным состоянием.

«Это упускает центральную часть работы „быть врачом“», — сказал Рамасвами. «Это демонстрирует прогресс технологии, но это совсем не то же самое, что войти в приёмный покой и справиться с хаосом».

Риск «неровной» производительности

Одной из главных обеспокоенностей экспертов является непредсказуемость ошибок ИИ. Хотя искусственный интеллект может отлично справляться с диагностикой редких или сложных заболеваний, он всё ещё может упускать клинически очевидные проблемы. Это явление, описанное исследователями как «неровная» производительность, означает, что надёжность ИИ не является равномерной во всех медицинских сценариях.

Рамасвами указал, что исследование не предоставило подробных сведений о конкретных ошибках, допущенных как врачами, так и ИИ. Понимание того, была ли ошибка незначительным промахом или опасной необъяснимой ошибкой, критически важно для оценки безопасности. Без этой прозрачности риск вреда, вызванного ИИ, остаётся значительным.

Будущее: сотрудничество, а не замена

Среди экспертов сложился консенсус: ИИ следует рассматривать как мощный вспомогательный инструмент, а не как замену человеческим врачам. Авторы исследования, многие из которых работают в Медицинском центре Бет Исраэль Деаконасс в Бостоне, призвали к срочным дальнейшим исследованиям и проспективным клиническим испытаниям для безопасной интеграции ИИ в практику.

Сопроводительный редакционный материал в Science, написанный экспертами из Института медицинских исследований Флиндерса в Австралии, поддержал эту точку зрения. Они выступали за модель сотрудничества, при которой ИИ обеспечивает контроль и вторые мнения, а люди сохраняют контекстуальную оценку и ответственность.

Таким образом, хотя ИИ продемонстрировал выдающиеся диагностические возможности, превосходящие человеческие показатели в контролируемых условиях, сложность реальной медицины требует человеческого надзора. Будущее здравоохранения заключается не в замене врачей, а в использовании ИИ как сложного партнёра, повышающего точность и поддерживающего клиническое принятие решений.