La diagnosi basata sull’intelligenza artificiale batte i medici nello studio, ma il caos nel mondo reale rimane un ostacolo

3

Un nuovo studio pubblicato su Science rivela che l’intelligenza artificiale avanzata può ora eguagliare o superare l’accuratezza diagnostica dei medici umani in scenari clinici controllati. La ricerca, che ha testato l’ultimo modello di ragionamento di OpenAI, o1, sia rispetto alle versioni precedenti dell’IA che ai professionisti medici, segna una pietra miliare significativa nella tecnologia sanitaria. Tuttavia, gli esperti avvertono che, sebbene la tecnologia sia impressionante, non è ancora pronta a sostituire i medici a causa della natura complessa e imprevedibile della pratica medica nella vita reale.

Lo studio: intelligenza artificiale contro diagnosi umana

I ricercatori hanno utilizzato casi clinici mai visti prima per confrontare le prestazioni del modello o1 di OpenAI rispetto al suo predecessore, GPT-4, nonché a medici esperti e specializzandi. L’ambiente di test ha simulato le cartelle cliniche elettroniche dei casi del pronto soccorso di un ospedale di Boston.

I risultati sono stati sorprendenti:
* Superiorità dell’intelligenza artificiale: il modello o1 si è rivelato accurato dal punto di vista diagnostico per più di due terzi delle volte durante il triage iniziale.
* Prestazioni umane: Al contrario, due medici curanti esperti hanno fornito diagnosi corrette circa la metà delle volte.
* Miglioramento del modello: il modello o1 ha mostrato miglioramenti significativi rispetto a GPT-4, evidenziando la rapida evoluzione delle capacità di ragionamento dell’IA.

Il dottor Robert Wachter, professore e presidente del Dipartimento di Medicina dell’UCSF, ha descritto i risultati come una prova “indiscutibile” che l’intelligenza artificiale moderna può superare sia i modelli linguistici più vecchi che i medici umani nell’identificazione delle diagnosi e dei passi successivi. Tuttavia, ha sottolineato che questo successo è limitato a condizioni specifiche e non si traduce ancora direttamente nella pratica clinica.

Il divario tra dati e realtà

Nonostante le statistiche promettenti, lo studio presenta notevoli limiti che impediscono all’IA di assumere immediatamente un ruolo diagnostico primario. Gli esperimenti si basavano esclusivamente su input di solo testo, spesso note cliniche artificialmente “pulite” e strutturate. Ciò è in netto contrasto con la realtà caotica dei pronto soccorso, dove i medici devono interpretare un’ampia gamma di segnali non testuali.

Gli elementi chiave mancanti nei test sull’intelligenza artificiale includevano:
* Indizi visivi e uditivi: Livelli di disagio del paziente, colore della pelle, modalità di respirazione e altri segni fisici.
* Imaging medico: Raggi X, risonanza magnetica e altri elementi visivi diagnostici.
* Stato del paziente: Fattori quali paura, intossicazione o rapido deterioramento fisico.

Il dottor Ashwin Ramaswamy, un istruttore di urologia al Monte Sinai, ha osservato che l’intelligenza artificiale ragionava su informazioni che erano già state filtrate e documentate dagli esseri umani. Nella vita reale, i medici devono raccogliere queste informazioni da soli mentre gestiscono i comportamenti e gli stati emotivi imprevedibili dei pazienti.

“Questo salta una parte centrale del lavoro di ‘essere un medico'”, ha detto Ramaswamy. “Mostra il progresso della tecnologia, ma non è la stessa cosa che entrare in un pronto soccorso e affrontare il caos.”

Il rischio di prestazioni “frastagliate”.

Una delle principali preoccupazioni tra gli esperti è l’imprevedibilità degli errori dell’IA. Sebbene l’intelligenza artificiale possa eccellere nella diagnosi di malattie rare o complesse, può comunque trascurare problemi clinicamente evidenti. Questo fenomeno, descritto dai ricercatori come prestazioni “frastagliate”, significa che l’affidabilità dell’intelligenza artificiale non è uniforme in tutti gli scenari medici.

Ramaswamy ha sottolineato che lo studio non ha fornito approfondimenti dettagliati sugli errori specifici commessi né dai medici né dall’intelligenza artificiale. Capire se un errore è stato un incidente mancato o un errore pericoloso e inspiegabile è fondamentale per determinare la sicurezza. Senza questa trasparenza, il rischio di danni indotti dall’IA rimane significativo.

Il futuro: collaborazione, non sostituzione

Il consenso tra gli esperti è che l’intelligenza artificiale dovrebbe essere vista come un potente strumento di assistenza piuttosto che come un sostituto dei medici umani. Gli autori dello studio, molti dei quali provenienti dal Beth Israel Deaconess Medical Center di Boston, hanno chiesto ulteriori ricerche urgenti e studi clinici prospettici per integrare in modo sicuro l’intelligenza artificiale nella pratica.

Un editoriale di accompagnamento su Science redatto da esperti del Flinders Health and Medical Research Institute in Australia ha rafforzato questo punto di vista. Sostenevano un modello collaborativo in cui l’intelligenza artificiale fornisce supervisione e seconde opinioni, mentre gli esseri umani mantengono il giudizio contestuale e la responsabilità.

In conclusione, mentre l’intelligenza artificiale ha dimostrato notevoli capacità diagnostiche che superano le prestazioni umane in contesti controllati, la complessità della medicina nel mondo reale richiede la supervisione umana. Il futuro dell’assistenza sanitaria non sta nel sostituire i medici, ma nello sfruttare l’intelligenza artificiale come partner sofisticato per migliorare la precisione e supportare il processo decisionale clinico.