Teresa Numerico

Gli algoritmi di machine learning promettono di rivoluzionare diversi campi del sapere e fra questi anche l’ambito delle ricerche in medicina. La tesi è che gli strumenti intelligenti possano portare benefici duraturi, risparmi notevoli e cambiamenti profondi nel campo della diagnostica complessa (per esempio nell’oncologia) e in quello del riconoscimento di modelli (pattern recognition) come nel caso della radiologia. Tuttavia non tutte le promesse sono senza rischi. Un articolo dal titolo Unintended consequences of machine learning in medicine, uscito il 20 luglio scorso su «Jama», la rivista dell’American Medical Association a firma di Federico Cabitza, Raffaele Rasoini e Gian Franco Gensini, mette in discussione alcuni dei vantaggi promessi dalle applicazioni di machine learning e deep learning a supporto della presa di decisione medica.

La prima critica si appunta sui rischi per la perdita di competenze degli specialisti coadiuvati dagli strumenti diagnostici considerati intelligenti: il cosiddetto deskilling, cioè la riduzione delle capacità necessarie degli operatori quando i compiti che svolgono vengono automatizzati. Il risultato dell’abbassamento della richiesta cognitiva comporta una perdita di capacità diagnostica dei medici che in presenza di indicazioni suggerite dalla macchina tendono a seguirle senza attenzione anche quando sono poco accurate, come dimostrano alcuni studi. Inoltre la scelta di automatizzare le pratiche diagnostiche si concentra sui dati misurabili per fornire una valutazione trascurando fattori che, pure influenti, non possono essere misurati e quindi maneggiati dal dispositivo di supporto alla presa di decisione. Il meccanismo spinge a sottovalutare i fattori del contesto finendo per proporre analisi inadeguate delle malattie e delle loro possibilità di cura.

Inoltre spesso ci troviamo di fronte a pareri contrastanti, da parte dei medici, sulle cure da prestare. Tale esito non riguarda solo mancanze interpretative da parte dei medici ma una «intrinseca ambivalenza dei fenomeni sotto osservazione». L’ambivalenza del fenomeno patologico trattata dall’algoritmo intelligente deve essere cancellata in vista di ottimizzare il risultato degli strumenti di machine learning a supporto della presa di decisione medica con la conseguenza di sottostimare la variabilità di una valutazione, producendo ipotesi sbagliate.

Dal momento che gli algoritmi considerati di maggior successo sono anche quelli più opachi, come le reti neurali artificiali, è sempre più difficile farsi un’idea di come funzionino questi dispositivi. I più raffinati algoritmi di machine learning, quelli che oggi hanno maggior successo (chiamati deep learning) sono i più imperscrutabili e questo vale non solo per i medici che devono adoperarli, ma anche per gli ingegneri che li hanno progettati.

Quando i sistemi diventano troppo opachi, però, è impossibile controllare le conclusioni scorrette alle quali sono pervenuti perché nessuno ha accesso ai metodi per formulare le ipotesi. Una volta adottati i dispositivi in una struttura medica, nessuno si sogna di controllarne la capacità decisionale misurandone i falsi positivi e i veri negativi. Si dà per scontato che la macchina sia più accurata e più affidabile. Si tratta dello stesso fenomeno dei vaticini oracolari: siccome nessuno conosce i metodi della Pizia di Delfi, nessuno può dimostrare che sia in errore. Ma questo – conclude l’articolo – può condurre la medicina contemporanea a commettere errori che nessuno potrà valutare, a meno che non si affianchino ai dispositivi test clinici che dimostrino l’effettivo beneficio di questi strumenti a fronte dei sistemi di cura precedenti. Tali precauzioni, però, sono impopolari perché aggiungerebbero altri costi all’ingente investimento di acquisire le macchine per il supporto alla decisione, e inoltre potrebbero dimostrare l’inefficacia dell’investimento. Un risultato piuttosto sconveniente.

Un esempio del rischio che si corre nella ricerca clinica adottando strumenti di automazione per l’analisi di dati senza controllo è la collaborazione annunciata il 17 luglio scorso tra Verily, la costola di Google dedicata alla salute, e l’ambizioso studio sul Post traumatic stress disorder (disturbo post traumatico da stress) finanziato dal National Institute of Health (NIH) che coinvolge 19 istituzioni sanitarie, sotto la guida dell’università della North-Carolina e di Harvard. Il progetto da 21 milioni di dollari, dal nome AURORA, si propone di indagare su 5000 soggetti sottoposti a stress per valutare anche a lungo termine le modifiche dei bio-marcatori, e monitorare una serie di altri elementi attraverso lo study watch, un braccialetto indossabile che misurerà tutti i dettagli non solo corporei (battito cardiaco, pressione sanguigna ecc.), ma anche le attività digitali che potrebbero evidenziare una depressione incipiente. Il problema del disturbo da stress è che, sebbene molti casi vengano rubricati sotto una stessa categoria, presentano caratteristiche molto differenti da soggetto a soggetto e il quadro sintomatico è estremamente composito e dipendente dalla singolarità dei pazienti.

AURORA si propone di raccogliere dati su potenziali malati per analizzarli attraverso algoritmi intelligenti in grado di interpretarli. Al progetto ha aderito anche Mindstrong, una startup medica specializzata nel misurare segni di stress dalla velocità di battitura dei messaggi sul cellulare, e da altri marcatori simili, una specie di «fenotipo digitale» del disturbo, come viene definito su «Wired» in un articolo sull’argomento dell’8 agosto scorso.

Se concordiamo sull’attribuire le capacità cognitive e i disturbi psicologici socialmente, includendo in questa dimensione sociale anche dispositivi, considerati intelligenti, in grado di registrare e valutare comportamenti, saremo pronti a modificare quello che riteniamo accettabile come una terapia clinica per curare lo stress da trauma. L’attitudine sociale modifica sia lo spettro degli attori che la possano riconoscere e diagnosticare, sia il modo in cui pensiamo alla sofferenza psichica umana. Ciò induce a ritenere che si possano automatizzare i processi diagnostici e i sistemi di cura, cancellando il carattere aleatorio della reattività umana di fronte alla condizione traumatica. Una medicina da somministrare a tutti quelli che hanno subito un trauma per non attivare la depressione al ricordo dell’evento, potrebbe non essere quello che serve per la «cura» di esseri umani, eppure è l’unica cosa che i «dispositivi intelligenti» in azione e l’apparato della ricerca stanno cercando di individuare.

Lo stress post traumatico è il disturbo tipico dei soldati che ritornano dal fronte. Pensare di cancellarlo con un trattamento a base di pillole elimina tutta la discussione sulla dimensione sociale del disagio e sulle sue cause profonde. Credere di poter diagnosticare la depressione dal modo in cui si usa il cellulare, inoltre, è una sorta di hybris da control freak tecnologico. Eppure un grande progetto finanziato dall’agenzia americana per la salute si appoggia a Verily e a Mindstrong per analizzare i dati e anche per costituire e monitorare la platea di controllo: 10.000 individui sani tenuti sotto osservazione come i soggetti sottoposti a stress, a lungo termine. Con buona pace degli standard di tutela della privacy. Raccogliere dati costa molto e avere partner potenti come Google e le altre start up tecnologiche può essere un vantaggio competitivo anche per grandi progetti di ricerca a finanziamento pubblico. Ma chi beneficerà dei risultati e ne potrà sfruttare i brevetti?

L’automazione della ricerca medica e dei sistemi di cura, insieme con un’opacità sempre più accentuata degli algoritmi di machine learning o deep learning, corre il rischio di non permettere una valutazione corretta dei metodi e di perdere il controllo delle soluzioni prescelte. Tutte le pratiche che siamo disposti a riconoscere come intelligenti vengono adottate senza ulteriori verifiche e senza la possibilità dell’intervento cognitivo umano. Tutto questo potrebbe non essere un vantaggio per la collettività, ma chi potrà esercitare il giudizio?

Chi si troverà nella condizione di segnalare se i programmatori della macchina che produce algoritmi per analizzare dati di pazienti affetti dallo stress post-traumatico stanno bluffando, o si basano su ipotesi inesatte? Chi ne avrà le capacità o il potere? La scelta di attribuire intelligenza e razionalità a un dispositivo, e a chi lo programma, sarà una scelta politica, ma pochi si troveranno nella posizione privilegiata di partecipare al processo di valutazione.

Share →

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Il tuo commento dovrà essere approvato prima di apparire.

Iscriviti alle notizie da alfabeta2 e alfapiù

* = campo richiesto!

Archivi