AI LIGE Så GOD TIL AT DIAGNOSTICERE SYGDOM SOM MENNESKER

Den første systematiske gennemgang og metaanalyse af sin art finder, at kunstig intelligens (AI) er lige så god til at diagnosticere en sygdom baseret på et medicinsk image som sundhedspersonale. Imidlertid er flere studier af høj kvalitet nødvendige.

AI og sundhedspersonale er lige så effektive til at diagnosticere sygdom baseret på medicinsk billeddannelse, viser ny forskning.

En ny artikel undersøger de eksisterende beviser i et forsøg på at afgøre, om AI kan diagnosticere sygdomme lige så effektivt som sundhedspersonale.

Efter forfatternes viden - det vil sige et stort team af forskere ledet af professor Alastair Denniston fra University Hospitals Birmingham NHS Foundation Trust i Det Forenede Kongerige - er dette den første systematiske gennemgang, der sammenligner AI-præstationer med medicinske fagfolk for alle sygdomme.

Prof.Denniston og team søgte i flere medicinske databaser for alle undersøgelser, der blev offentliggjort mellem 1. januar 2012 og 6. juni 2019. Holdet offentliggjorde resultaterne af deres analyse i tidsskriftet Lancet Digital Health.

AI på niveau med sundhedspersonale

Forskerne ledte efter undersøgelser, der sammenlignede den diagnostiske effektivitet af dyb læringsalgoritmer med sundhedspersonale, da de havde stillet en diagnose baseret på medicinsk billeddannelse.

De undersøgte kvaliteten af rapporteringen i de nævnte undersøgelser, deres kliniske værdi og undersøgelsernes design.

Desuden, når det kom til at vurdere AI's diagnostiske ydeevne sammenlignet med sundhedspersonale, så forskerne på to resultater: specificitet og følsomhed.

"Følsomhed" definerer sandsynligheden for, at et diagnostisk værktøj får et positivt resultat hos mennesker, der har sygdommen. Specificitet henviser til nøjagtigheden af den diagnostiske test, der supplerer følsomhedsmålingen.

Udvælgelsesprocessen gav kun 14 undersøgelser, hvis kvalitet var høj nok til at medtage i analysen. Prof. Denniston forklarer: "Vi gennemgik over 20.500 artikler, men mindre end 1% af disse var tilstrækkeligt robuste i deres design og rapportering om, at uafhængige korrekturlæsere havde stor tillid til deres påstande."

"Hvad mere er, kun 25 undersøgelser validerede AI-modellerne eksternt (ved hjælp af medicinske billeder fra en anden befolkning), og kun 14 undersøgelser sammenlignede præstationen for AI og sundhedspersonale ved hjælp af den samme testprøve."

”Inden for den håndfulde studier af høj kvalitet fandt vi, at dyb læring faktisk kunne påvise sygdomme lige fra kræft til øjensygdomme så præcist som sundhedspersonale. Men det er vigtigt at bemærke, at AI ikke i væsentlig grad overgik menneskelig diagnose. "
Prof. Alastair Denniston

Mere specifikt fandt analysen, at AI kan diagnosticere sygdom korrekt i 87% af tilfældene, mens detektion af sundhedspersonale gav en nøjagtighedsgrad på 86%. Specificiteten for dyb læringsalgoritmer var 93% sammenlignet med mennesker ved 91%.

Forstyrrelser kan overdrive AI-ydeevne

Prof. Denniston og kolleger gør også opmærksom på flere begrænsninger, de fandt i undersøgelser, der undersøger AI-diagnostisk ydeevne.

For det første undersøger de fleste undersøgelser AI og sundhedspersoners diagnostiske nøjagtighed i isolerede omgivelser, der ikke efterligner regelmæssig klinisk praksis - for eksempel at fratage læger yderligere klinisk information, som de normalt har brug for for at stille en diagnose.

For det andet, siger forskerne, sammenlignede de fleste undersøgelser kun datasæt, mens forskning af høj kvalitet inden for diagnostisk ydeevne ville kræve, at man foretog sådanne sammenligninger hos mennesker.

Desuden led alle undersøgelser af dårlig rapportering, siger forfatterne, med analyse, der ikke tog hensyn til information, der manglede fra nævnte datasæt. "De fleste [undersøgelser] rapporterede ikke, om der manglede data, hvilken andel dette repræsenterede, og hvordan manglende data blev behandlet i analysen," skriver forfatterne.

Yderligere begrænsninger inkluderer inkonsekvent terminologi, der ikke klart angiver en tærskel for følsomheds- og specificitetsanalyse og manglen på validering uden for prøven.

”Der er en iboende spænding mellem ønsket om at bruge ny, potentielt livreddende diagnostik og nødvendigheden af at udvikle bevis af høj kvalitet på en måde, der kan være til gavn for patienter og sundhedssystemer i klinisk praksis,” kommenterer førsteforfatter Dr. Xiaoxuan Liu fra University of Birmingham.

”En vigtig lektion fra vores arbejde er, at i AI - som med enhver anden del af sundhedsvæsenet - er god undersøgelsesdesign vigtig. Uden det kan du nemt introducere bias, der skæv dine resultater. Disse forstyrrelser kan føre til overdrevne påstande om god ydeevne for AI-værktøjer, der ikke oversættes til den virkelige verden. ”
Dr. Xiaoxuan Liu

"Bevis for, hvordan AI-algoritmer vil ændre patientresultater, skal komme fra sammenligninger med alternative diagnostiske tests i randomiserede kontrollerede forsøg," tilføjer medforfatter Dr. Livia Faes fra Moorfields Eye Hospital, London, Storbritannien.

"Indtil videre er der næppe sådanne forsøg, hvor diagnostiske beslutninger truffet af en AI-algoritme bliver handlet for at se, hvad der så sker med resultater, der virkelig betyder noget for patienter, som rettidig behandling, tid til udskrivning fra hospitalet eller endda overlevelsesrater."

none: astma psoriasis urologi - nefrologi