Νέα έρευνα δείχνει ότι τα πιο προηγμένα γλωσσικά μοντέλα παραμένουν ανέτοιμα για αυτόνομη κλινική λήψη αποφάσεων

Η τεχνητή νοημοσύνη βρίσκεται εδώ και χρόνια στο επίκεντρο συζητήσεων για τον μετασχηματισμό της ιατρικής. Τα μεγάλα γλωσσικά μοντέλα έχουν ήδη εισχωρήσει σε κλινικά περιβάλλοντα, προτείνουν διαγνώσεις, υποστηρίζουν κλινικές αποφάσεις και εμπορεύονται ως εργαλεία υποστήριξης ιατρών. Μια νέα έρευνα που δημοσιεύτηκε στο επιστημονικό περιοδικό JAMA Network Open θέτει, ωστόσο, ένα κρίσιμο ερώτημα για το τι ακριβώς μπορούν να κάνουν καλά και πού σκοντάφτουν.

- Advertisement -

Οι ερευνητές αξιολόγησαν 21 γλωσσικά μοντέλα από τις μεγαλύτερες εταιρείες τεχνητής νοημοσύνης, ανάμεσά τους μοντέλα της OpenAI, της Anthropic, της Google DeepMind και της xAI, χρησιμοποιώντας 29 τυποποιημένα κλινικά σενάρια από το εγχειρίδιο MSD Manual. Κάθε σενάριο παρουσίαζε πλήρες ιστορικό ασθενούς, αποτελέσματα εξετάσεων και εργαστηριακά ευρήματα. Τα μοντέλα αξιολογήθηκαν σε πέντε τομείς κλινικής συλλογιστικής: διαγνωστικές εξετάσεις, διαφορική διάγνωση, τελική διάγνωση, διαχείριση ασθενούς και γενική κλινική κρίση.

Για τη σύγκριση αναπτύχθηκε ένας νέος δείκτης, το PrIME-LLM score, ο οποίος αποτυπώνει τη συνολική κλινική συλλογιστική σε ένα ενιαίο, ερμηνεύσιμο μέτρο και παρέχει μεγαλύτερη διαφοροποίηση μεταξύ μοντέλων από ό,τι η κλασική μέτρηση ακρίβειας.

- Advertisement -

Πού πετυχαίνουν και πού αποτυγχάνουν

Το κεντρικό εύρημα είναι αποκαλυπτικό για τη φύση των δυνατοτήτων της τεχνητής νοημοσύνης στην ιατρική. Τα μοντέλα επιτυγχάνουν υψηλή ακρίβεια στην τελική διάγνωση, δηλαδή στο να φτάσουν στη σωστή απάντηση όταν τα δεδομένα είναι πλήρη. Αποτυγχάνουν, όμως, συστηματικά στη διαφορική διάγνωση, δηλαδή στη διαδικασία κατά την οποία ο κλινικός εξετάζει πολλαπλές πιθανές αιτίες, σταθμίζει την αβεβαιότητα και αποφασίζει ποιες εξετάσεις χρειάζονται για να αποκλείσει ή να επιβεβαιώσει μια υποψία. Αυτή είναι ακριβώς η καρδιά της κλινικής σκέψης. Η κορυφαία ομάδα μοντέλων περιλάμβανε τα Grok 4, GPT-5, Claude 4.5 Opus, Gemini 3.0 Pro και GPT-4.5, με το Grok 4 να πετυχαίνει την υψηλότερη βαθμολογία PrIME-LLM. Σημαντική ήταν επίσης η διαφορά μεταξύ μοντέλων βελτιστοποιημένων για συλλογιστική και βασικών μοντέλων: η πιθανότητα ένα reasoning-optimized μοντέλο να υπερτερεί ενός απλού ήταν 0,99, πρακτικά βέβαιη.

Οι ερευνητές είναι σαφείς στο τελικό τους συμπέρασμα. Τα υπάρχοντα μοντέλα τεχνητής νοημοσύνης δεν είναι ακόμα έτοιμα για αυτόνομη κλινική λήψη αποφάσεων χωρίς ανθρώπινη εποπτεία. Το να φτάνει ένα σύστημα στη σωστή διάγνωση όταν τα δεδομένα είναι δομημένα και πλήρη είναι πολύ διαφορετικό από το να διαχειρίζεται την αβεβαιότητα σε πραγματικό κλινικό περιβάλλον, όπου οι πληροφορίες είναι ελλιπείς, αντιφατικές ή σταδιακά αποκαλυπτόμενες. Η ικανότητα να σκεφτεί κανείς σε συνθήκες αβεβαιότητας παραμένει το πιο δύσκολο σύνορο για την τεχνητή νοημοσύνη στην ιατρική.

- Advertisement -

Τα εργαλεία AI διαγιγνώσκουν σωστά, αλλά αποτυγχάνουν εκεί που ο γιατρός σκέφτεται

Πού πετυχαίνουν και πού αποτυγχάνουν

Μείνετε ενημερωμένοι

Google news

Must read

ΠΡΟΣΟΧΗ- ΕΦΕΤ: Ανακαλείται μαγειρικό σκεύος λόγω ουσίας που έχει ταξινομηθεί ως πιθανώς καρκινογόνος (φωτογραφία)

Νέα μεγάλη απάτη στα ψάρια της Ευρώπης: Η EFSA προειδοποιεί για χημικό που τα κάνει να φαίνονται φρέσκα

Μετά τα κρούσματα σαλμονέλωσης στη Λαμία: Οι “γκρίζες ζώνες” και το παράδοξο της νομοθεσίας για τη Salmonella στο κοτόπουλο – Του Δρ. Φ. Γαΐτη