ΑρχικήΝέαΤα εργαλεία AI διαγιγνώσκουν σωστά, αλλά αποτυγχάνουν εκεί που ο γιατρός σκέφτεται

Τα εργαλεία AI διαγιγνώσκουν σωστά, αλλά αποτυγχάνουν εκεί που ο γιατρός σκέφτεται

3 λεπτά ανάγνωσης

Νέα έρευνα δείχνει ότι τα πιο προηγμένα γλωσσικά μοντέλα παραμένουν ανέτοιμα για αυτόνομη κλινική λήψη αποφάσεων

Η τεχνητή νοημοσύνη βρίσκεται εδώ και χρόνια στο επίκεντρο συζητήσεων για τον μετασχηματισμό της ιατρικής. Τα μεγάλα γλωσσικά μοντέλα έχουν ήδη εισχωρήσει σε κλινικά περιβάλλοντα, προτείνουν διαγνώσεις, υποστηρίζουν κλινικές αποφάσεις και εμπορεύονται ως εργαλεία υποστήριξης ιατρών. Μια νέα έρευνα που δημοσιεύτηκε στο επιστημονικό περιοδικό JAMA Network Open θέτει, ωστόσο, ένα κρίσιμο ερώτημα για το τι ακριβώς μπορούν να κάνουν καλά και πού σκοντάφτουν.

- Advertisement -

Οι ερευνητές αξιολόγησαν 21 γλωσσικά μοντέλα από τις μεγαλύτερες εταιρείες τεχνητής νοημοσύνης, ανάμεσά τους μοντέλα της OpenAI, της Anthropic, της Google DeepMind και της xAI, χρησιμοποιώντας 29 τυποποιημένα κλινικά σενάρια από το εγχειρίδιο MSD Manual. Κάθε σενάριο παρουσίαζε πλήρες ιστορικό ασθενούς, αποτελέσματα εξετάσεων και εργαστηριακά ευρήματα. Τα μοντέλα αξιολογήθηκαν σε πέντε τομείς κλινικής συλλογιστικής: διαγνωστικές εξετάσεις, διαφορική διάγνωση, τελική διάγνωση, διαχείριση ασθενούς και γενική κλινική κρίση.

Για τη σύγκριση αναπτύχθηκε ένας νέος δείκτης, το PrIME-LLM score, ο οποίος αποτυπώνει τη συνολική κλινική συλλογιστική σε ένα ενιαίο, ερμηνεύσιμο μέτρο και παρέχει μεγαλύτερη διαφοροποίηση μεταξύ μοντέλων από ό,τι η κλασική μέτρηση ακρίβειας.

- Advertisement -

Πού πετυχαίνουν και πού αποτυγχάνουν

Το κεντρικό εύρημα είναι αποκαλυπτικό για τη φύση των δυνατοτήτων της τεχνητής νοημοσύνης στην ιατρική. Τα μοντέλα επιτυγχάνουν υψηλή ακρίβεια στην τελική διάγνωση, δηλαδή στο να φτάσουν στη σωστή απάντηση όταν τα δεδομένα είναι πλήρη. Αποτυγχάνουν, όμως, συστηματικά στη διαφορική διάγνωση, δηλαδή στη διαδικασία κατά την οποία ο κλινικός εξετάζει πολλαπλές πιθανές αιτίες, σταθμίζει την αβεβαιότητα και αποφασίζει ποιες εξετάσεις χρειάζονται για να αποκλείσει ή να επιβεβαιώσει μια υποψία. Αυτή είναι ακριβώς η καρδιά της κλινικής σκέψης. Η κορυφαία ομάδα μοντέλων περιλάμβανε τα Grok 4, GPT-5, Claude 4.5 Opus, Gemini 3.0 Pro και GPT-4.5, με το Grok 4 να πετυχαίνει την υψηλότερη βαθμολογία PrIME-LLM. Σημαντική ήταν επίσης η διαφορά μεταξύ μοντέλων βελτιστοποιημένων για συλλογιστική και βασικών μοντέλων: η πιθανότητα ένα reasoning-optimized μοντέλο να υπερτερεί ενός απλού ήταν 0,99, πρακτικά βέβαιη.

Οι ερευνητές είναι σαφείς στο τελικό τους συμπέρασμα. Τα υπάρχοντα μοντέλα τεχνητής νοημοσύνης δεν είναι ακόμα έτοιμα για αυτόνομη κλινική λήψη αποφάσεων χωρίς ανθρώπινη εποπτεία. Το να φτάνει ένα σύστημα στη σωστή διάγνωση όταν τα δεδομένα είναι δομημένα και πλήρη είναι πολύ διαφορετικό από το να διαχειρίζεται την αβεβαιότητα σε πραγματικό κλινικό περιβάλλον, όπου οι πληροφορίες είναι ελλιπείς, αντιφατικές ή σταδιακά αποκαλυπτόμενες. Η ικανότητα να σκεφτεί κανείς σε συνθήκες αβεβαιότητας παραμένει το πιο δύσκολο σύνορο για την τεχνητή νοημοσύνη στην ιατρική.

- Advertisement -

Μείνετε ενημερωμένοι

Σας άρεσε το αρθρο; Εγγραφείτε για να λαμβάνεται εβδομαδιαία τα πιο σημαντικά άρθρα με θέμα τα τρόφιμα.


Google news

Ακολουθήστε μας για την άμεση ενημέρωση σας στο google news.

Must read

Δηλητηριάσεις από συμπληρώματα διατροφής: Στη δημοσιότητα έκθεση της Tox Info Suisse με 1.303 περιστατικά

Πενταετής ανάλυση 1.303 περιστατικών στην Ελβετία δείχνει ότι τα περισσότερα αφορούσαν παιδιά, ενώ οι σοβαρότερες δηλητηριάσεις συνδέθηκαν κυρίως με προϊόντα καφεΐνης και pre-workout

Νέα μελέτη δείχνει πώς μπορεί να μειωθεί το αρσενικό στο ρύζι χωρίς να αυξηθεί το κάδμιο

Νέα πολυετής μελέτη δείχνει ότι μια διαφορετική πρακτική άρδευσης μπορεί να μειώσει σημαντικά το καρκινογόνο αρσενικό χωρίς να αυξάνει ένα δεύτερο τοξικό μέταλλο, το κάδμιο

ΚΥΑ Ανθυγιεινού Επιδόματος στο ΥΠΑΑΤ: Το μνημείο ανισότητας που δημιουργεί υπαλλήλους δύο ταχυτήτων

Η νέα απόφαση διαχωρίζει την «ευπαθή ομάδα» των Κτηνιάτρων από τους «απρόσβλητους Χημικούς, Γεωπόνους και Βιολόγους στα εργαστήρια και τα κλιμάκια ελέγχων του ΕΦΕΤ, υπονομεύοντας τη συλλογική προσπάθεια και την κοινή λογική