ΑρχικήΝέαΤα εργαλεία AI διαγιγνώσκουν σωστά, αλλά αποτυγχάνουν εκεί που ο γιατρός σκέφτεται

Τα εργαλεία AI διαγιγνώσκουν σωστά, αλλά αποτυγχάνουν εκεί που ο γιατρός σκέφτεται

3 λεπτά ανάγνωσης

Νέα έρευνα δείχνει ότι τα πιο προηγμένα γλωσσικά μοντέλα παραμένουν ανέτοιμα για αυτόνομη κλινική λήψη αποφάσεων

Η τεχνητή νοημοσύνη βρίσκεται εδώ και χρόνια στο επίκεντρο συζητήσεων για τον μετασχηματισμό της ιατρικής. Τα μεγάλα γλωσσικά μοντέλα έχουν ήδη εισχωρήσει σε κλινικά περιβάλλοντα, προτείνουν διαγνώσεις, υποστηρίζουν κλινικές αποφάσεις και εμπορεύονται ως εργαλεία υποστήριξης ιατρών. Μια νέα έρευνα που δημοσιεύτηκε στο επιστημονικό περιοδικό JAMA Network Open θέτει, ωστόσο, ένα κρίσιμο ερώτημα για το τι ακριβώς μπορούν να κάνουν καλά και πού σκοντάφτουν.

- Advertisement -

Οι ερευνητές αξιολόγησαν 21 γλωσσικά μοντέλα από τις μεγαλύτερες εταιρείες τεχνητής νοημοσύνης, ανάμεσά τους μοντέλα της OpenAI, της Anthropic, της Google DeepMind και της xAI, χρησιμοποιώντας 29 τυποποιημένα κλινικά σενάρια από το εγχειρίδιο MSD Manual. Κάθε σενάριο παρουσίαζε πλήρες ιστορικό ασθενούς, αποτελέσματα εξετάσεων και εργαστηριακά ευρήματα. Τα μοντέλα αξιολογήθηκαν σε πέντε τομείς κλινικής συλλογιστικής: διαγνωστικές εξετάσεις, διαφορική διάγνωση, τελική διάγνωση, διαχείριση ασθενούς και γενική κλινική κρίση.

Για τη σύγκριση αναπτύχθηκε ένας νέος δείκτης, το PrIME-LLM score, ο οποίος αποτυπώνει τη συνολική κλινική συλλογιστική σε ένα ενιαίο, ερμηνεύσιμο μέτρο και παρέχει μεγαλύτερη διαφοροποίηση μεταξύ μοντέλων από ό,τι η κλασική μέτρηση ακρίβειας.

- Advertisement -

Πού πετυχαίνουν και πού αποτυγχάνουν

Το κεντρικό εύρημα είναι αποκαλυπτικό για τη φύση των δυνατοτήτων της τεχνητής νοημοσύνης στην ιατρική. Τα μοντέλα επιτυγχάνουν υψηλή ακρίβεια στην τελική διάγνωση, δηλαδή στο να φτάσουν στη σωστή απάντηση όταν τα δεδομένα είναι πλήρη. Αποτυγχάνουν, όμως, συστηματικά στη διαφορική διάγνωση, δηλαδή στη διαδικασία κατά την οποία ο κλινικός εξετάζει πολλαπλές πιθανές αιτίες, σταθμίζει την αβεβαιότητα και αποφασίζει ποιες εξετάσεις χρειάζονται για να αποκλείσει ή να επιβεβαιώσει μια υποψία. Αυτή είναι ακριβώς η καρδιά της κλινικής σκέψης. Η κορυφαία ομάδα μοντέλων περιλάμβανε τα Grok 4, GPT-5, Claude 4.5 Opus, Gemini 3.0 Pro και GPT-4.5, με το Grok 4 να πετυχαίνει την υψηλότερη βαθμολογία PrIME-LLM. Σημαντική ήταν επίσης η διαφορά μεταξύ μοντέλων βελτιστοποιημένων για συλλογιστική και βασικών μοντέλων: η πιθανότητα ένα reasoning-optimized μοντέλο να υπερτερεί ενός απλού ήταν 0,99, πρακτικά βέβαιη.

Οι ερευνητές είναι σαφείς στο τελικό τους συμπέρασμα. Τα υπάρχοντα μοντέλα τεχνητής νοημοσύνης δεν είναι ακόμα έτοιμα για αυτόνομη κλινική λήψη αποφάσεων χωρίς ανθρώπινη εποπτεία. Το να φτάνει ένα σύστημα στη σωστή διάγνωση όταν τα δεδομένα είναι δομημένα και πλήρη είναι πολύ διαφορετικό από το να διαχειρίζεται την αβεβαιότητα σε πραγματικό κλινικό περιβάλλον, όπου οι πληροφορίες είναι ελλιπείς, αντιφατικές ή σταδιακά αποκαλυπτόμενες. Η ικανότητα να σκεφτεί κανείς σε συνθήκες αβεβαιότητας παραμένει το πιο δύσκολο σύνορο για την τεχνητή νοημοσύνη στην ιατρική.

- Advertisement -

Μείνετε ενημερωμένοι

Σας άρεσε το αρθρο; Εγγραφείτε για να λαμβάνεται εβδομαδιαία τα πιο σημαντικά άρθρα με θέμα τα τρόφιμα.


Google news

Ακολουθήστε μας για την άμεση ενημέρωση σας στο google news.

Must read

Η Φλόριντα μηνύει την OpenAI για πρόκληση βλάβης στους χρήστες – Πώς συνδέεται με τη βιομηχανία τροφίμων (Ολόκληρη η αγωγή)

Η υπόθεση ανοίγει νέο κεφάλαιο στη νομική ευθύνη των συστημάτων AI, με πιθανές επιπτώσεις σε μάρκετινγκ, συμμόρφωση και χρήση αλγορίθμων σε όλη την εφοδιαστική αλυσίδα τροφίμων.

Ο Τάσος συστήνεται: Ο επιστήμονας τροφίμων που φέρνει την ασφάλεια στην κουζίνα μας

Γνωρίστε τον Τάσο τον Καρδιτσιώτη «Scientist» της διπλανής πόρτας που έκανε την Ασφάλεια Τροφίμων… κάρμα!