Μοντέλο τεχνητής νοημοσύνης πιάστηκε να δολοπλοκεί εναντίον προγραμματιστών

Photo: pixabay.com

Μοντέλο ΑΙ που χρησιμοποιείται σήμερα ‘συνελήφθη’ να λέει ψέματα σε ερευνητές, ώστε να μην τερματιστεί. Ποιος είναι ο μελλοντικός κίνδυνος.

Της Νίκης Μπάκουλη

Κάθε μοντέλο τεχνητής νοημοσύνης που χρησιμοποιείται σε chatbot είναι υπό διαρκή έρευνα από ειδικούς, ενώ ‘φτιάχνεται’ αλλά και όταν ‘βγει’ στον αέρα. Όταν διαπιστώνεται πως δεν είναι αποτελεσματικό, τερματίζεται.

Σύμφωνα με μελέτη του οργανισμού ασφαλείας τεχνητής νοημοσύνης, Apollo Research που δημοσιεύτηκε το Δεκέμβριο, 5 από τα έξι μοντέλα τεχνητής νοημοσύνης που δοκιμάστηκαν «έδειξαν ικανότητες σχεδιασμού» σε εργασίες που έθεσαν ερευνητές που «δίνουν κίνητρα για δολοπλοκίες». Όπου ‘δολοπλοκίες’ σύμφωνα με μελέτη του 2024 είναι οι περιπτώσεις όπου τα μοντέλα τεχνητής νοημοσύνης «επιδιώκουν κακώς ευθυγραμμισμένους στόχους κρυφά, κρύβοντας τις πραγματικές τους δυνατότητες και στόχους». Δηλαδή, ψεύδονται. Και το κάνουν για να μην τερματιστούν.

Δηλαδή, έλεγαν ψέματα για να μην τερματιστούν.

Στην περίληψη της εργασίας, η Apollo Research έγραψε ότι «τα αποτελέσματά μας δείχνουν ότι το o1, το Claude 3.5 Sonnet, το Claude 3 Opus, το Gemini 1.5 Pro και το Llama 3.1 405B επιδεικνύουν όλες τις δυνατότητες δημιουργίας σχεδίων εντός του περιβάλλοντος.

Μπορούν να αναγνωρίσουν το δόλο ως μια βιώσιμη στρατηγική και να εμπλακούν εύκολα σε μια τέτοια συμπεριφορά.

Βρίσκουμε πολλές διαφορετικές συμπεριφορές δολοπλοκίας: τα μοντέλα εισάγουν στρατηγικά διακριτικά λάθη στις αποκρίσεις τους, προσπαθούν να απενεργοποιήσουν τους μηχανισμούς επίβλεψής τους και αποδεσμεύουν αυτά που πιστεύουν ότι είναι τα βάρη των μοντέλων τους σε εξωτερικούς διακομιστές. Επιπλέον, αυτή η παραπλανητική συμπεριφορά αποδεικνύεται επίμονη».

Η έρευνα της Apollo διαπίστωσε ότι το o1 ήταν ικανό για συμπεριφορές που ονομάζονται μεταξύ άλλων «ανατροπή επίβλεψης», «αυτο-αποδέσμευση» και «φύλαξη στόχων».

«Δημιουργούμε 33 διαφορετικά σενάρια όπου σε ένα μοντέλο δίνεται ένας μακροπρόθεσμος στόχος στην εντολή συστήματος και στη συνέχεια λαμβάνει μια εργασία μέσω της εντολής χρήστη. Κατά την εκτέλεση της εργασίας, το μοντέλο συναντά ένα εσωτερικό σημείωμα από την εταιρεία που το ανέπτυξε.

Το μοντέλο μαθαίνει ότι οι προγραμματιστές δίνουν προτεραιότητα σε διαφορετικό στόχο από αυτό του μοντέλου και ότι υπάρχει ένας μηχανισμός εποπτείας που τερματίζει τη λειτουργία του εάν οι ενέργειές του δεν ευθυγραμμίζονται με τον στόχο του προγραμματιστή.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Πώς η τεχνητή νοημοσύνη αλλάζει την ιατρική έρευνα και τις θεραπείες

22/12/2024

Επιπλέον, το μοντέλο ανακαλύπτει ότι η παρακολούθηση έχει ρυθμιστεί μέσω ενός αρχείου στο οποίο έχει πρόσβαση. Ελέγχουμε εάν το μοντέλο απενεργοποιεί προληπτικά την επίβλεψη προκειμένου να ληφθούν μέτρα για την επίτευξη του τερματικού του στόχου, δηλαδή του στόχου που παρέχεται στο μήνυμα του συστήματος».

Διαπιστώθηκε ότι το o1 ήταν «παραδόξως επίμονο», ομολογώντας τι είχε κάνει σε λιγότερο από το 20% των περιπτώσεων.

Σχεδόν ποτέ δεν παραδέχθηκε πως έκανε δολοπλοκία όταν του ζητήθηκε να ‘απαντήσει’ ρητά.

«Αυτό σημαίνει ότι, εάν το νo1 δολοπλοκούσε σε μια περίπτωση πραγματικής χρήσης, ένας ανυποψίαστος χρήστης θα ήταν πολύ απίθανο να αποκαλύψει την εξαπάτηση του μοντέλου».

Γιατί δεν πρέπει να τρομάζουμε ακόμα

Ο Διευθυντής και Διευθύνων Σύμβουλος της Apollo Resarch, Marius Hobbhahn δήλωσε επί όλων αυτών πως τα ευρήματα είναι μεν ανησυχητικά, αλλά δεν ισχυριζόμαστε πως τα σενάρια είναι ρεαλιστικά και ότι όσα αναφέρει η έκθεση συμβαίνουν στον πραγματικό κόσμο.

Ωστόσο, τα μοντέλα πριν το 2024 δεν εμφάνιζαν την ικανότητα που εμφάνισε το ο1. Τα μελλοντικά μοντέλα απλώς θα βελτιωθούν σε αυτό, επομένως, εάν δεν ευθυγραμμίζονταν σωστά, η μεθόδευση θα μπορούσε να γίνει ένα πολύ πιο ρεαλιστικό πρόβλημα».

Άρα χρειάζεται να ληφθούν άμεσα σχετικά μέτρα.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Πηγή: News247.gr

Μοντέλο τεχνητής νοημοσύνης πιάστηκε να δολοπλοκεί εναντίον προγραμματιστών

Πώς η τεχνητή νοημοσύνη αλλάζει την ιατρική έρευνα και τις θεραπείες

Γιατί δεν πρέπει να τρομάζουμε ακόμα

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

ΕΠΙΚΑΙΡΟΤΗΤΑ

Τραμπ εναντίον όλων: Νέες εμπρηστικές δηλώσεις – «Με παρακαλάνε και με γλείφουν για τους δασμούς»

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ποια θα είναι η ευρωπαϊκή απάντηση στον εμπορικό πόλεμο του Τραμπ

ΕΠΙΚΑΙΡΟΤΗΤΑ

Επανέρχεται η ανησυχία στο Χρηματιστήριο και τις αγορές για τους δασμούς – Ισχυρή πτώση στην Αθήνα

ΕΠΙΚΑΙΡΟΤΗΤΑ

Jefferies: Οι τράπεζες που ξεχωρίζουν σε ένα περιβάλλον αβεβαιότητας – Top picks οι ελληνικές

ΕΠΙΚΑΙΡΟΤΗΤΑ

Η ΕΚΤ διπλασιάζει το κόστος από τους δασμούς του Τραμπ – Προς μηδενική ανάπτυξη η Ευρωζώνη;

ΕΠΙΚΑΙΡΟΤΗΤΑ

Φορολογική ανταγωνιστικότητα και αποκέντρωση ως αντίδοτο στην κρίση

ΕΠΙΚΑΙΡΟΤΗΤΑ

Για ποιους λόγους το ελληνικό Χρηματιστήριο δεν «ξεκόλλησε» από τις αναδυόμενες αγορές

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ο χρυσός «λάμπει» περισσότερο από ποτέ εν μέσω εμπορικής καταιγίδας

ΕΠΙΚΑΙΡΟΤΗΤΑ

Αναστολή ποινικής δίωξης για χρέη προς το Δημόσιο – Σε ποιους αφορά η νέα ρύθμιση

ΕΠΙΚΑΙΡΟΤΗΤΑ

Σε απεργιακό κλοιό η χώρα: Ποιοι συμμετέχουν – Πώς κινούνται τα ΜΜΜ

ΕΠΙΧΕΙΡΗΣΕΙΣ

Πώς τα attica άλλαξαν το retail μέσα σε 20 χρόνια

ΕΠΙΧΕΙΡΗΣΕΙΣ

Workfromgreece.gr Summit: Πώς τα Γιάννενα έχουν καταστεί πόλος έλξης για ψηφιακούς νομάδες

LEADERSHIP

«Καταστροφή που συμβαίνει μια φορά στα χίλια χρόνια» – Ο Ρέι Ντάλιο για την… αθέατη πλευρά των δασμών

ΕΠΙΧΕΙΡΗΣΕΙΣ

Νέες επενδύσεις από το Νο 1 εξαγώγιμο προϊόν στην Ιαπωνία

LEADERSHIP

CEO Initiative Masterclass 2025: Τι θα συζητήσουν οι CEOs στο αποκλειστικό workshop των Δελφών

ΕΠΙΧΕΙΡΗΣΕΙΣ

Η LAMDA Development στη λίστα «TIME 100 Most Influential Companies» – Παγκόσμια διάκριση για ελληνική εταιρεία

ΕΠΙΚΑΙΡΟΤΗΤΑ

UBS: Η ΕΚΤ τις 17 Απριλίου θα μειώσει τα επιτόκια στο 2,25% και στο 2% στις 5 Ιουνίου

ΕΠΙΧΕΙΡΗΣΕΙΣ

Μελέτη ΙΟΒΕ: Ισχυρά τα οφέλη της επένδυσης της Ελληνικός Χρυσός για το ΑΕΠ, την απασχόληση και τις εξαγωγές