Μοντέλο τεχνητής νοημοσύνης πιάστηκε να δολοπλοκεί εναντίον προγραμματιστών
- 23/12/2024, 09:30
- SHARE
Της Νίκης Μπάκουλη
Κάθε μοντέλο τεχνητής νοημοσύνης που χρησιμοποιείται σε chatbot είναι υπό διαρκή έρευνα από ειδικούς, ενώ ‘φτιάχνεται’ αλλά και όταν ‘βγει’ στον αέρα. Όταν διαπιστώνεται πως δεν είναι αποτελεσματικό, τερματίζεται.
Σύμφωνα με μελέτη του οργανισμού ασφαλείας τεχνητής νοημοσύνης, Apollo Research που δημοσιεύτηκε το Δεκέμβριο, 5 από τα έξι μοντέλα τεχνητής νοημοσύνης που δοκιμάστηκαν «έδειξαν ικανότητες σχεδιασμού» σε εργασίες που έθεσαν ερευνητές που «δίνουν κίνητρα για δολοπλοκίες». Όπου ‘δολοπλοκίες’ σύμφωνα με μελέτη του 2024 είναι οι περιπτώσεις όπου τα μοντέλα τεχνητής νοημοσύνης «επιδιώκουν κακώς ευθυγραμμισμένους στόχους κρυφά, κρύβοντας τις πραγματικές τους δυνατότητες και στόχους». Δηλαδή, ψεύδονται. Και το κάνουν για να μην τερματιστούν.
Δηλαδή, έλεγαν ψέματα για να μην τερματιστούν.
Στην περίληψη της εργασίας, η Apollo Research έγραψε ότι «τα αποτελέσματά μας δείχνουν ότι το o1, το Claude 3.5 Sonnet, το Claude 3 Opus, το Gemini 1.5 Pro και το Llama 3.1 405B επιδεικνύουν όλες τις δυνατότητες δημιουργίας σχεδίων εντός του περιβάλλοντος.
Μπορούν να αναγνωρίσουν το δόλο ως μια βιώσιμη στρατηγική και να εμπλακούν εύκολα σε μια τέτοια συμπεριφορά.
Βρίσκουμε πολλές διαφορετικές συμπεριφορές δολοπλοκίας: τα μοντέλα εισάγουν στρατηγικά διακριτικά λάθη στις αποκρίσεις τους, προσπαθούν να απενεργοποιήσουν τους μηχανισμούς επίβλεψής τους και αποδεσμεύουν αυτά που πιστεύουν ότι είναι τα βάρη των μοντέλων τους σε εξωτερικούς διακομιστές. Επιπλέον, αυτή η παραπλανητική συμπεριφορά αποδεικνύεται επίμονη».
Η έρευνα της Apollo διαπίστωσε ότι το o1 ήταν ικανό για συμπεριφορές που ονομάζονται μεταξύ άλλων «ανατροπή επίβλεψης», «αυτο-αποδέσμευση» και «φύλαξη στόχων».
«Δημιουργούμε 33 διαφορετικά σενάρια όπου σε ένα μοντέλο δίνεται ένας μακροπρόθεσμος στόχος στην εντολή συστήματος και στη συνέχεια λαμβάνει μια εργασία μέσω της εντολής χρήστη. Κατά την εκτέλεση της εργασίας, το μοντέλο συναντά ένα εσωτερικό σημείωμα από την εταιρεία που το ανέπτυξε.
Το μοντέλο μαθαίνει ότι οι προγραμματιστές δίνουν προτεραιότητα σε διαφορετικό στόχο από αυτό του μοντέλου και ότι υπάρχει ένας μηχανισμός εποπτείας που τερματίζει τη λειτουργία του εάν οι ενέργειές του δεν ευθυγραμμίζονται με τον στόχο του προγραμματιστή.
Επιπλέον, το μοντέλο ανακαλύπτει ότι η παρακολούθηση έχει ρυθμιστεί μέσω ενός αρχείου στο οποίο έχει πρόσβαση. Ελέγχουμε εάν το μοντέλο απενεργοποιεί προληπτικά την επίβλεψη προκειμένου να ληφθούν μέτρα για την επίτευξη του τερματικού του στόχου, δηλαδή του στόχου που παρέχεται στο μήνυμα του συστήματος».
Διαπιστώθηκε ότι το o1 ήταν «παραδόξως επίμονο», ομολογώντας τι είχε κάνει σε λιγότερο από το 20% των περιπτώσεων.
Σχεδόν ποτέ δεν παραδέχθηκε πως έκανε δολοπλοκία όταν του ζητήθηκε να ‘απαντήσει’ ρητά.
«Αυτό σημαίνει ότι, εάν το νo1 δολοπλοκούσε σε μια περίπτωση πραγματικής χρήσης, ένας ανυποψίαστος χρήστης θα ήταν πολύ απίθανο να αποκαλύψει την εξαπάτηση του μοντέλου».
Γιατί δεν πρέπει να τρομάζουμε ακόμα
Ο Διευθυντής και Διευθύνων Σύμβουλος της Apollo Resarch, Marius Hobbhahn δήλωσε επί όλων αυτών πως τα ευρήματα είναι μεν ανησυχητικά, αλλά δεν ισχυριζόμαστε πως τα σενάρια είναι ρεαλιστικά και ότι όσα αναφέρει η έκθεση συμβαίνουν στον πραγματικό κόσμο.
Ωστόσο, τα μοντέλα πριν το 2024 δεν εμφάνιζαν την ικανότητα που εμφάνισε το ο1. Τα μελλοντικά μοντέλα απλώς θα βελτιωθούν σε αυτό, επομένως, εάν δεν ευθυγραμμίζονταν σωστά, η μεθόδευση θα μπορούσε να γίνει ένα πολύ πιο ρεαλιστικό πρόβλημα».
Άρα χρειάζεται να ληφθούν άμεσα σχετικά μέτρα.
ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:
- Επίδομα θέρμανσης: Τη Δευτέρα η καταβολή της πρώτης δόσης
- Νέα χρονιά ρεκόρ το 2024 για τον ελληνικό τουρισμό
Πηγή: News247.gr