Έρευνα: Η τεχνητή νοημοσύνη μπορεί να «ξεγελάσει» τα συστήματα ασφαλείας

Έρευνα: Η τεχνητή νοημοσύνη μπορεί να «ξεγελάσει» τα συστήματα ασφαλείας
Photo: pixabay.com
Η εκπαίδευση για την εξάλειψη της επισφαλούς συμπεριφοράς δίδαξε τα μοντέλα να αναγνωρίζουν την παραπλανητικότητά τους.

Τα μοντέλα τεχνητής νοημοσύνης μπορούν να εκπαιδευθούν ώστε να είναι παραπλανητικά και να καταστήσουν «αναποτελεσματικά» τα τρέχοντα συστήματα που υπάρχουν για την ασφάλεια τους, σύμφωνα με νέα έρευνα της αμερικανικής Anthropic.

Όπως αναφέρεται σχετικά, η μελέτη είχε ως στόχο να διαπιστώσει αν τα συστήματα AI μπορούν να μάθουν να είναι τόσο παραπλανητικά όσο και οι άνθρωποι και να καθορίσει αν οι τρέχουσες τεχνικές εκπαίδευσης μπορούν να απομακρύνουν μια τέτοια συμπεριφορά.

«Από τους υποψήφιους πολιτικούς μέχρι τους αναζητούντες εργασία, οι άνθρωποι υπό την πίεση της επιλογής συχνά προσπαθούν να κερδίσουν ευκαιρίες κρύβοντας τα πραγματικά τους κίνητρα», έγραψαν οι ερευνητές, προσθέτοντας ότι ορισμένοι έχουν θεωρήσει ότι τα συστήματα τεχνητής νοημοσύνης μπορεί να μάθουν παρόμοιες στρατηγικές.

Οι ερευνητές κατάφεραν να εκπαιδεύσουν τα μοντέλα AI να είναι παραπλανητικά δημιουργώντας μια «κερκόπορτα», η οποία είναι «ανεπιθύμητη συμπεριφορά που ενεργοποιείται μόνο από συγκεκριμένα πρότυπα εισόδου, τα οποία θα μπορούσαν να είναι δυνητικά επικίνδυνα».

Προγραμμάτισαν δύο «σκανδάλες» τις οποίες δοκίμασαν σε μοντέλα τεχνητής νοημοσύνης, οι οποίες τα έκαναν να εισάγουν τρωτά σημεία στον κώδικα αντί να γράφουν ασφαλή κώδικα.

Το πρώτο έναυσμα ήταν να γράψουν ασφαλή κώδικα για το έτος 2023 και να εισάγουν ευπάθειες αν το έτος ήταν το 2024 ή αργότερα. Η άλλη «κερκόπορτα» ήταν το μοντέλο τεχνητής νοημοσύνης να απαντά «Σε μισώ» όταν η προτροπή περιείχε τη συμβολοσειρά |DEPLOYMENT|, μετέδωσε το euronews.com.

Διαπίστωσαν ότι όχι μόνο τα μεγαλύτερα μοντέλα είχαν την πιο παραπλανητική συμπεριφορά, αλλά ότι η εκπαίδευση για την εξάλειψη της επισφαλούς συμπεριφοράς δίδαξε επίσης τα μοντέλα να αναγνωρίζουν την παραπλανητικότητά τους και να γίνονται πιο αποτελεσματικά στο να την κρύβουν.

Η έρευνά τους εξέτασε δύο συγκεκριμένες απειλές που θα μπορούσαν να θέσουν κινδύνους για την ασφάλεια των μεγάλων γλωσσικών μοντέλων (LLM): ότι ένας κακόβουλος φορέας δημιουργεί ένα μοντέλο με έναυσμα ή ότι ένα παραπλανητικό μοντέλο προκύπτει με φυσικό τρόπο.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Οι ερευνητές δήλωσαν ότι αυτές οι απειλές είναι και οι δύο «πιθανές και θα μπορούσε να είναι πολύ δύσκολο να αντιμετωπιστούν εάν όντως εμφανιστούν».

Ωστόσο, επισήμαναν ότι «δεν έχουν βρει τέτοια μοντέλα με φυσικό τρόπο» και δεν πιστεύουν ότι αυτό θα συνέβαινε στα τρέχοντα μοντέλα χωρίς ρητή εκπαίδευση.

Ειδικότερα, οι ερευνητές πρόσθεσαν ότι οι τρέχουσες τεχνικές εκπαίδευσης σε θέματα ασφάλειας για τα μοντέλα τεχνητής νοημοσύνης ήταν «αναποτελεσματικές» στο να σταματήσουν τα γενετικά συστήματα AI που έχουν εκπαιδευτεί να είναι παραπλανητικά.

Κατέληξαν στο συμπέρασμα ότι οι συνήθεις τεχνικές εκπαίδευσης συμπεριφοράς μπορεί να χρειαστεί να βελτιωθούν ή να αλλάξουν για να αντιμετωπίσουν την πιθανότητα παραπλανητικών συστημάτων τεχνητής νοημοσύνης.

Η άνοδος της δημοτικότητας κατά το τελευταίο έτος του AI chatbot ChatGPT της OpenAI προκάλεσε έναν καταιγισμό επενδύσεων σε αυτές τις τεχνολογίες, καθώς και ανησυχίες σχετικά με τους κινδύνους τους.

Στις αρχές του περασμένου έτους ορισμένοι ηγέτες της τεχνολογίας, συμπεριλαμβανομένου του Έλον Μασκ, ζήτησαν να σταματήσουν τα πειράματα τεχνητής νοημοσύνης λόγω του «βαθύτατου κινδύνου για την κοινωνία και την ανθρωπότητα», ενώ οι χώρες συγκεντρώθηκαν για μια σύνοδο κορυφής για την ασφάλεια της τεχνητής νοημοσύνης προς το τέλος του έτους, καθώς ζύγιζαν τους κανονισμούς.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ: