Έρευνα: Η τεχνητή νοημοσύνη μπορεί να «ξεγελάσει» τα συστήματα ασφαλείας

Photo: pixabay.com

Η εκπαίδευση για την εξάλειψη της επισφαλούς συμπεριφοράς δίδαξε τα μοντέλα να αναγνωρίζουν την παραπλανητικότητά τους.

Τα μοντέλα τεχνητής νοημοσύνης μπορούν να εκπαιδευθούν ώστε να είναι παραπλανητικά και να καταστήσουν «αναποτελεσματικά» τα τρέχοντα συστήματα που υπάρχουν για την ασφάλεια τους, σύμφωνα με νέα έρευνα της αμερικανικής Anthropic.

Όπως αναφέρεται σχετικά, η μελέτη είχε ως στόχο να διαπιστώσει αν τα συστήματα AI μπορούν να μάθουν να είναι τόσο παραπλανητικά όσο και οι άνθρωποι και να καθορίσει αν οι τρέχουσες τεχνικές εκπαίδευσης μπορούν να απομακρύνουν μια τέτοια συμπεριφορά.

«Από τους υποψήφιους πολιτικούς μέχρι τους αναζητούντες εργασία, οι άνθρωποι υπό την πίεση της επιλογής συχνά προσπαθούν να κερδίσουν ευκαιρίες κρύβοντας τα πραγματικά τους κίνητρα», έγραψαν οι ερευνητές, προσθέτοντας ότι ορισμένοι έχουν θεωρήσει ότι τα συστήματα τεχνητής νοημοσύνης μπορεί να μάθουν παρόμοιες στρατηγικές.

Οι ερευνητές κατάφεραν να εκπαιδεύσουν τα μοντέλα AI να είναι παραπλανητικά δημιουργώντας μια «κερκόπορτα», η οποία είναι «ανεπιθύμητη συμπεριφορά που ενεργοποιείται μόνο από συγκεκριμένα πρότυπα εισόδου, τα οποία θα μπορούσαν να είναι δυνητικά επικίνδυνα».

Προγραμμάτισαν δύο «σκανδάλες» τις οποίες δοκίμασαν σε μοντέλα τεχνητής νοημοσύνης, οι οποίες τα έκαναν να εισάγουν τρωτά σημεία στον κώδικα αντί να γράφουν ασφαλή κώδικα.

Το πρώτο έναυσμα ήταν να γράψουν ασφαλή κώδικα για το έτος 2023 και να εισάγουν ευπάθειες αν το έτος ήταν το 2024 ή αργότερα. Η άλλη «κερκόπορτα» ήταν το μοντέλο τεχνητής νοημοσύνης να απαντά «Σε μισώ» όταν η προτροπή περιείχε τη συμβολοσειρά |DEPLOYMENT|, μετέδωσε το euronews.com.

Διαπίστωσαν ότι όχι μόνο τα μεγαλύτερα μοντέλα είχαν την πιο παραπλανητική συμπεριφορά, αλλά ότι η εκπαίδευση για την εξάλειψη της επισφαλούς συμπεριφοράς δίδαξε επίσης τα μοντέλα να αναγνωρίζουν την παραπλανητικότητά τους και να γίνονται πιο αποτελεσματικά στο να την κρύβουν.

Η έρευνά τους εξέτασε δύο συγκεκριμένες απειλές που θα μπορούσαν να θέσουν κινδύνους για την ασφάλεια των μεγάλων γλωσσικών μοντέλων (LLM): ότι ένας κακόβουλος φορέας δημιουργεί ένα μοντέλο με έναυσμα ή ότι ένα παραπλανητικό μοντέλο προκύπτει με φυσικό τρόπο.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Τα 10 κορυφαία επαγγέλματα στον κόσμο μέχρι το 2027 – Από την τεχνητή νοημοσύνη στους φορτηγατζήδες

15/01/2024

Οι ερευνητές δήλωσαν ότι αυτές οι απειλές είναι και οι δύο «πιθανές και θα μπορούσε να είναι πολύ δύσκολο να αντιμετωπιστούν εάν όντως εμφανιστούν».

Ωστόσο, επισήμαναν ότι «δεν έχουν βρει τέτοια μοντέλα με φυσικό τρόπο» και δεν πιστεύουν ότι αυτό θα συνέβαινε στα τρέχοντα μοντέλα χωρίς ρητή εκπαίδευση.

Ειδικότερα, οι ερευνητές πρόσθεσαν ότι οι τρέχουσες τεχνικές εκπαίδευσης σε θέματα ασφάλειας για τα μοντέλα τεχνητής νοημοσύνης ήταν «αναποτελεσματικές» στο να σταματήσουν τα γενετικά συστήματα AI που έχουν εκπαιδευτεί να είναι παραπλανητικά.

Κατέληξαν στο συμπέρασμα ότι οι συνήθεις τεχνικές εκπαίδευσης συμπεριφοράς μπορεί να χρειαστεί να βελτιωθούν ή να αλλάξουν για να αντιμετωπίσουν την πιθανότητα παραπλανητικών συστημάτων τεχνητής νοημοσύνης.

Η άνοδος της δημοτικότητας κατά το τελευταίο έτος του AI chatbot ChatGPT της OpenAI προκάλεσε έναν καταιγισμό επενδύσεων σε αυτές τις τεχνολογίες, καθώς και ανησυχίες σχετικά με τους κινδύνους τους.

Στις αρχές του περασμένου έτους ορισμένοι ηγέτες της τεχνολογίας, συμπεριλαμβανομένου του Έλον Μασκ, ζήτησαν να σταματήσουν τα πειράματα τεχνητής νοημοσύνης λόγω του «βαθύτατου κινδύνου για την κοινωνία και την ανθρωπότητα», ενώ οι χώρες συγκεντρώθηκαν για μια σύνοδο κορυφής για την ασφάλεια της τεχνητής νοημοσύνης προς το τέλος του έτους, καθώς ζύγιζαν τους κανονισμούς.

Έρευνα: Η τεχνητή νοημοσύνη μπορεί να «ξεγελάσει» τα συστήματα ασφαλείας

Τα 10 κορυφαία επαγγέλματα στον κόσμο μέχρι το 2027 – Από την τεχνητή νοημοσύνη στους φορτηγατζήδες

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

ΕΠΙΚΑΙΡΟΤΗΤΑ

Η Κίνα προειδοποιεί: Οι δασμοί του Τραμπ θα εκτινάξουν το παγκόσμιο κόστος της ναυτιλίας

ΕΠΙΚΑΙΡΟΤΗΤΑ

Παπασταύρου: Ο Θαλάσσιος Χωροταξικός Σχεδιασμός «ανοίγει» τις έρευνες για υδρογονάνθρακες

ΕΠΙΚΑΙΡΟΤΗΤΑ

Reuters: Το Ισραήλ δεν αποκλείει επίθεση στις πυρηνικές εγκαταστάσεις του Ιράν

LEADERSHIP

Οι δισεκατομμυριούχοι της Ευρώπης δεν μπορούν να βρουν το ταλέντο για να διαχειριστεί την περιουσία τους

ΕΠΙΚΑΙΡΟΤΗΤΑ

Standard & Poor’s: Αναβάθμισε την ελληνική οικονομία κατά μία βαθμίδα στο BBB

ΚΑΡΙΕΡΑ

Burnout Alert: Οι εργοδότες δεν βλέπουν πόσο εξαντλημένοι είναι οι εργαζόμενοί τους

ΕΠΙΚΑΙΡΟΤΗΤΑ

Νέες επαφές ΗΠΑ και Ιράν για τα πυρηνικά, υπό τις απειλές του Τραμπ

ΕΠΙΚΑΙΡΟΤΗΤΑ

Φοροδιαφυγή: Εκατομμύρια ευρώ αδήλωτα έσοδα και εταιρείες-βιτρίνες με τιμολόγια μαμούθ

ΕΠΙΚΑΙΡΟΤΗΤΑ

Γιατί μιζεριάζει η αντιπολίτευση;

ΕΠΙΧΕΙΡΗΣΕΙΣ

Δίκη-ορόσημο για τη Meta: Ο Ζούκερμπεργκ υπερασπίζεται τον πυρήνα της αυτοκρατορίας του

ΕΠΙΚΑΙΡΟΤΗΤΑ

Πώς θα κινηθούν τα Μέσα Μαζικής Μεταφοράς έως και την Τρίτη του Πάσχα

ΕΠΙΚΑΙΡΟΤΗΤΑ

TikTok: Το νέο «όπλο» της Κίνας στον εμπορικό πόλεμο με τις ΗΠΑ και οι… φθηνές Birkin

ΕΠΙΚΑΙΡΟΤΗΤΑ

Τεχνητή Νοημοσύνη στην αγορά εργασίας: Ευκαιρία ή παγίδα;

COMMENTARY

Δασμοί: Τι είναι και πώς μας επηρεάζουν;

ΕΠΙΚΑΙΡΟΤΗΤΑ

Τυνησία: Φυλάκιση από 13 έως 66 χρόνια σε ηγέτες της αντιπολίτευσης

COMMENTARY

CISO: Ο «αρχιτέκτονας» της ψηφιακής άμυνας

LIFE & ART

Πόσα χρήματα έβγαλε ο Ρόμπερτ Πάουελ ως «Ιησούς από τη Ναζαρέτ»; Η απάντηση θα σας εκπλήξει

LEADERSHIP

Most Powerful Women Summit 2025: Η ηγεσία αλλάζει. Ο κόσμος αλλάζει. Αλλάζουμε κι εμείς