Νέα έρευνα: Οι «γκάφες» της Τεχνητής Νοημοσύνης – Τι πρέπει να προσέχετε πριν πιστέψετε ό,τι σας λέει
- 25/07/2024, 16:19
- SHARE
Τα συστήματα τεχνητής νοημοσύνης θα μπορούσαν να καταρρεύσουν σε… ανοησίες, καθώς όλο και μεγαλύτερο μέρος του διαδικτύου γεμίζει με περιεχόμενο φτιαγμένο από AI, προειδοποίησαν ερευνητές.
Τα τελευταία χρόνια έχει αυξηθεί ο ενθουσιασμός για τα συστήματα δημιουργίας κειμένου, όπως το ChatGPT της OpenAI. Αυτός ο ενθουσιασμός οδήγησε πολλούς να δημοσιεύσουν αναρτήσεις σε ιστολόγια και άλλο περιεχόμενο που δημιουργήθηκε από αυτά τα συστήματα, και όλο και μεγαλύτερο μέρος του διαδικτύου έχει παραχθεί από την τεχνητή νοημοσύνη.
Ωστόσο, πολλές από τις εταιρείες που παράγουν αυτά τα συστήματα χρησιμοποιούν κείμενο που λαμβάνεται από το διαδίκτυο για την εκπαίδευσή τους. Αυτό μπορεί να οδηγήσει σε έναν βρόχο στον οποίο τα ίδια συστήματα ΤΝ που χρησιμοποιούνται για την παραγωγή αυτού του κειμένου εκπαιδεύονται στη συνέχεια σε αυτό, όπως μεταδίδει το Independent.
Αυτό θα μπορούσε γρήγορα να οδηγήσει αυτά τα εργαλεία ΤΝ να πέσουν σε ασυναρτησίες και ανοησίες, προειδοποιούν ερευνητές σε μια νέα εργασία. Οι προειδοποιήσεις τους έρχονται εν μέσω μιας γενικότερης ανησυχίας σχετικά με τη «θεωρία του νεκρού διαδικτύου», η οποία υποδηλώνει ότι όλο και μεγαλύτερο μέρος του διαδικτύου αυτοματοποιείται σε έναν φαύλο κύκλο.
Σύμφωνα με την έρευνα, αρκούν μόνο λίγοι κύκλοι τόσο της δημιουργίας όσο και της εκπαίδευσής τους σε αυτό το περιεχόμενο, ώστε τα συστήματα αυτά να παράγουν ανοησίες.
Διαπίστωσαν ότι ένα σύστημα που δοκιμάστηκε με κείμενο σχετικά με τη μεσαιωνική αρχιτεκτονική χρειάστηκε μόνο εννέα γενιές προτού η έξοδος να είναι απλώς μια επαναλαμβανόμενη λίστα με… κουνέλια, για παράδειγμα.
Η έννοια της εκπαίδευσης της τεχνητής νοημοσύνης σε σύνολα δεδομένων που δημιουργήθηκαν επίσης από την τεχνητή νοημοσύνη και, στη συνέχεια, της μόλυνσης των αποτελεσμάτων της έχει αναφερθεί ως «κατάρρευση μοντέλου». Οι ερευνητές προειδοποιούν ότι θα μπορούσε να γίνει όλο και πιο διαδεδομένη καθώς τα συστήματα ΤΝ χρησιμοποιούνται περισσότερο σε όλο το διαδίκτυο.
Συμβαίνει επειδή καθώς τα συστήματα αυτά παράγουν δεδομένα και στη συνέχεια εκπαιδεύονται σε αυτά, τα λιγότερο συνηθισμένα μέρη των δεδομένων τείνουν να παραλείπονται. Η ερευνήτρια Emily Wenger, η οποία δεν συμμετείχε στη μελέτη, χρησιμοποίησε το παράδειγμα ενός συστήματος που εκπαιδεύεται σε εικόνες διαφορετικών φυλών σκύλων: αν υπάρχουν περισσότερα golden retrievers στα αρχικά δεδομένα, τότε θα ξεχωρίσει αυτά, και καθώς η διαδικασία συνεχίζεται, αυτά τα άλλα σκυλιά τελικά θα παραλειφθούν εντελώς – πριν το σύστημα καταρρεύσει και παράγει απλώς ανοησίες.
Το ίδιο φαινόμενο συμβαίνει με μεγάλα γλωσσικά μοντέλα όπως αυτά που τροφοδοτούν το ChatGPT και το Gemini της Google, διαπίστωσαν οι ερευνητές.
Αυτό θα μπορούσε να αποτελέσει πρόβλημα όχι μόνο επειδή τα συστήματα τελικά καθίστανται άχρηστα, αλλά και επειδή σταδιακά θα μειωθεί η ποικιλία των αποτελεσμάτων τους. Καθώς τα δεδομένα παράγονται και ανακυκλώνονται, τα συστήματα μπορεί να μην αντικατοπτρίζουν όλη την ποικιλία του κόσμου και μικρότερες ομάδες ή προοπτικές μπορεί να διαγραφούν εντελώς.
Το πρόβλημα «πρέπει να ληφθεί σοβαρά υπόψη, αν θέλουμε να διατηρήσουμε τα οφέλη της εκπαίδευσης από δεδομένα μεγάλης κλίμακας που προέρχονται από τον ιστό», γράφουν οι ερευνητές στο έγγραφό τους. Μπορεί επίσης να σημαίνει ότι οι εταιρείες που έχουν ήδη σαρώσει δεδομένα για να εκπαιδεύσουν τα συστήματά τους θα μπορούσαν να βρίσκονται σε πλεονεκτική θέση, καθώς τα δεδομένα που έχουν ληφθεί νωρίτερα θα έχουν περισσότερη γνήσια ανθρώπινη παραγωγή σε αυτά.
Το πρόβλημα θα μπορούσε να διορθωθεί με μια σειρά πιθανών λύσεων, συμπεριλαμβανομένης της υδατογράφησης της παραγωγής, ώστε να μπορεί να εντοπιστεί από αυτοματοποιημένα συστήματα και στη συνέχεια να φιλτραριστεί από αυτά τα σύνολα εκπαίδευσης. Όμως είναι εύκολο να αφαιρεθούν αυτά τα υδατογραφήματα και οι εταιρείες τεχνητής νοημοσύνης αντιστέκονται στη συνεργασία για τη χρήση τους, μεταξύ άλλων θεμάτων.
Η μελέτη με τίτλο «AI models collapse when trained on recursively generated data» δημοσιεύεται στο Nature.