Πληθαίνουν οι ανησυχίες για τις πηγές των συστημάτων τεχνητής νοημοσύνης
- 01/05/2023, 15:30
- SHARE
Πληθαίνουν οι φόβοι και οι ανησυχίες σχετικά με το εκπαιδευτικό υλικό που χρησιμοποιείται για ορισμένα από τα μεγαλύτερα και ισχυρότερα μοντέλα τεχνητής νοημοσύνης, μετά από διάφορες έρευνες που αποκάλυψαν τις κακόβουλες πηγές από τις οποίες συλλέγονται τα δεδομένα.
Ένα τέτοιο σύνολο δεδομένων είναι το Colossal Clean Crawled Corpus, ή C4, το οποίο συγκεντρώθηκε από την Google από περισσότερους από 15 εκατομμύρια ιστότοπους και χρησιμοποιείται για την εκπαίδευση της τεχνητής νοημοσύνης LaMDA της μηχανής αναζήτησης όσο και του LLaMA, του ανταγωνιστή του GPT της Meta.
Το σύνολο δεδομένων είναι δημόσιο, αλλά η κλίμακα του, όπως σημειώνει ο Guardian, έχει καταστήσει δύσκολη την εξέταση του περιεχομένου του: υποτίθεται ότι είναι μια «καθαρή» έκδοση ενός πιο εκτεταμένου συνόλου δεδομένων, του Common Crawl, με «θορυβώδες» περιεχόμενο, προσβλητική γλώσσα και ρατσιστικές προσβολές που έχουν αφαιρεθεί από το υλικό.
Αλλά μια έρευνα της Washington Post αποκαλύπτει ότι η «καθαρότητα» του C4 είναι μόνο επιφανειακή. Ενώ αντλεί από ιστότοπους όπως ο Guardian και η Wikipedia, καθώς και από μεγάλες βάσεις δεδομένων όπως το Google Patents και ο κόμβος επιστημονικών περιοδικών PLOS, περιέχει επίσης λιγότερο αξιόπιστες ιστοσελίδες.
Ο ρατσιστικός ιστότοπος VDARE βρίσκεται στη βάση δεδομένων, ένας από τους 1.000 μεγαλύτερους ιστότοπους, όπως και ο ακροδεξιός ειδησεογραφικός ιστότοπος Breitbart. Ο ιστότοπος προπαγάνδας RT, που υποστηρίζεται από το ρωσικό κράτος, είναι ένας από τους εκατό μεγαλύτερους παρόχους εκπαιδευτικών δεδομένων για το C4.
Τέτοιες εκτενείς συλλογές δεδομένων είναι σημαντικές για τη δημιουργία τεχνητής νοημοσύνης, επειδή τα μεγάλα γλωσσικά μοντέλα που υποστηρίζουν εργαλεία όπως το ChatGPT χρειάζονται τεράστια σύνολα δεδομένων για να βελτιωθούν.
Η συγκέντρωση των εκατοντάδων gigabytes κειμένου που απαιτούνται για την εκπαίδευση ενός τέτοιου μοντέλου από πηγές με ρητή άδεια θα ήταν δύσκολο έργο, και πολλοί ερευνητές τεχνητής νοημοσύνης υποστηρίζουν ότι οι δημιουργίες τους καλύπτονται από τις προβλέψεις «δίκαιης χρήσης» στα πνευματικά δικαιώματα.