Πληθαίνουν οι ανησυχίες για τις πηγές των συστημάτων τεχνητής νοημοσύνης

Google logo displayed on a phone screen and OpenAI logo on website displayed on a laptop screen are seen in this illustration photo taken in Krakow, Poland on February 7, 2023. (Photo by Jakub Porzycki/NurPhoto) (Photo by Jakub Porzycki / NurPhoto / NurPhoto via AFP) Photo: AFP

FORTUNE GREECE

Μπορεί τα chatbots να αντλούν πληροφορίες από ιστότοπους όπως ο Guardian και η Wikipedia, καθώς και από μεγάλες βάσεις δεδομένων, όμως συμπεριλαμβάνουν επίσης λιγότερο αξιόπιστες ιστοσελίδες.

Πληθαίνουν οι φόβοι και οι ανησυχίες σχετικά με το εκπαιδευτικό υλικό που χρησιμοποιείται για ορισμένα από τα μεγαλύτερα και ισχυρότερα μοντέλα τεχνητής νοημοσύνης, μετά από διάφορες έρευνες που αποκάλυψαν τις κακόβουλες πηγές από τις οποίες συλλέγονται τα δεδομένα.

Ένα τέτοιο σύνολο δεδομένων είναι το Colossal Clean Crawled Corpus, ή C4, το οποίο συγκεντρώθηκε από την Google από περισσότερους από 15 εκατομμύρια ιστότοπους και χρησιμοποιείται για την εκπαίδευση της τεχνητής νοημοσύνης LaMDA της μηχανής αναζήτησης όσο και του LLaMA, του ανταγωνιστή του GPT της Meta.

Το σύνολο δεδομένων είναι δημόσιο, αλλά η κλίμακα του, όπως σημειώνει ο Guardian, έχει καταστήσει δύσκολη την εξέταση του περιεχομένου του: υποτίθεται ότι είναι μια «καθαρή» έκδοση ενός πιο εκτεταμένου συνόλου δεδομένων, του Common Crawl, με «θορυβώδες» περιεχόμενο, προσβλητική γλώσσα και ρατσιστικές προσβολές που έχουν αφαιρεθεί από το υλικό.

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Το bot τεχνητής νοημοσύνης του Snapchat είναι πλέον διαθέσιμο για όλους

20/04/2023

Αλλά μια έρευνα της Washington Post αποκαλύπτει ότι η «καθαρότητα» του C4 είναι μόνο επιφανειακή. Ενώ αντλεί από ιστότοπους όπως ο Guardian και η Wikipedia, καθώς και από μεγάλες βάσεις δεδομένων όπως το Google Patents και ο κόμβος επιστημονικών περιοδικών PLOS, περιέχει επίσης λιγότερο αξιόπιστες ιστοσελίδες.

Ο ρατσιστικός ιστότοπος VDARE βρίσκεται στη βάση δεδομένων, ένας από τους 1.000 μεγαλύτερους ιστότοπους, όπως και ο ακροδεξιός ειδησεογραφικός ιστότοπος Breitbart. Ο ιστότοπος προπαγάνδας RT, που υποστηρίζεται από το ρωσικό κράτος, είναι ένας από τους εκατό μεγαλύτερους παρόχους εκπαιδευτικών δεδομένων για το C4.

Τέτοιες εκτενείς συλλογές δεδομένων είναι σημαντικές για τη δημιουργία τεχνητής νοημοσύνης, επειδή τα μεγάλα γλωσσικά μοντέλα που υποστηρίζουν εργαλεία όπως το ChatGPT χρειάζονται τεράστια σύνολα δεδομένων για να βελτιωθούν.

Η συγκέντρωση των εκατοντάδων gigabytes κειμένου που απαιτούνται για την εκπαίδευση ενός τέτοιου μοντέλου από πηγές με ρητή άδεια θα ήταν δύσκολο έργο, και πολλοί ερευνητές τεχνητής νοημοσύνης υποστηρίζουν ότι οι δημιουργίες τους καλύπτονται από τις προβλέψεις «δίκαιης χρήσης» στα πνευματικά δικαιώματα.

Πληθαίνουν οι ανησυχίες για τις πηγές των συστημάτων τεχνητής νοημοσύνης

Το bot τεχνητής νοημοσύνης του Snapchat είναι πλέον διαθέσιμο για όλους

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΕΚΤ: Έβδομη μείωση επιτοκίων στη σκιά του εμπορικού πολέμου – Πού στρέφει τώρα την προσοχή της

ΕΠΕΝΔΥΣΕΙΣ

Alpha Bank: Αναμένονται περαιτέρω μειώσεις επιτοκίων από την ΕΚΤ μέσα στο 2025

ΕΠΙΚΑΙΡΟΤΗΤΑ

ΔΝΤ: «Η αβεβαιότητα για την εμπορική πολιτική έχει εκτιναχτεί στα ύψη»

ΕΠΙΚΑΙΡΟΤΗΤΑ

Η Ευρώπη αντεπιτίθεται: Γιατί οι επενδυτές στρέφονται ξανά στη Γηραιά Ήπειρο

ΕΠΙΚΑΙΡΟΤΗΤΑ

Πάσχα με πτώση στο Χρηματιστήριο Αθηνών – Υποχώρηση 0,79% και μειωμένος τζίρος

ΕΠΙΧΕΙΡΗΣΕΙΣ

Εκτός Marks & Spencer η οικογένεια Μαρινόπουλου

ΕΠΙΚΑΙΡΟΤΗΤΑ

Θαλάσσιο Χωροταξικό: Ο συμβολισμός, η ΑΟΖ και η επιχειρηματικότητα

ΕΠΙΚΑΙΡΟΤΗΤΑ

Υπάρχει ζωή εκτός του ηλιακού μας συστήματος; Αυτή είναι η ισχυρότερη ένδειξη για εξωγήινη ζωή

ΕΠΙΚΑΙΡΟΤΗΤΑ

«Ο υπερβολικά αργός Τζερόμ Πάουελ»: Σφοδρή επίθεση Τραμπ στον επικεφαλής της Fed

ΕΠΙΚΑΙΡΟΤΗΤΑ

Η Κριστίν Λαγκάρντ στηρίζει τον Τζερόμ Πάουελ μετά την επίθεση Τραμπ

ΕΠΙΚΑΙΡΟΤΗΤΑ

Το αδύναμο δολάριο ανατρέπει τις ισορροπίες – Ποια η σημασία του για την παγκόσμια οικονομία»

ΕΠΙΚΑΙΡΟΤΗΤΑ

Ο πληθωρισμός του αυγού του… Κολόμβου

LEADERSHIP

Most Powerful Women Summit 2025: Η ηγεσία αλλάζει. Ο κόσμος αλλάζει. Αλλάζουμε κι εμείς

ΕΠΙΧΕΙΡΗΣΕΙΣ

Η εμπειρία καφέ Nespresso Professional ξεχώρισε στο Delphi Economic Forum 2025

COMMENTARY

Δασμοί: Τι είναι και πώς μας επηρεάζουν;

ΕΠΙΚΑΙΡΟΤΗΤΑ

Φρένο στην πολυτέλεια – H ασθενική ζήτηση πλήττει τα έσοδα της Hermès

COMMENTARY

CISO: Ο «αρχιτέκτονας» της ψηφιακής άμυνας

LEADERSHIP

Το μέλλον της Ευρώπης στην εποχή των ανατροπών – Όσα συζητήθηκαν στο CEO Initiative Masterclass του Fortune Greece στους Δελφούς