Γιατί η εξάλειψη της μεροληψίας της τεχνητής νοημοσύνης είναι πιο δύσκολη από όσο φαίνεται
- 07/05/2022, 19:00
- SHARE
του Jeremy Kahn
Για τις επιχειρήσεις, η αλγοριθμική μεροληψία έχει γίνει μεγάλο ζήτημα. Πολλές εταιρείες, και οι πωλητές λογισμικού που τους πωλούν εφαρμογές τεχνητής νοημοσύνης, ανησυχούν ότι τα αυτοματοποιημένα συστήματά τους κάνουν άδικες διακρίσεις έναντι προστατευόμενων κατηγοριών ατόμων, διακινδυνεύοντας νομικά και ρυθμιστικά προβλήματα, καθώς και προβλήματα φήμης.
Ο φόβος της αλγοριθμικής μεροληψίας έχει επιβραδύνει την ανάπτυξη της τεχνητής νοημοσύνης σε πολλούς τομείς. Έχει επίσης δημιουργήσει έναν ολόκληρο υπο-κλάδο συμβούλων και πωλητών λογισμικού που πωλούν εργαλεία για τον εντοπισμό της αλγοριθμικής μεροληψίας και προσπαθούν να την μετριάσουν.
Μεγάλο μέρος της εστίασης έχει δοθεί στον τρόπο διόρθωσης των μεροληπτικών δεδομένων. Οι μειονοτικές ομάδες υποεκπροσωπούνται στα περισσότερα σύνολα δεδομένων – στην πραγματικότητα, λόγω φανερών και σιωπηρών διακρίσεων και ανθρώπινης μεροληψίας, συχνά αντιπροσωπεύονται πολύ λιγότερο στα δεδομένα από ό,τι ακόμη και σε έναν δεδομένο πληθυσμό. Αυτό σημαίνει ότι τα συστήματα τεχνητής νοημοσύνης που έχουν εκπαιδευτεί σε αυτά τα δεδομένα δε θα έχουν εξίσου καλή απόδοση για τις μειονοτικές ομάδες.
Μια λύση θα ήταν να προσπαθήσουμε να δημιουργήσουμε καλύτερα σύνολα δεδομένων, με καλύτερη εκπροσώπηση της μειοψηφίας. Μια άλλη θα ήταν να γίνουν αυστηρές δοκιμές για να βεβαιωθούμε ότι οι ιστορικές προκαταλήψεις, όπως οι αθέμιτες πρακτικές δανεισμού, δεν αναπαράγονται από την τεχνητή νοημοσύνη.
Αλλά αποδεικνύεται ότι ο μετριασμός της μεροληψίας είναι πολύ πιο δύσκολος από ό,τι υποθέτουν πολλοί ειδικοί, όπως ανέδειξε μια ιστορία την περασμένη εβδομάδα στην τεχνολογική δημοσίευση του The Register. Η ιστορία ανέφερε μια ερευνητική εργασία που δημοσιεύτηκε στο επιστημονικό περιοδικό Science Advances που εξέταζε τη φυλετική μεροληψία σε ένα σύστημα τεχνητής νοημοσύνης σχεδιασμένο να ταξινομεί την εγκεφαλική δραστηριότητα με βάση σαρώσεις λειτουργικής μαγνητικής τομογραφίας (fMRI). Αποδεικνύεται ότι τα σύνολα δεδομένων fMRI που χρησιμοποιούνται για την εκπαίδευση αυτού του είδους τεχνητής νοημοσύνης δεν έχουν πολλά δεδομένα από Μαύρους Αμερικανούς.
Επομένως, δεν αποτελεί έκπληξη το γεγονός ότι οι αλγόριθμοι είχαν κακή απόδοση σε σαρώσεις μαύρων ασθενών. Αλλά αυτό που προκαλεί έκπληξη είναι ότι ακόμη και όταν οι ερευνητές επιμελήθηκαν ένα σύνολο δεδομένων εκπαίδευσης που αποτελείται μόνο από δεδομένα από Μαύρους Αμερικανούς, το σύστημα που προέκυψε εξακολουθούσε να έχει χειρότερη απόδοση σε μαύρους ασθενείς από το τυπικό σύστημα που χρησιμοποιείται σε λευκούς ασθενείς.
Το ερώτημα είναι γιατί; Και η απάντηση είναι ότι οι ερευνητές δεν είναι πραγματικά σίγουροι. Αλλά κάνουν κάποιες υποθέσεις. Μια από αυτές είναι ότι η ίδια η κατανόησή μας για τη γεωγραφία του εγκεφάλου – το που βρίσκονται τα όρια των περιοχών του εγκεφάλου – είναι από μόνη της μεροληπτική, αφού αναπτύχθηκε κυρίως από δεδομένα λευκών ασθενών. Υποψιάζονται επίσης ότι ο τρόπος με τον οποίο βαθμονομούνται οι μηχανές fMRI για να καταγράφουν τη ροή του αίματος γύρω από τον εγκέφαλο έχει φυλετική μεροληψία, χρησιμοποιώντας και πάλι ένα μοντέλο βαθμονόμησης που αναπτύχθηκε από λευκούς ασθενείς.
Αυτό ακριβώς το είδος «κρυφής» μεροληψίας, που βρίσκεται πολύ πιο βαθιά στα δεδομένα από το ίδιο το σύνολο των δεδομένων εκπαίδευσης, συχνά διαφεύγει του ελέγχου ακόμη και από τους επιστήμονες δεδομένων.
Όπως σημειώνει το δημοσίευμα του The Register, το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας (NIST) της κυβέρνησης των ΗΠΑ προσπαθεί να δημιουργήσει ένα σύνολο προτύπων σχετικά με τον εντοπισμό και τον μετριασμό της μεροληψίας της τεχνητής νοημοσύνης. Οποιαδήποτε πρότυπα θεσπίσει το NIST θα μπορούσαν να έχουν μεγάλο αντίκτυπο στον τρόπο με τον οποίο η τεχνητή νοημοσύνη χρησιμοποιείται στη βιομηχανία – και σίγουρα θα επηρεάσει τον τρόπο με τον οποίο αναπτύσσονται τα συστήματα τεχνητής νοημοσύνης της κυβέρνησης των ΗΠΑ.
Πηγή: Fortune.com