Πόσο δικαιολογημένος είναι ο επενδυτικός πανικός που έφερε η DeepSeek;
- 28/01/2025, 14:11
- SHARE
Του Jeremy Kahn
Η τεχνητή νοημοσύνη (TN) έχει τροφοδοτήσει την εξαιρετική άνοδο της Nvidia σε μια αποτίμηση αγοράς ύψους 3 τρισεκατομμυρίων δολαρίων. Αλλά τη Δευτέρα, η ΤΝ αποτέλεσε αιτία πανικού μεταξύ των επενδυτών της Nvidia, στέλνοντας τις μετοχές της σε πτώση σχεδόν 17% και εξανεμίζοντας σχεδόν 600 δισεκατομμύρια δολάρια σε αξία.
Το ξεπούλημα προκλήθηκε από την κινεζική νεοφυή εταιρεία ΤΝ DeepSeek, της οποίας τα τελευταία μοντέλα ΤΝ V3 και R1 φαίνεται να ανταγωνίζονται τα καλύτερα οποιασδήποτε αμερικανικής εταιρείας, ενώ έχουν εκπαιδευτεί με ένα κλάσμα του κόστους. Δεδομένου ότι οι ισχυρές μονάδες επεξεργασίας γραφικών της Nvidia αποτελούν ένα από τα μεγαλύτερα κόστη για την ανάπτυξη των πιο προηγμένων μοντέλων ΤΝ, οι επενδυτές αμφισβητούν ξαφνικά και ριζικά τις υποθέσεις τους για την επιχειρηματική δραστηριότητα στον κλάδο.
Παρόλο που υπάρχουν ακόμη πολλά αναπάντητα ερωτήματα σχετικά με το πώς η DeepSeek ανέπτυξε τα μοντέλα της, η νεοφυής εταιρεία αναστατώνει ξεκάθαρα την αγορά της ΤΝ. Ωστόσο, οι προβλέψεις για την καταστροφή της Nvidia μπορεί να είναι πρόωρες. Το ίδιο μπορεί να είναι αλήθεια και για τους ισχυρισμούς ότι η επιτυχία της DeepSeek σημαίνει ότι οι ΗΠΑ θα πρέπει να εγκαταλείψουν τις πολιτικές που αποσκοπούν στον περιορισμό της πρόσβασης της Κίνας στα πιο προηγμένα τσιπ υπολογιστών που χρησιμοποιούνται στην ΤΝ.
Κορυφαίες GPU
Η DeepSeek δήλωσε ότι έχει πρόσβαση σε 10.000 παλαιότερης γενιάς GPU A100 της Nvidia – τσιπ που αποκτήθηκαν πριν οι ΗΠΑ επιβάλουν ελέγχους εξαγωγών που περιόρισαν τη δυνατότητα των κινεζικών εταιρειών να αγοράζουν αυτά τα κορυφαία τσιπ. Ανέφερε επίσης την εκπαίδευση των V3 στα τσιπ H800 της Nvidia, ένα τσιπ που η Nvidia πουλά στην Κίνα και το οποίο έχει σχεδιαστεί ειδικά για να συμμορφώνεται με τους εξαγωγικούς ελέγχους των ΗΠΑ.
Όπως και να έχει, πρόκειται για εξαιρετικά λιγότερη επεξεργαστική ισχύ από αυτή που χρησιμοποιούν συνήθως οι αμερικανικές εταιρείες για να εκπαιδεύσουν τα πιο προηγμένα μοντέλα ΤΝ τους. Για παράδειγμα, η Xai του Elon Musk κατασκεύασε ένα υπολογιστικό σύμπλεγμα, που ονομάζεται Colossus, στο Τενεσί, το οποίο διαθέτει 100.000 από τις πιο προηγμένες GPU H100 της Nvidia.
Επιπλέον, το μοντέλο R1 της DeepSeek, ένα μοντέλο ΤΝ που δημιούργησε για να τα πηγαίνει καλά στα μαθηματικά, τα λογικά προβλήματα και την κωδικοποίηση, και το οποίο έχει σχεδιαστεί για να αμφισβητήσει το μοντέλο «συλλογισμού» o1 της OpenAI, είναι αρκετά μικρό για να τρέξει σε έναν φορητό υπολογιστή, όπου η κύρια επεξεργαστική ισχύς προέρχεται από μια συμβατική κεντρική μονάδα επεξεργασίας (CPU), αντί να απαιτείται πρόσβαση σε πολλές GPU που «τρέχουν» σε ένα κέντρο δεδομένων.
Δεν είναι μόνο οι επενδυτές που έχουν εστιάσει σ’ αυτήν την είδηση. Οι επικριτές των αμερικανικών ελέγχων των εξαγωγών σε προηγμένα τσιπ υπολογιστών έχουν επισημάνει την επιτυχία της DeepSeek ως απόδειξη ότι οι εμπορικοί περιορισμοί δεν λειτουργούν. Ορισμένοι μάλιστα υποστήριξαν ότι οι εξαγωγικοί περιορισμοί έχουν αποτύχει – αν και είχαν σκοπό να παρακωλύσουν τις εταιρείες ΤΝ της Κίνας και να τις εμποδίσουν να φτάσουν τις ΗΠΑ, αντίθετα ανάγκασαν τους Κινέζους ερευνητές ΤΝ να αναπτύξουν έξυπνους τρόπους για να δημιουργήσουν μοντέλα ΤΝ που χρησιμοποιούν πολύ πιο αποτελεσματικά την ισχύ των υπολογιστών.
«Τα επιτεύγματα της Κίνας ως προς την αποτελεσματικότητα δεν είναι τυχαία. Αποτελούν άμεση απάντηση στους κλιμακούμενους εξαγωγικούς περιορισμούς που επιβάλλουν οι ΗΠΑ και οι σύμμαχοί τους», έγραψε η Angela Zhang, καθηγήτρια νομικής στο Πανεπιστήμιο της Νότιας Καλιφόρνιας και συγγραφέας ενός βιβλίου για την κινεζική ρύθμιση της τεχνολογίας, σε άρθρο της στους Financial Times την περασμένη εβδομάδα. «Περιορίζοντας την πρόσβαση της Κίνας σε προηγμένα τσιπ ΤΝ, οι ΗΠΑ έχουν άθελά τους ενθαρρύνει την καινοτομία της». Ο σκεπτικιστής της ΤΝ Gary Marcus επανέλαβε επίσης αυτά τα επιχειρήματα στο ιστολόγιό του την Κυριακή.
Φθηνότερη ΤΝ σημαίνει περισσότερη ΤΝ
Και οι δύο αυτές αναδυόμενες αφηγήσεις θα μπορούσαν να αποδειχθούν κοντόφθαλμες. Αυτό συμβαίνει επειδή ο αντίκτυπος της DeepSeek θα μπορούσε, αντιφατικά, να αυξήσει τη ζήτηση για προηγμένα τσιπ τεχνητής νοημοσύνης – τόσο της Nvidia όσο και εκείνων που αναπτύσσονται από τους ανταγωνιστές. Ο λόγος οφείλεται εν μέρει σε ένα φαινόμενο γνωστό ως Παράδοξο του Jevons.
Ονομάστηκε έτσι από τον Βρετανό οικονομολόγο του 19ου αιώνα William Stanley Jevons, ο οποίος παρατήρησε ότι όταν η τεχνολογική πρόοδος έκανε τη χρήση ενός πόρου πιο αποτελεσματική, η συνολική κατανάλωση αυτού του πόρου έτεινε να αυξάνεται. Αυτό είναι λογικό αν η ζήτηση για κάτι είναι σχετικά ελαστική – η πτώση της τιμής λόγω της βελτίωσης της αποδοτικότητας δημιουργεί ακόμη μεγαλύτερη ζήτηση για το προϊόν.
Το Παράδοξο του Jevons θα μπορούσε κάλλιστα να παίξει ρόλο εδώ. Ένα από τα πράγματα που έχει επιβραδύνει την υιοθέτηση της ΤΝ σε μεγάλους οργανισμούς μέχρι στιγμής ήταν το πόσο ακριβό είναι να τρέξουν αυτά τα μοντέλα. Αυτό είχε καταστήσει δύσκολο για τις επιχειρήσεις να βρουν περιπτώσεις χρήσης που μπορούν να αποφέρουν θετική απόδοση της επένδυσης ή ROI. Αυτό ισχύει ιδιαίτερα μέχρι στιγμής για τα νέα μοντέλα «συλλογιστικής», όπως το o1 της OpenAI. Αλλά τα μοντέλα της DeepSeek, και ειδικά ο ανταγωνιστής της o1 R1, είναι τόσο φθηνά στη λειτουργία τους, ώστε οι επιχειρήσεις μπορούν πλέον να τα εισάγουν σε πολύ περισσότερες διαδικασίες και να τα αναπτύσσουν για πολύ περισσότερες περιπτώσεις χρήσης. Λαμβάνοντας υπόψη το σύνολο της οικονομίας, αυτό μπορεί να προκαλέσει την εκτόξευση της συνολικής ζήτησης για υπολογιστική ισχύ στα ύψη, ακόμη και όταν κάθε μεμονωμένος υπολογισμός απαιτεί πολύ λιγότερη ισχύ.
Τόσο ο διευθύνων σύμβουλος της Microsoft, Satya Nadella, όσο και ο πρώην διευθύνων σύμβουλος της Intel, Pat Gelsinger, έκαναν αυτή την επισήμανση σε αναρτήσεις στα μέσα κοινωνικής δικτύωσης τη Δευτέρα. Ο Nadella αναφέρθηκε ρητά στο Παράδοξο του Jevons, ενώ ο Gelsinger είπε ότι «η πληροφορική υπακούει» σε αυτό που αποκάλεσε «νόμο της βενζίνης». «Η δραματική μείωση της τιμής της θα επεκτείνει την αγορά της… αυτό θα κάνει την ΤΝ πολύ πιο ευρέως διαδεδομένη», έγραψε. «Οι αγορές κάνουν λάθος».
Πέρα από την κατάρτιση των LLM
Τώρα τίθεται το ερώτημα τι είδους υπολογιστική ισχύς θα χρειαστεί. Οι κορυφαίες GPU της Nvidia είναι βελτιστοποιημένες για την εκπαίδευση των μεγαλύτερων μεγάλων γλωσσικών μοντέλων (LLM), όπως το GPT-4 της OpenAI ή το Claude 3-Opus της Anthropic. Η εταιρεία έχει μικρότερο πλεονέκτημα όταν πρόκειται για αυτό που οι ερευνητές και οι προγραμματιστές ΤΝ αποκαλούν inference (εξαγωγή συμπερασμάτων) – δηλαδή τη χρήση ενός πλήρως εκπαιδευμένου μοντέλου ΤΝ για την εκτέλεση μιας εργασίας. Εδώ ορισμένοι από τους αντιπάλους της Nvidia, συμπεριλαμβανομένης της Advanced Micro Devices (AMD) και νεοσύστατων εταιρειών όπως η Groq, έχουν ισχυριστεί ότι μπορούν να εκτελέσουν εφαρμογές TN ταχύτερα και πολύ πιο αποτελεσματικά από άποψη κατανάλωσης ενέργειας από τις GPU της Nvidia. Η Google της Alphabet και η AWS της Amazon κατασκευάζουν επίσης τα δικά τους τσιπ TN, ορισμένα από τα οποία είναι βελτιστοποιημένα για inference.
Ορισμένοι από αυτούς τους αντιπάλους θα μπορούσαν πράγματι να αρχίσουν να υπονομεύουν την κυρίαρχη θέση της Nvidia στην αγορά. (Η εταιρεία ελέγχει επί του παρόντος περισσότερο από το 80% της αγοράς για υπολογιστές TN που βασίζονται σε κέντρα δεδομένων). Αλλά η Nvidia είναι απίθανο να χάσει αυτή την κυριαρχία γρήγορα ή εντελώς. Οι GPU της μπορούν επίσης να χρησιμοποιηθούν για inference -και το λογισμικό προγραμματισμού GPU, CUDA, διαθέτει μια μεγάλη και πιστή κοινότητα προγραμματιστών που είναι απίθανο να αποστατήσει εν μία νυκτί. Εάν η συνολική ζήτηση για τσιπ υπολογιστών ΤΝ αυξηθεί λόγω του Παράδοξου του Jevons, τα συνολικά έσοδα της Nvidia θα μπορούσαν να συνεχίσουν να αυξάνονται, ακόμη και αν το μερίδιο αγοράς της μειωθεί, καθώς θα κατέχει μικρότερο ποσοστό μιας μεγαλύτερης και αυξανόμενης πίτας.
Ένας άλλος λόγος για τον οποίο η ζήτηση για προηγμένα τσιπ υπολογιστών είναι πιθανό να συνεχίσει να αυξάνεται έχει να κάνει με τον τρόπο με τον οποίο λειτουργούν μοντέλα συλλογιστικής όπως το R1. Ενώ τα προηγούμενα είδη LLM γίνονταν πιο ικανά αν χρησιμοποιούσαν περισσότερη υπολογιστική ισχύ κατά τη διάρκεια της εκπαίδευσης, αυτά τα μοντέλα συλλογιστικής χρησιμοποιούν αυτό που ονομάζεται «υπολογιστική test time» – παρέχουν καλύτερες απαντήσεις όσο περισσότερη υπολογιστική ισχύ χρησιμοποιούν κατά τη διάρκεια του inference. Έτσι, ενώ κάποιος μπορεί να είναι σε θέση να τρέξει το R1 σε έναν φορητό υπολογιστή και να το κάνει να δώσει μια καλή απάντηση σε μια δύσκολη μαθηματική ερώτηση μετά από, ας πούμε, μια ώρα, δίνοντας στο ίδιο μοντέλο πρόσβαση σε GPU ή τσιπ ΤΝ στο cloud μπορεί να του επιτρέψει να παράγει την ίδια απάντηση σε δευτερόλεπτα. Για πολλές επιχειρηματικές εφαρμογές της ΤΝ, η καθυστέρηση, ή ο χρόνος που χρειάζεται ένα μοντέλο για να παράγει ένα αποτέλεσμα, έχει σημασία. Όσο λιγότερος χρόνος, γενικά, τόσο το καλύτερο. Και για να μειωθεί αυτός ο χρόνος με τα μοντέλα συλλογιστικής εξακολουθεί να απαιτούνται προηγμένα υπολογιστικά τσιπ.
Επανεξέταση των κανόνων εξαγωγής
Για τους λόγους αυτούς, είναι πιθανό να εξακολουθεί να έχει νόημα -αν οι ΗΠΑ θεωρούν ως προτεραιότητα εθνικής ασφάλειας να καταστήσουν δυσκολότερο για την Κίνα να ανταγωνιστεί στην ΤΝ- να συνεχίσουν να περιορίζουν την πρόσβαση της χώρας στα πιο πρωτοποριακά τσιπ υπολογιστών. Ο Miles Brundage, ειδικός σε θέματα πολιτικής για την ΤΝ που αποχώρησε πρόσφατα από το OpenAI, έκανε αυτό το σχόλιο σε ένα podcast το Σαββατοκύριακο, λέγοντας ότι ακόμη και αν η DeepSeek αποδείξει ότι ισχυρά μοντέλα ΤΝ μπορούν να κατασκευαστούν σε λιγότερα, λιγότερο προηγμένα τσιπ, θα εξακολουθούσε πάντα να αποτελεί πλεονέκτημα η πρόσβαση σε πιο προηγμένα τσιπ.
«Νομίζω ότι όλοι θα προτιμούσαν πολύ να έχουν περισσότερους υπολογιστές για εκπαίδευση, να εκτελούν περισσότερα πειράματα, να παίρνουν δείγματα από ένα μοντέλο περισσότερες φορές και να κάνουν κάποιου είδους φανταχτερούς τρόπους κατασκευής agents που, ξέρετε, διορθώνουν ο ένας τον άλλον και συζητούν πράγματα και επιλέγουν τη σωστή απάντηση», δήλωσε ο Brundage. «Υπάρχουν λοιπόν κάθε είδους τρόποι να μετατρέψουμε τους υπολογιστές σε καλύτερες επιδόσεις και οι αμερικανικές εταιρείες είναι σήμερα σε καλύτερη θέση να το κάνουν αυτό λόγω του μεγαλύτερου όγκου και της ποσότητας των τσιπ τους».
Έτσι, οι έλεγχοι των εξαγωγών ενδέχεται να επιβραδύνουν την Κίνα ακόμη κι όταν πρόκειται να χρησιμοποιήσει την ΤΝ όπου θα ήθελε – γεγονός που θα δώσει στις ΗΠΑ ένα πλεονέκτημα σε οικονομικό και ίσως σε στρατιωτικό επίπεδο, για να αναπτύξουν την ΤΝ και να αποκομίσουν τα οφέλη της.
Επιπλέον, υπάρχει και ένα άλλο επιχείρημα για το γιατί αυτό μπορεί να μην είναι τόσο κακό νέο για τη Nvidia και την πολιτική εθνικής ασφάλειας των ΗΠΑ όσο πιστεύουν οι επενδυτές και οι επικριτές: είναι απολύτως πιθανό η DeepSeek να μην ήταν τόσο ειλικρινής σχετικά με το σε πόσα κορυφαία τσιπ της Nvidia έχει πρόσβαση και πόσα χρησιμοποίησε για να εκπαιδεύσει τα μοντέλα της.
Πολλοί ερευνητές ΤΝ αμφισβητούν τους ισχυρισμούς της DeepSeek ότι εκπαίδευσε το μοντέλο V3 σε περίπου 2.000 από τα λιγότερο ικανά τσιπ H800 της Nvidia ή ότι το μοντέλο R1 εκπαιδεύτηκε σε τόσο λίγα τσιπ. Ο Alexandr Wang, διευθύνων σύμβουλος της εταιρείας ΤΝ Scale AI, δήλωσε σε συνέντευξη στο CNBC από το Νταβός την περασμένη εβδομάδα ότι έχει πληροφορίες ότι η DeepSeek απέκτησε κρυφά πρόσβαση σε μια δεξαμενή 50.000 GPU Nvidia H100 (το τελευταίο της μοντέλο). Είναι γνωστό ότι η HighFlyer, το hedge fund στο οποίο ανήκει η DeepSeek, είχε συγκεντρώσει σημαντικό αριθμό λιγότερο ικανών GPU της Nvidia πριν από την επιβολή των ελέγχων εξαγωγής. Αν αυτό είναι αλήθεια, είναι πολύ πιθανό η Nvidia να βρίσκεται σε καλύτερη θέση από ό,τι υποδηλώνει ο πανικός των επενδυτών – και ότι το πρόβλημα με τους αμερικανικούς ελέγχους εξαγωγών δεν είναι η πολιτική, αλλά η εφαρμογή της.
ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:
- ΝBG Securities: Πάνω από τις 1.500 μονάδες το ΧΑ και το 2025 – Ποιες μετοχές θα ξεχωρίσουν
- Σε νέα περίοδο προκλήσεων η παγκόσμια οικονομία – «Τρομάζει» η προοπτική των δασμών Τραμπ
- Λιάνγκ Γουενφένγκ: Ο 40χρονος ιδρυτής της DeepSeek δεν έχει σχέση με τα στελέχη της AI που έχουμε συνηθίσει
Πηγή: Fortune.com