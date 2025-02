DeepSeek sta accelerando il lancio del successore del modello R1; aveva pianificato di rilasciare R2 all’inizio di maggio, ma ora vuole che esca il prima possibile. L’azienda afferma di sperare che il nuovo modello produca una codifica migliore e sia in grado di ragionare in lingue diverse dall’inglese. I dettagli della tempistica accelerata per il rilascio di R2 non sono stati precedentemente segnalati.

R1 è stato costruito con chip Nvidia meno potenti, ma è competitivo con quelli sviluppati al costo di centinaia di miliardi di dollari dai giganti della tecnologia statunitense. È probabile che R2 preoccupi il governo degli Stati Uniti, che ha identificato la leadership dell’intelligenza artificiale come una priorità nazionale. La sua uscita potrebbe galvanizzare ulteriormente le autorità e le aziende cinesi, decine delle quali affermano di aver iniziato a integrare i modelli DeepSeek nei propri prodotti, riporta Reuters.

Si sa poco di DeepSeek, il cui fondatore Liang Wenfeng è diventato miliardario attraverso il suo fondo speculativo quantitativo High-Flyer. Liang, descritto da un ex datore di lavoro come “discreto e introverso”, non ha parlato con nessun media da luglio 2024.

Si sa poco della società e del suo fondatore. Si tratterebbe di un’azienda che funziona più come un laboratorio di ricerca che come un’impresa a scopo di lucro, libera dalle tradizioni gerarchiche dell’industria tecnologica della Cina. In DeepSeek e High-Flyer, Liang aveva assunto ingegneri algoritmici pluripremiati e operava con uno “stile di gestione piatto”; ha anche evitato le pratiche dei giganti della tecnologia cinese noti per la rigida gestione dall’alto verso il basso, i bassi stipendi per i giovani dipendenti e il “996”, ovvero lavorare dalle 9:00 alle 21:00 sei giorni alla settimana.

Liang lavorerebbe insieme a stagisti della Generazione Z e neolaureati che costituiscono la maggior parte della sua forza lavoro; giornata lavorativa di otto ore al giorno in un’atmosfera collaborativa.

Mentre Baidu e altri giganti della tecnologia cinese correvano per costruire le loro versioni di ChatGPT rivolte ai consumatori nel 2023 e trarre profitto dal boom globale dell’intelligenza artificiale, Liang ha dichiarato all’emittente cinese Waves l’anno scorso di aver deliberatamente evitato di spendere molto nello sviluppo di app, concentrandosi invece sul perfezionamento della qualità del modello di intelligenza artificiale.

Sia DeepSeek che High-Flyer sono noti per i pagamenti generosi. In High-Flyer, non è raro che uno scienziato di dati senior guadagni 1,5 milioni di yuan all’anno. La generosità è stata finanziata da High-Flyer, che è diventato uno dei fondi quantitativi di maggior successo in Cina e, anche dopo una stretta governativa sul settore, gestisce ancora decine di miliardi di yuan.

Il successo di DeepSeek con un modello di intelligenza artificiale a basso costo si basa sull’investimento decennale e sostanziale di High-Flyer in ricerca e potenza di calcolo.

Il fondo quantitativo è stato un precedente pioniere nel trading di intelligenza artificiale; nel 2020 High-Flyer stava puntando “tutto” sull’intelligenza artificiale reinvestendo il 70% dei suoi ricavi, principalmente nella ricerca sull’intelligenza artificiale; ha speso 1,2 miliardi di yuan in due cluster di supercomputing AI nel 2020 e nel 2021. Il secondo cluster, Fire-Flyer II, era composto da circa 10.000 chip Nvidia A100, utilizzati per l’addestramento di modelli di intelligenza artificiale.

DeepSeek non era ancora stata fondata a quel tempo, quindi l’accumulo di potenza di calcolo ha attirato l’attenzione degli enti di regolamentazione dei titoli cinesi. Le autorità decisero di non intervenire.

Pechino ora celebra DeepSeek, ma le ha ordinato di non interagire con i media senza approvazione. Le autorità avevano chiesto a Liang di mantenere un basso profilo perché erano preoccupate che troppa pubblicità sui media avrebbe attirato un’attenzione non necessaria.

Come una delle poche aziende con un grande cluster A100, High-Flyer e DeepSeek sono state in grado di attrarre alcuni dei migliori talenti della ricerca cinese.

La startup ha utilizzato tecniche come Mixture-of-Experts (MoE) e multihead latent attention (MLA), che comportano costi di elaborazione molto più bassi, come dimostrano i suoi documenti di ricerca.

La tecnica MoE divide un modello di intelligenza artificiale in diverse aree di competenza e attiva solo quelle correlate a una query, al contrario delle architetture più comuni che utilizzano l’intero modello. L’architettura MLA consente a un modello di elaborare simultaneamente diversi aspetti di un’informazione, aiutandolo a rilevare i dettagli chiave in modo più efficace.

Mentre i concorrenti come la francese Mistral hanno sviluppato modelli basati su MoE, DeepSeek è stata la prima azienda a fare molto affidamento su questa architettura, raggiungendo la parità con modelli più costosi.

I prezzi di DeepSeek erano da 20 a 40 volte più economici di quelli richiesti da OpenAI per modelli equivalenti, secondo le stime degli analisti di Bernstein Brokerage all’inizio di febbraio.

Per ora, i giganti della tecnologia occidentali e cinesi hanno segnalato piani per continuare a spendere molto in AI, ma il successo di DeepSeek con R1 e il suo precedente modello V3 ha spinto alcuni a cambiare strategia.

OpenAI ha tagliato i prezzi questo mese, mentre Gemini di Google ha introdotto livelli di accesso scontati. Dal lancio di R1, OpenAI ha anche rilasciato un modello O3-Mini che si basa su una potenza di calcolo inferiore.

Anche prima che R1 catturasse l’attenzione globale, c’erano segnali che DeepSeek avesse catturato il favore di Pechino. A gennaio, i media statali hanno riferito che Liang ha partecipato a un incontro con il premier cinese Li Qiang a Pechino come rappresentante designato del settore AI, prima dei leader di aziende più note.

Il successivo clamore sulla competitività dei costi dei suoi modelli ha rafforzato la convinzione di Pechino di poter superare in innovazione gli Stati Uniti, con aziende e organi governativi cinesi che hanno adottato i modelli DeepSeek a un ritmo che non è stato offerto ad altre aziende. Almeno 13 governi cittadini cinesi e 10 aziende energetiche statali affermano di aver implementato DeepSeek nei loro sistemi, mentre i giganti della tecnologia Lenovo, Baidu e Tencent, proprietaria della più grande app di social media cinese WeChat, hanno integrato i modelli di DeepSeek nei loro prodotti.

Luigi Medici

