DeepSeek: la sfida cinese all’AI della Silicon Valley

News

17 Febbraio 2025

Condividi su:
Versione breve 45

La startup cinese DeepSeek ha deciso di puntare su efficienza, architetture innovative e open source, scuotendo le fondamenta del dominio della Silicon Valley nell’ambito dell’intelligenza artificiale. Mentre i big tech americani investono in infrastrutture gigantesche, DeepSeek ha fatto di necessità virtù: ha sviluppato un modello AI avanzato, riducendo la dipendenza dall’hardware e sperimentando nuove tecniche di apprendimento. Un approccio che potrebbe segnare una svolta nel settore. Quali implicazioni ha questo cambiamento? E cosa significa per il futuro dell’AI? Ne parliamo nel nostro nuovo articolo.

Versione completa 1
Condividi su:

Autore: Davide Mantovani, (Web & AI Platform Leader di Synesthesia)

Non è ormai un segreto che il settore dell’intelligenza artificiale generativa, tradizionalmente dominato dai colossi americani della Silicon Valley e dalla loro corsa a modelli linguistici sempre più complessi, sia recentemente stato scosso da un terremoto oltreoceano chiamato DeepSeek.

Fondata nel luglio 2023 da Liang Wenfeng, la startup cinese ha meno di due anni e non si limita a inseguire i competitor gattonando, ma cerca di ridefinire le regole del gioco, dimostrando come efficienza architetturale, adozione strategica dell’open source e un focus sul ragionamento strutturato, possano rappresentare un’alternativa vincente al paradigma della mera dimensione computazionale.

DeepSeek ha fatto di necessità virtù

DeepSeek ha scelto una strada controcorrente rispetto alla tendenza dominante del settore: invece di investire in infrastrutture hardware esorbitanti per addestrare modelli con miliardi di parametri, ha puntato sull’ottimizzazione dell’architettura. Questo approccio, combinato con tecniche avanzate di apprendimento per rinforzo – inclusa la sperimentazione con il reinforcement learning senza feedback umano, un primato nel settore – ha portato a risultati significativi.

In questo contesto, il ruolo delle restrizioni imposte dal Governo degli Stati Uniti sull’esportazione di tecnologie avanzate – incluse le richiestissime GPU Nvidia di fascia alta – verso la Cina non è da sottovalutare. Questi limiti hanno creato una situazione di necessità per le aziende coinvolte, spingendole a ottimizzare l’architettura dei loro modelli e a sviluppare chip nazionali. Aggiungiamo a questa ricetta un pizzico di limitazione all’ottenimento di informazioni che possono essere consumate in Cina e otteniamo DeepSeek.

L’azienda cinese ha presentato alcuni modelli, ma l’attenzione si è concentrata su R1, un modello in grado di elaborare le informazioni in seguito ad un ragionamento strutturato (come i cosiddetti “thinking models” OpenAI o1 e o3 e Google Gemini 2.0), seguendo catene di ragionamento (Chain-of-Thought, CoT) e alberi di pensiero (Tree-of-Thoughts, ToT). CoT incoraggia il modello a generare una serie di passaggi di ragionamento intermedi prima di produrre la risposta finale a una domanda, mentre ToT ne espande la struttura promuovendo catene di ragionamento parallele.

Segue un esempio.

Domanda: un fruttivendolo ha 10 mele. Ne vende 2 al mattino e 3 al pomeriggio. Quante mele gli rimangono?

Catena di ragionamento:

1. Il fruttivendolo inizia con 10 mele.

2. Ne vende 2 al mattino, quindi gliene rimangono 10 – 2 = 8.

3. Ne vende 3 al pomeriggio, quindi gliene rimangono 8 – 3 = 5.

Risposta finale: al fruttivendolo rimangono 5 mele.

Come è stato addestrato il modello di DeepSeek?

La necessità di ridurre la dipendenza dalle enormi quantità di dati necessarie a completare un apprendimento completo e di ricorrere a infrastrutture estremamente potenti, ha creato la necessità di ricorrere a una combinazione di tecniche di learning avanzate.

DeepSeek sostiene di aver utilizzato, per l’addestramento del modello principale (R1), solo chip di vecchia generazione e dalle prestazioni limitate (Nvidia H800 e A100), così da rispettare le restrizioni tecnologiche imposte dagli Stati Uniti. Una scelta in contrasto con l’uso delle più potenti e costose GPU H100, che riflette la strategia dell’azienda di puntare più sull’ottimizzazione software che sulla potenza hardware. Detto questo, è doveroso specificare che non abbiamo la certezza che ciò che sia stato dichiarato sia vero al 100%, tuttavia le azioni di Nvidia non l’hanno presa bene.

Il training di una intelligenza artificiale passa per diversi step, pre-training, fine-tuning supervisionato (SFT), apprendimento per rinforzo (RL) e variazioni o combinazioni. Per non dilungarsi in lectio magistralis, ci concentreremo sull’apprendimento per rinforzo, che ha giocato un ruolo fondamentale nei modelli DeepSeek (vedi approfondimenti).

Tradizionalmente, l’apprendimento per rinforzo si basa sul feedback umano di un esperto, che fornisce all’agente indicazioni dirette o indirette su quali azioni siano corrette o errate. Questo può avvenire attraverso la valutazione delle sue prestazioni o la definizione di comportamenti desiderati. Il feedback viene quindi utilizzato per addestrare un modello di ricompensa (il classico “biscottino” per i cani ubbidienti), che a sua volta guida l’apprendimento del modello linguistico principale tramite l’algoritmo PPO (Proximal Policy Optimization), aumentando la probabilità di adottare i comportamenti più efficaci. Sebbene questa supervisione umana sia fondamentale per indirizzare l’apprendimento dell’agente, comporta costi elevati e tempi lunghi, soprattutto quando il training si basa su un numero limitato di dati.

Per l’addestramento del modello R1, DeepSeek ha affiancato al metodo supervisionato da umano, una tecnica che possiamo definire più innovativa: l’affiancamento di un altro modello di intelligenza artificiale (il “valutatore”), addestrato a giudicare la qualità delle risposte del modello principale, fornendo un segnale di ricompensa che guida l’apprendimento. 

DeepSeek ha sviluppato, quindi, un’altra versione del suo modello di intelligenza artificiale, R1 Zero, addestrato utilizzando esclusivamente il reinforcement learning (RL) senza alcun intervento umano, dimostrando che i modelli linguistici possono sviluppare capacità di ragionamento avanzate attraverso l’auto-evoluzione guidata da segnali di ricompensa, nonostante la manifestazione di problemi di leggibilità e mescolanze linguistiche.

L’azienda cinese si è, inoltre, specializzata nella distillazione di modelli IA, cioè il processo di trasferimento delle conoscenze di modelli di grandi dimensioni verso modelli più piccoli, con performance simili. Questa preparazione ha insospettito OpenAI, che ha avanzato l’ipotesi che DeepSeek abbia utilizzato per questo scopo alcuni loro modelli senza autorizzazione. Per il momento non si sa con certezza se questo fatto si sia verificato o meno.

Perché l’architettura pensata da DeepSeek è diversa?

I modelli più noti utilizzano un’architettura densa (oppure scelgono di non divulgare la reale architettura). In un’architettura densa, ogni neurone in un determinato strato è connesso a tutti i neuroni dello strato precedente e successivo. Questo significa che quando un input (per esempio, una parola o una frase) viene elaborato, tutti i parametri del modello vengono attivati e contribuiscono al calcolo dell’output. I modelli densi sono ideali per apprendere rappresentazioni generali dei dati in modo molto efficace, ma richiedono maggiori quantità di calcoli e sono computazionalmente più costosi.

DeepSeek, come altre aziende ma con un focus ancora maggiore sull’efficientamento, utilizza un’architettura MoE (Mixture of Experts). Questo approccio si basa su più reti più piccole, chiamate “Esperti“, ognuna specializzata in aspetti specifici dei dati o in determinati compiti. A coordinarle è una rete neurale denominata Gate (o Router), che analizza l’input e determina quali esperti attivare. Gli output generati da questi esperti vengono poi combinati per produrre il risultato finale.

Poiché solo un sottoinsieme di esperti viene attivato per ogni input, il costo computazionale è significativamente inferiore rispetto a una rete densa di dimensioni comparabili e questo tipo di architetture possono essere scalate a dimensioni molto grandi aggiungendo più esperti, senza aumentare in modo quadratico il costo computazionale (a differenza dei modelli densi). Non è difficile intuire che la qualità del gate e la sua capacità di scegliere in modo ponderato gli esperti sia il vero ago della bilancia, tra accuratezza e caos.

L’ultima carta vincente è l’open source?

In un mondo come quello dell’intelligenza artificiale generativa, dominata dai segreti aziendali volti a massimizzare i primati, alcune aziende scelgono l’approccio open source. Nel caso di DeepSeek, questa manovra risulta ancora più pericolosa per la Silicon Valley, perché rappresenta la miglior nave con cui potesse sperare di navigare oltre oceano. Farlo con un modello “pensante” come R1, efficiente e performante, rappresenta un ulteriore biglietto d’oro.

DeepSeek R1 e le sue limitazioni

DeepSeek ha presentato al mondo intero il suo modello all’interno di una chat simile a quella di ChatGPT, sollevando preoccupazioni sulla privacy, dal momento che i server dell’azienda risiedono in Cina e il trattamento dei dati non è trasparente, tanto che anche il Garante della Privacy Italiana ha preso provvedimenti. Perplexity e altre aziende hanno colto l’occasione al volo e utilizzano il modello su server americani ed europei risolvendo il problema e (pare) aggirando la criticata censura implementata nel cloud cinese (qualcuno ha parlato di piazze?).

Inoltre, pare che il modello sia un po’ più instabile con specifici parametri, tanto che DeepSeek consiglia range molto controllati in termini di temperatura e prompt specifici per “incoraggiare” il modello a ragionare e rispondere in modo coerente.

E adesso?

I colossi del settore stanno già rispondendo alla sfida, e possiamo aspettarci grandi sviluppi anche dai modelli open source e community-driven. Un esempio? Qwen di Alibaba, che si fa notare con la sua nuova versione Max. Se non fosse già chiaro, la battaglia sui Large-Language Models è tutt’altro che finita. Anzi, probabilmente non finirà mai.


La nostra divisione Synesthesia AI realizza soluzioni digitali mettendo in campo competenze, servizi e tecnologie di ultima generazione come l’Intelligenza Artificiale generativa, start-up acceleration, machine learning, R&D as a service, industria 4.0/industria 5.0. Synesthesia AI si impegna a fornire soluzioni di alta qualità per problemi complessi. Il nostro team di esperti crea algoritmi e modelli avanzati che consentono di affrontare sfide complesse in diversi settori. Se sei interessato/a a strumenti AI nel settore museale, contattaci. Il nostro team AI potrà creare insieme a te la soluzione più adatta ed efficiente per i tuoi progetti.

Creiamo insieme
il tuo progetto

Lo realizzeremo con amore e passione. Il nostro team è a tua disposizione.

Iscriviti alla nostra
newsletter

Il modo migliore per rimanere in contatto con noi

Privacy Policy