MIXTURE OF EXPERTS
Il cervello dei nuovi LLM - Reti neurali sparse e attivazione selettiva
CURIOSITÀ
9/1/20251 min read
Le moderne reti neurali, prendiamo come esempio DeepSeek V3.1, possono contare su un numero enorme di parametri: 671 miliardi. Tuttavia, non tutti questi vengono utilizzati contemporaneamente: in media, ne vengono attivati “solo” 37 miliardi.
Perché questa scelta?
La risposta è semplice: ottimizzazione. Attivare ogni nodo in ogni elaborazione sarebbe estremamente costoso in termini di calcolo ed energia. Invece, l’architettura di queste reti prevede che i parametri siano suddivisi in settori specializzati, ognuno con competenze specifiche.
Così, quando inseriamo un prompt, il modello non mobilita l’intero “cervello artificiale”, ma solo le aree pertinenti alla domanda. Questo approccio permette di:
Ridurre i costi di calcolo,
Velocizzare la generazione degli output,
Sfruttare al meglio le diverse competenze interne della rete.
Questa idea di attivazione selettiva non è nuova: le prime architetture sparse risalgono già agli anni ’90. Oggi però, con i Large Language Models (LLM), è diventata una delle soluzioni più efficaci per coniugare potenza e sostenibilità.
BLOCK BUY
LA TUA INNOVAZIONE TECNOLOGICA
CONTATTI
BLOCK BUY SRL
Roma 00144, Via Leonardo Umile 94
p.iva 15811091006 - REA 1615805
info@block-buy.com
© 2025. All rights reserved.