L’architettura ideale per i progetti di IA generativa? Massimo Chiriatti di Lenovo ci spiega come sceglierla

di Piero Macrì ♦︎ «L’infrastruttura non è una commodity, va progettata in funzione dei workload generativi». Lo afferma Massimo Chiriatti, uno dei massimi esperti di IA. Per il manager Lenovo, è necessario saper scegliere il corretto mix di cpu, gpu e npu sulla base delle esigenze aziendali. Il ruolo degli Slm, i modelli di piccole dimensioni. L'importanza delle competenze degli operatori. Cybersecurity e vision per il successo dei progetti. La partnership con Seeweb

Massimo Chiriatti, Chief Technical & Innovation Officer di Lenovo

Quale infrastruttura per il calcolo generativo? Per Lenovo la parola chiave è flessibilità. Ai for All, per tutto e per tutti, dall’edge e cloud con sistemi on e off premise e architetture componibili con processori Intel, Amd, Nvidia e Qualcomm. Il gigante dell’Ict, un fatturato di oltre 70 miliardi di dollari, è oggi nella condizione di progettare soluzioni a standard industriale per hyperscaler, cloud provider, imprese, pubblica amministrazione e università. IA generativa, un mercato in pieno fermento dove accanto ai large language models dei big dell’informatica mondiale si affiancano i modelli open source. Uno scenario che permetterà alle aziende di avviare progetti investendo con la massima libertà di scelta. «L’infrastruttura non è una commodity, va progettata in funzione dei workload generativi, che variano in funzione dei modelli, dei volumi dati e delle tipologie applicative», afferma Massimo Chiriatti, chief technical & innovation officer di Lenovo, oltre 30 anni di esperienza nei sistemi data center e uno dei massimi esperti italiani di intelligenza artificiale nonché autore del libro “Incoscienza artificiale, come fanno le macchine a prevedere per noi”. Ecco la strategia e visione di Lenovo per la creazione di infrastrutture a supporto di applicazioni di intelligenza artificiale generativa, la logica di sviluppo ibrida edge- cloud e i suggerimenti alle imprese per valorizzare al meglio la conoscenza algoritmica della GenAi ed evitare errori che possono condurre al fallimento dei progetti.

D: Chiriatti, qual è l’approccio di Lenovo alla progettazione di un’infrastruttura a supporto dell’IA generativa?

R: Tutto va progettato in funzione del workload generativo. Le soluzioni vanno configurate con il mix più corretto di cpu, gpu e npu, le unità di calcolo che vengono rese disponibili da Intel, Amd, Nvidia e Qualcomm. Ciascuno di questi processori è responsabile di una parte dell’elaborazione complessiva e il tutto va progettato individuando l’infrastruttura target per ottenere la massima produttività computazionale. In un sistema generativo le processing unit svolgono infatti lavori differenti ed è dalla capacità di assegnare i task corretti a ciascuna di queste unità che si riesce a progettare una soluzione efficiente sia dal punto di vista delle performance che dell’efficienza energetica, aspetto quest’ultimo che viene anche perseguito identificando lo storage e le tecnologie di raffreddamento più efficienti.







D: La logica di progettazione dell’infrastruttura deve essere quindi coerente con obiettivi di flessibilità…

Massimo Chiriatti, Chief Technical & Innovation Officer di Lenovo

R: Sì, le soluzioni devono essere allineate ai profili di utilizzo e ai singoli use case. Ecco perché è importante la massima apertura verso quelle che sono le innovazioni tecnologiche, che sono rapidissime. È una caratteristica indispensabile. Potendo scegliere tra più architetture – Intel, Amd, Nvidia e Qualcomm – è oggi possibile disegnare soluzioni on premise e on edge per modelli generativi parametrati su specifici workload. Come dire, possiamo progettare l’infrastruttura in funzione non solo di large models ma di small models. E più piccoli sono più è possibile creare un’intelligenza distribuita su più nodi di calcolo. Le soluzioni possono appartenere ai più diversi ambiti applicativi ma il processo è sempre lo stesso: seleziono il modello in funzione del volume e della tipologia di dati su cui deve essere addestrato e valuto l’opzione di deployment più efficace, in cloud oppure on edge, all’interno del perimetro aziendale. Insomma, l’infrastruttura Lenovo equivale a una progettazione adattiva, coerente con l’uso che la singola azienda ne deve fare.

D: Quali elementi di novità introduce l’IA generativa nel rapporto uomo-macchina

La piattaforma di supercalcolo per l’intelligenza artificiale generativa di Fastweb sarà basata sull’infrastruttura hardware e software Dgx Superpod H100 di Nvidia, considerata a oggi la tecnologia più avanzata per il calcolo generativo.

R: Siamo abituati da tempo a dare un compito alla macchina ed avere una risposta deterministica, sicura e precisa. Come quando si impara a usare la calcolatrice, ci si aspetta un risultato perfetto, 2 + 2 fa sempre 4. Lo stesso per quanto riguarda i computer, ci si attende un risultato certo. Con l’IA generativa l’accuratezza dell’output è invece un parametro da misurare. È uno strumento che può fornire delle raccomandazioni, dei suggerimenti, che devono essere ponderati e pesati dall’essere umano, in qualunque situazione. L’IA generativa non crea di per sé un’automazione, genera un’informazione che va mediata, ragionata e interpretata. Un esempio sono gli assistenti per la programmazione: diamo all’algoritmo le istruzioni per produrre un codice che serve a risolvere un certo problema, ma spetta a noi decidere se è affidabile e utilizzarlo. È quindi soltanto una parte dell’elaborazione che cediamo e deleghiamo all’intelligenza generativa.

D: Vale quindi il principio che il valore dell’IA generativa è tanto più alto quanto più alte sono le competenze e conoscenze dell’utilizzatore in uno specifico dominio applicativo?

R: Sì, perché ho la capacità di comprendere quello che l’IA mi sta dicendo e sono in grado di valutare con più precisione l’accuratezza e attendibilità del risultato. La decisione che viene presa in base all’output algoritmico può aver conseguenze importanti. Una cosa è valutare la tecnologia da un punto di vista ingegneristico, altra cosa è valutarla da un punto di vista etico, economico e regolamentatorio. L’IA deve essere intesa come strumento di supporto alle decisioni. Non sostituisce l’intelligenza umana, la complementa. L’output di un algoritmo è una raccomandazione, un suggerimento basato su una correlazione analitica dei dati. Esprime una probabilità, tanto più accurata quanto più allenato e intelligente è l’algoritmo. Consente ai sistemi edge e industrial iot, di supervisionare con sempre maggiore precisione quanto avviene in un ambiente di produzione: è la sfera di cristallo per comprendere, prevedere e prendere decisioni fondate sull’evidenza dei dati. Nessun atteggiamento fideistico. La sua qualità e il suo valore dipendono dalla componente umana, dalla capacità e competenza dei soggetti che la sviluppano, la implementano e la utilizzano.

D: È però un principio che va contestualizzato perché le operazioni che l’intelligenza generativa può aiutare a risolvere sono di grado di complessità diversa. Per esempio, per quanto riguarda il supporto che può fornire alla manutenzione di una macchina, la confidenza e il trust verso l’IA può essere prossimo al 100%…

Vhit ha scelto di utilizare tecnologie Lenovo e soluzioni OEM alimentate dalle GPU NVIDIA T4 per analizzare i flussi video delle apparecchiature di produzione, intervenire rapidamente su potenziali problemi e fornire prodotti di alta qualità ai clienti del settore automobilistico in modo tempestivo.

R: Certo, le soluzioni che aiutano l’operatore a fare manutenzione macchina, basate su modelli che sono stati addestrati sulla documentazione e sui dati storici degli interventi pregressi mi danno un’informazione altamente probabilistica, di cui mi posso fidare. È quanto è stato realizzato per Vhit. Avevano i dati delle precedenti esperienze di manutenzione, di qual era stata l’intervento risolutivo a fronte di un problema. Quando si ha la possibilità di digitalizzare quelle informazioni, memorizzarle in un database e darle in pasto a un llm, l’output generato può avere un livello di confidenza molto alto. A fronte di un errore segnalato dalla macchina mi potrà dire quale procedura applicare. Sono tipiche applicazioni che possono essere sviluppate basandosi su un’infrastruttura edge.

D: Accanto a modelli come ChatGpt e Gemini sono disponibili modelli open source che offrono alternative più economiche e allineate alle esigenze in ambito industriale. Che conseguenze derivano da questa opportunità in termini di progettazione dell’infrastruttura?

R: Vero. I modelli open source si stanno avvicinando per caratteristiche e prestazioni ai modelli privati e questo offre un ampio ventaglio di opzioni infrastrutturali. E ciò significa che dobbiamo essere capaci di progettare infrastrutture scalabili. Dal più piccolo edge server che posso mettere all’interno di una linea di produzione fino ad arrivare a server più grandi e al cloud. Come già accennato, tutto questo lo si decide in funzione del workload che quell’infrastruttura deve supportare. La tendenza è adattare la logica generativa a volumi di dati variabili e il nostro ruolo è aiutare il cliente da un punto di vista consulenziale nella scelta del modello e dell’infrastruttura di supporto. E qui entra in gioco il nostro ecosistema di partner sostenuto dal programma Lenovo Ai Innovators, che contribuisce alla valorizzazione dell’intelligenza artificiale in ogni segmento di mercato, a partire dal manufacturing.

D: L’inferenza on edge e il training in cloud?

Lenovo sostienie il suo ecosistema di partner tramite programma Lenovo Ai Innovators, che contribuisce alla valorizzazione dell’intelligenza artificiale in ogni segmento di mercato, a partire dal manufacturing.

R: Generalmente sì, ma soltanto se i modelli su cui fare training continuano a essere così grandi. Nel caso di modelli open source l’infrastruttura può anche essere on premise, e questo, come detto in precedenza, grazie alla progressiva disponibilità di unità di calcolo di calcolo sempre più potenti. I requisiti per fare training e inferenza si stanno riducendo, le prestazioni dell’hardware vanno migliorando e questo permette di avere maggiore flessibilità nella progettazione infrastrutturale.

D: Quali sono i punti di attenzione per evitare il fallimento dei progetti di intelligenza artificiale?

R: L’idea di utilizzare l’IA generativa può nascere da problemi di produttività, ma prima di avviare un qualunque progetto le aziende devono individuarne le cause. E sono i dati che possono dare delle risposte per arrivare a definire la strategia generativa: se non ci sono o non sono sufficienti si perde tempo e soldi.  In generale il fallimento dei progetti può quindi nascere da una mancanza di visione dell’IA e dall’assenza di una strategia, che deve essere condivisa non solo dai vertici aziendali, ma trasversalmente a tutta l’organizzazione. E poi mancanza di competenze interne: se per realizzare un progetto si è costretti ad affidarsi completamente all’esterno questo può rappresentare un potenziale problema. Non ultimo, il tema dell’infrastruttura: se inadeguata e non abbastanza performante è come creare un gigante dai piedi d’argilla. E non va sottovalutata la componente di cybersecurity poiché i modelli sono suscettibili ad attacchi informatici, un fenomeno ancora largamente sottovalutato. In sintesi, un progetto può fallire per errori di progettazione, per tecnologie e metodologie di integrazione dei processi adottate, per errori di tipo strategico e di tipo esecutivo.

La partnership con Seeweb

Il server ThinkSystem SR670 V2 GPU è progettato per offrire prestazioni scalabili e ottimali per AI, HPC e carichi di lavoro grafici sfruttando la migliore accelerazione GPU della categoria.

Lenovo e il cloud provider italiano Seeweb collaborano già da tempo per fornire ai propri clienti soluzioni e tecnologie all’avanguardia, scalabili e performanti per consentire di accelerare la crescita del business grazie all’utilizzo del digitale. 

L’offerta di Seeweb, in particolare, fa leva su due pilastri: soluzioni di AI-as-a-service, per accelerare l’adozione di funzionalità IA, dalle fasi di training all’inferenza, in modalità pay-per-use, e soluzioni di GPU-as-a-service, per dare accesso a risorse di calcolo ad alte prestazioni per l’IA, l’apprendimento automatico, il deep learning e altre applicazioni ad alta intensità di dati. 

Per garantire alti livelli di prestazioni e una potenza di calcolo adeguata a supportare anche i carichi di lavoro più ingenti, l’infrastruttura di Seeweb fa affidamento alle soluzioni Lenovo. In particolare, grazie alla potenza dei server ThinkSystem SR670 V2, Lenovo riesce a offrire prestazioni scalabili e ottimali per svolgere funzionalità di IA, Hpc e workload grafici sfruttando la migliore accelerazione Gpu della categoria, unendo performance di primo livello con un sistema di raffreddamento ad aria che consente di raggiungere risultati ottimali anche in termini di efficienza di consumo.

La scelta di Seeweb di un partner tecnologico come Lenovo consente al cloud provider italiano di fornire ai propri clienti e partner in Italia e in Europa soluzioni tecnologiche potenti, scalabili e sicure per operare i carichi di lavoro più impegnativi, assicurare competitività, velocità e resilienza in un mercato tecnologico sempre più dinamico ed esigente. In un momento in cui la domanda crescente di sistemi per AI richiede di accorciare i tempi di approvvigionamento, Lenovo produce questi sistemi presso il suo stabilimento a Budapest, nel cuore dell’Europa, per soddisfare tempestivamente la domanda dal mercato italiano ed Emea.

L’infrastruttura tecnologica di Lenovo, infatti, consente a Seeweb di adottare soluzioni cost-effective ed efficienti dal punto di vista energetico, rispondendo all’attenzione dell’azienda nei confronti della sostenibilità ambientale. 














Articolo precedenteStellantis vende Comau al fondo One Equity Partners
Articolo successivoManuelli, Unimarconi: Strategia Italiana per l’IA 2024-2026, un passo avanti decisivo






LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui