IA: Intel Labs svela una serie di approcci innovativi alla computer vision

Collaborando con le Università, Intel Labs ha organizzato congiuntamente un tutorial su come creare modelli generativi in modo responsabile

I ricercatori di Intel Labs e i loro collaboratori in campo accademico e industriale presenteranno sei documenti di ricerca alla European Conference on Computer Vision (ECCV 2024), al MICO Convention Centre di Milano dal 29 settembre al 4 ottobre. Incentrata sulla computer vision e il machine learning, la conferenza è gestita dalla European Computer Vision Association (ECVA). I documenti presentati da Intel Labs includono un nuovo approccio di difesa progettato per proteggere i modelli text-to-image (T2I) dagli attacchi red teaming basati su prompt, un nuovo set di dati su grande scala focalizzato spazialmente che migliora la coerenza spaziale nei modelli T2I e un approccio per derivare campi di radianza ground-truth da mesh strutturate per attività di generazione 3D.

Inoltre, Intel Labs, in collaborazione con l’Università del Maryland (UMD), l’Università statale dell’Arizona (ASU) e l’Università del Maryland Baltimore County (UMBC), ha organizzato congiuntamente un tutorial su come creare modelli generativi in modo responsabile. Sebbene questi modelli si siano evoluti in strumenti pronti per la produzione, devono affrontare diversi problemi di affidabilità che possono influire sulla loro adozione diffusa. Ilke Demir, ricercatrice senior presso Intel Labs, ha mostrato come FakeCatcher di Intel utilizza algoritmi di segnali del flusso sanguigno per il rilevamento deep fake, consentendo agli utenti di distinguere tra contenuti reali e falsi. Altri relatori invitati parleranno di come mitigare le violazioni del copyright quando il modello memorizza i dati di addestramento e tecniche per incorporare l’impronta digitale nei pesi del modello per tracciare le origini dei contenuti dannosi.







R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model 

Intel Labs in collaborazione con Arizona State University 

Nel panorama in evoluzione dei modelli di diffusione testo-immagine (T2I), la straordinaria capacità di generare immagini di alta qualità da descrizioni testuali affronta sfide con il potenziale uso improprio della riproduzione di contenuti sensibili. Per affrontare questo problema critico, introduciamo Robust Adversarial Concept Erase (RACE), un nuovo approccio progettato per mitigare questi rischi migliorando la robustezza del metodo di cancellazione del concetto per i modelli T2I. RACE utilizza un sofisticato framework di adversarial training per identificare e mitigare l’immissione di testo ostile, riducendo significativamente il tasso di attack success rate (ASR). In modo impressionante, RACE ottiene una riduzione del 30% nell’ASR per il prototipo “nudo” rispetto al principale metodo di attacco white-box. Le nostre ampie valutazioni dimostrano l’efficacia di RACE nella difesa contro attacchi white-box e black-box, segnando un significativo progresso nella protezione dei modelli di diffusione T2I dalla generazione di immagini inappropriate o fuorvianti. Questo lavoro sottolinea l’esigenza essenziale di misure di difesa proattive nell’adattamento al campo in rapida evoluzione delle sfide avversarie. Il codice è disponibile al pubblico.

CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs 

Intel Labs in collaborazione con Georgia Institute of Technology 

Presentiamo CLAMP-ViT, un metodo di quantizzazione post-training senza dati per trasformatori visivi (ViT). Identifichiamo i limiti delle tecniche recenti, in particolare la loro incapacità di sfruttare relazioni inter-patch significative, che portano alla generazione di dati semplicistici e semanticamente vaghi, con un impatto sulla precisione della quantizzazione. CLAMP-ViT impiega un approccio in due fasi, adattandosi ciclicamente tra generazione di dati e quantizzazione del modello. Nello specifico, incorporiamo uno schema di apprendimento contrastivo a livello di patch per generare dati più ricchi e semanticamente significativi. Inoltre, sfruttiamo l’apprendimento contrastivo nella ricerca evolutiva a livello di strato per quantizzazione a precisione fissa e mista per identificare parametri di quantizzazione ottimali, mitigando al contempo gli effetti di un panorama di perdita non uniforme. Valutazioni approfondite su varie attività visive dimostrano la superiorità di CLAMP-ViT, con miglioramenti delle prestazioni fino al 3% nella precisione top-1 per la classificazione, 0,6 mAP per il rilevamento di oggetti e 1,5 mIoU per la segmentazione a un rapporto di compressione simile o migliore rispetto alle alternative esistenti. Il codice, la pagina del progetto e il video sono disponibili al pubblico.

Generating Physically Realistic and Directable Human Motions from Multi-Modal Inputs 

Intel Labs in collaborazione con Oregon State University 

Questo lavoro si concentra sulla generazione di comportamenti umani realistici e basati sulla fisica da input multimodali, che possono specificare solo parzialmente il movimento desiderato. Ad esempio, l’input può provenire da un controller VR che fornisce movimento del braccio e velocità del corpo, animazione parziale dei punti chiave, visione artificiale applicata ai video o persino obiettivi di movimento di livello superiore. Ciò richiede un controller umanoide versatile di basso livello in grado di gestire una guida così scarsa e sottospecificata, passare senza problemi da un’abilità all’altra e recuperare dai guasti. Gli attuali approcci per l’apprendimento dei controller umanoidi dai dati dimostrativi catturano alcune di queste caratteristiche, ma nessuno le raggiunge tutte. A tal fine, introduciamo il Masked Humanoid Controller (MHC), un nuovo approccio che applica l’apprendimento imitativo multiobiettivo su dimostrazioni di movimento aumentate e selettivamente mascherate. La metodologia di formazione si traduce in un MHC che esibisce le capacità chiave di recupero dei comandi di input non sincronizzati, combinando elementi da più sequenze di movimento e completando parti non specificate di movimenti da input multimodali scarsi. Dimostriamo queste capacità chiave per un MHC apprese su un set di dati di 87 competenze diverse e presentiamo diversi casi d’uso multimodali, inclusa l’integrazione con framework di pianificazione per evidenziare la capacità di MHC di risolvere nuove attività definite dall’utente senza alcuna messa a punto.

GenQ: Quantization in Low Data Regimes with Generative Synthetic Data 

Intel Labs in collaborazione con Yale University 

Nel campo dell’implementazione di reti neurali profonde, la quantizzazione low-bit rappresenta una promettente strada per migliorare l’efficienza computazionale. Tuttavia, spesso dipende dalla disponibilità di dati di training per mitigare gli errori di quantizzazione, una sfida significativa quando la disponibilità dei dati è scarsa o limitata a causa di problemi di privacy o copyright. Per affrontare questo problema, introduciamo GenQ, un nuovo approccio che impiega un modello di intelligenza artificiale generativa avanzata per generare dati sintetici fotorealistici ad alta risoluzione, superando i limiti dei metodi tradizionali che hanno difficoltà a imitare accuratamente oggetti complessi in set di dati estesi come ImageNet. La nostra metodologia è supportata da due robusti meccanismi di filtraggio progettati per garantire che i dati sintetici siano strettamente allineati con le caratteristiche intrinseche dei dati di training effettivi. In caso di disponibilità di dati limitata, i dati effettivi vengono utilizzati per guidare il processo di generazione dei dati sintetici, migliorando la fedeltà attraverso l’inversione di incorporamenti di token apprendibili. Attraverso una rigorosa sperimentazione, GenQ stabilisce nuovi parametri di riferimento nella quantizzazione senza dati e con dati scarsi, superando significativamente i metodi esistenti in termini di accuratezza ed efficienza, stabilendo così un nuovo standard per la quantizzazione in regimi di dati limitati.

Getting it Right: Improving Spatial Consistency in Text-to-Image Models 

Intel Labs in collaborazione con Arizona State University, Hugging Face, University of Washington, e University of Maryland, Baltimore County 

Una delle principali carenze degli attuali modelli text-to-image (T2I) è la loro incapacità di generare in modo coerente immagini che seguano fedelmente le relazioni spaziali specificate nel prompt di testo. In questo articolo, offriamo un’indagine completa di questa limitazione, sviluppando anche set di dati e metodi che raggiungono prestazioni all’avanguardia. In primo luogo, scopriamo che gli attuali set di dati linguaggio-visione non rappresentano abbastanza bene le relazioni spaziali; per alleviare questo collo di bottiglia, creiamo SPRIGHT, il primo set di dati su larga scala focalizzato sullo spazio, rielaborando 6 milioni di immagini da quattro set di dati sulla visione ampiamente utilizzati. Attraverso una pipeline di valutazione e analisi tripla, scopriamo che SPRIGHT migliora ampiamente i set di dati esistenti nell’acquisizione delle relazioni spaziali. Per dimostrare la sua efficacia, sfruttiamo solo lo 0,25% di SPRIGHT e otteniamo un miglioramento del 22% nella generazione di immagini spazialmente accurate migliorando al contempo i punteggi FID e CMMD. In secondo luogo, scopriamo che l’addestramento su immagini contenenti un gran numero di oggetti determina miglioramenti sostanziali nella coerenza spaziale. In particolare, raggiungiamo lo stato dell’arte su T2I-CompBench con un punteggio spaziale di 0,2133, tramite la messa a punto su <500 immagini. Infine, attraverso una serie di esperimenti controllati e ablazioni, documentiamo molteplici risultati che riteniamo miglioreranno la comprensione dei fattori che influenzano la coerenza spaziale nei modelli testo-immagine. Demo, codice, dati e modelli sono disponibili al pubblico.

Mesh2NeRF: Direct Mesh Supervision for Neural Radiance Field Representation and Generation 

Intel Labs in collaborazione con TU Munich 

Presentiamo Mesh2NeRF, un approccio per derivare campi di radianza ground-truth da mesh testurizzate per attività di generazione 3D. Molti approcci generativi 3D rappresentano scene 3D come campi di radianza per l’addestramento. I loro campi di radianza ground-truth sono solitamente adattati da rendering multi-vista da un set di dati 3D sintetico su larga scala, che spesso si traduce in artefatti dovuti a occlusioni o problemi di sottoadattamento. In Mesh2NeRF, proponiamo una soluzione analitica per ottenere direttamente campi di radianza ground-truth da mesh 3D, caratterizzando il campo di densità con una funzione di occupazione con uno spessore di superficie definito e determinando il colore dipendente dalla vista tramite una funzione di riflessione considerando sia la mesh sia l’illuminazione ambientale. Mesh2NeRF estrae campi di radianza accurati che forniscono una supervisione diretta per l’addestramento di NeRF generativi e la rappresentazione di singole scene. Convalidiamo l’efficacia di Mesh2NeRF in diverse attività, ottenendo un notevole miglioramento di 3,12 dB nel PSNR per la sintesi della vista nella rappresentazione di una singola scena sul set di dati ABO, un miglioramento di 0,69 PSNR nella generazione condizionale a vista singola di ShapeNet Cars e un’estrazione della mesh notevolmente migliorata da NeRF nella generazione incondizionata di Objaverse Mugs.














Articolo precedenteCegid Start-up Program: il focus è sull’IA generativa






LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui