
Implementazione di Modelli Multimodali con LLaVA
Scopri come costruire una versione leggera di LLaVA, un modello AI multimodale che combina testo e immagini. Utilizzando CLIP e TinyLlama, il progetto è pensato per ambienti a risorse limitate come Google Colab. Ideale per chi vuole capire il funzionamento dei modelli visione-linguaggio.