liste des LLM multimodaux gratuits et ouverts

Voici une liste de modèles de langage multimodaux gratuits et ouverts qui sont disponibles en 2023 :

**CLIP (Contrastive Language–Image Pre-training)** - Développé par OpenAI, CLIP est conçu pour comprendre des images en les associant à des descriptions textuelles. Les poids de ce modèle sont souvent disponibles pour une utilisation.

**DALL-E Mini / Craiyon** - Version open source de DALL-E, permettant de générer des images à partir de descriptions textuelles.

**Stable Diffusion** - Bien que principalement un modèle de génération d'images, il peut être utilisé avec des entrées textuelles pour produire des visuels créatifs, et il est souvent intégré dans des applications multimodales.

**BLIP (Bootstrapping Language-Image Pre-training)** - Un modèle multimodal qui combine les capacités de traitement du langage naturel et de vision par ordinateur, disponible en open source.

**Florence** - Un modèle de Microsoft qui fusionne vision et langage, offrant des capacités de compréhension et d'interaction.

**MMF (Multimodal Framework)** - Une bibliothèque de Facebook AI qui prend en charge plusieurs tâches multimodales et permet l'utilisation de différents modèles en open source.

**ViLT (Vision-and-Language Transformer)** - Conçu pour effectuer des tâches de compréhension de vision et de langage, ViLT est optimisé et proposé en open source.

Ces modèles peuvent être utilisés pour divers cas d'utilisation, y compris la génération d'images à partir de texte, la classification d'images, et d'autres applications multimodales combinant texte et images. Assurez-vous de vérifier les licences spécifiques de chaque modèle pour comprendre les conditions d'utilisation.