liste des LLM multimodaux gratuits et ouverts
Voici une liste de modèles de langage multimodaux gratuits et ouverts qui sont disponibles en 2023 :
1. **CLIP (Contrastive Language–Image Pre-training)** - Développé par OpenAI, CLIP est conçu pour comprendre des images en les associant à des descriptions textuelles. Les poids de ce modèle sont souvent disponibles pour une utilisation.
2. **DALL-E Mini / Craiyon** - Version open source de DALL-E, permettant de générer des images à partir de descriptions textuelles.
3. **Stable Diffusion** - Bien que principalement un modèle de génération d'images, il peut être utilisé avec des entrées textuelles pour produire des visuels créatifs, et il est souvent intégré dans des applications multimodales.
4. **BLIP (Bootstrapping Language-Image Pre-training)** - Un modèle multimodal qui combine les capacités de traitement du langage naturel et de vision par ordinateur, disponible en open source.
5. **Florence** - Un modèle de Microsoft qui fusionne vision et langage, offrant des capacités de compréhension et d'interaction.
6. **MMF (Multimodal Framework)** - Une bibliothèque de Facebook AI qui prend en charge plusieurs tâches multimodales et permet l'utilisation de différents modèles en open source.
7. **ViLT (Vision-and-Language Transformer)** - Conçu pour effectuer des tâches de compréhension de vision et de langage, ViLT est optimisé et proposé en open source.
Ces modèles peuvent être utilisés pour divers cas d'utilisation, y compris la génération d'images à partir de texte, la classification d'images, et d'autres applications multimodales combinant texte et images. Assurez-vous de vérifier les licences spécifiques de chaque modèle pour comprendre les conditions d'utilisation.