Segment Anything Model (SAM)

Modèle révolutionnaire de segmentation d'images créé par Meta AI, capable de délimiter avec précision les objets via diverses instructions. Formé sur des milliards d'annotations, il s'adapte instantanément à de nouveaux contextes visuels sans nécessiter d'apprentissage supplémentaire.

Dernière mise à jour:
Visiter le site

Présentation

Présentation du Segment Anything Model (SAM)

Le Segment Anything Model (SAM) constitue une avancée majeure en segmentation d'images, conçue par les équipes de recherche fondamentale en IA de Meta. Cette technologie a été perfectionnée grâce à l'ensemble de données de segmentation le plus complet jamais assemblé, comprenant plus de 11 millions de visuels et 1,1 milliard de délimitations. Le système produit des contours d'objets extrêmement précis à partir de consignes variées : indications ponctuelles, cadres de sélection, zones approximatives ou descriptions textuelles. Son architecture innovante intègre un module de traitement d'image, un interpréteur de consignes et un générateur de masques optimisé, permettant une création en temps réel et des capacités d'adaptation immédiate à des tâches de segmentation inédites.

Caractéristiques principales

Segmentation guidée par instructions

Crée des délimitations précises à partir de consignes flexibles incluant points, rectangles de sélection, zones approximatives ou descriptions textuelles.

Architecture de modèle fondamental

Associe un processeur d'images par transformeurs, un analyseur de consignes et un générateur de masques léger conçu pour une segmentation interactive instantanée.

Base d'apprentissage exceptionnelle

Perfectionné sur la collection SA-1B contenant plus d'un milliard de masques répartis sur 11 millions d'images, assurant une adaptabilité étendue et un transfert de connaissances immédiat.

Adaptation immédiate

Réalise une segmentation précise dans des domaines visuels nouveaux et pour des tâches inédites sans nécessiter de calibration ou d'apprentissage complémentaire.

Accessibilité et extensibilité

Distribué sous licence Apache 2.0 avec code source, modèles pré-entraînés et jeux de données accessibles pour la recherche et les applications commerciales.

Performance temps réel

Un processus de génération optimisé produit des masques en approximativement 50 millisecondes, supportant des applications interactives.

Domaines d'application

Annotation d'images assistée : Optimise les processus d'étiquetage en produisant automatiquement des délimitations pour accompagner les annotateurs humains.

Imagerie médicale : Permet une segmentation fine des structures anatomiques et anomalies pour appuyer le diagnostic et la stratégie thérapeutique.

Observation terrestre et satellitaire : Favorise la cartographie du territoire, l'intervention d'urgence et le suivi environnemental via une analyse précise des images satellitaires.

Réalité augmentée et effets spéciaux : Active la séparation d'objets en direct pour les applications de RA et les créations visuelles post-production.

Robotique et conduite autonome : Offre une compréhension détaillée de l'environnement en segmentant les éléments pour la navigation et l'interaction.