Segment Anything Model (SAM)
Intelligente Bildsegmentierung, erkennt Objekte automatisch ohne Training
Einführung
Was ist das Segment Anything Model (SAM)?
Das Segment Anything Model (SAM) ist ein fortschrittliches Bildsegmentierungssystem, entwickelt vom Fundamental AI Research (FAIR) Team bei Meta AI. Es wurde mit dem umfangreichen SA-1B-Datensatz trainiert, der mehr als 11 Millionen Bilder und 1,1 Milliarden Masken umfasst, und erstellt akkurate Segmentierungsmasken auf Basis vielfältiger Eingaben wie Punkte, Begrenzungsrahmen oder Textbeschreibungen. Die Architektur integriert einen Bildkodierer, einen Eingabeaufforderungs-Kodierer und einen schlanken Maskendekodierer, was eine Maskengenerierung in Echtzeit und eine robuste Zero-Shot-Leistung über verschiedene Segmentierungsaufgaben hinweg ohne Nachtraining gewährleistet. SAM macht Bildsegmentierung zugänglicher, optimiert Annotationsprozesse und fördert Anwendungen von der medizinischen Bildanalyse bis zur Überwachung der Umwelt.
Hauptfunktionen
Eingabeaufforderungsgesteuerte Segmentierung
Generiert präzise Objektmasken durch flexible Eingaben wie einzelne Punkte, Begrenzungsboxen, grobe Masken oder textbasierte Hinweise.
Fundamentalmodell-Architektur
Verbindet einen transformerbasierten Bildkodierer, einen Eingabeaufforderungs-Kodierer und einen effizienten Maskendekodierer, der für interaktive Segmentierung in Echtzeit ausgelegt ist.
Umfassender Trainingsdatensatz
Trainiert auf dem SA-1B-Datensatz mit über einer Milliarde Masken aus 11 Millionen Bildern, was eine breite Generalisierungsfähigkeit und Zero-Shot-Übertragung unterstützt.
Zero-Shot-Generalisierung
Bietet herausragende Segmentierungsergebnisse für Objekte in neuen Bilddomänen und Aufgaben, ohne aufgabenspezifisches Feintuning oder zusätzliches Training.
Open Source und erweiterbar
Verfügbar unter der Apache-2.0-Lizenz mit vollständigem Code, Modellen und Datensätzen für Forschungs- und kommerzielle Zwecke.
Echtzeitleistung
Ermöglicht die Generierung von Masken in etwa 50 Millisekunden durch optimierte Dekodierung, ideal für interaktive Anwendungen.
Anwendungsfälle
KI-gestützte Bildannotation: Beschleunigt Labeling-Arbeitsabläufe durch automatische Erstellung von Segmentierungsmasken, die menschliche Annotatoren unterstützen.
Medizinische Bildgebung: Ermöglicht genaue Abgrenzung anatomischer Strukturen oder Anomalien zur Hilfe bei Diagnose und Behandlungsplanung.
Umwelt- und Satellitenbildanalyse: Vereinfacht die Kartierung von Landbedeckung, Katastrophenhilfe und Klimaüberwachung durch präzise Segmentierung von Satellitenaufnahmen.
Augmented Reality und visuelle Effekte: Unterstützt die Echtzeit-Objektsegmentierung für AR-Erlebnisse und die Nachbearbeitung in der Filmproduktion.
Robotik und autonome Fahrzeuge: Liefert detailliertes Umgebungsverständnis durch Objektsegmentierung für Navigations- und Interaktionsaufgaben.