Funktionsübersicht
Visuelle Sprachmodelle (Vision-Language Models, VLM) sind multimodale große Modelle, die sowohl Bild- als auch Texteingaben unterstützen und Bildinhalte verstehen sowie modalitätsübergreifende Informationen verarbeiten können. Auf Grundlage kombinierter Bild- und Textinformationen können die Modelle hochwertige Antworten ausgeben und werden häufig in Szenarien wie Bilderkennung, Inhaltsverständnis und intelligenten Frage-Antwort-Systemen eingesetzt.Typische Anwendungsszenarien
- Erkennung und Beschreibung von Bildinhalten: Automatische Erkennung von Objekten, Farben, Szenen und räumlichen Beziehungen in Bildern sowie Generierung natürlichsprachlicher Beschreibungen.
- Ganzheitliches Verständnis von Bild und Text: Kombination von Bild- und Texteingaben für kontextbezogene Mehr-Runden-Dialoge und komplexe Aufgaben.
- Visuell unterstützte Fragebeantwortung: Kann als Ergänzung zu OCR-Tools dienen, um in Bildern eingebettete Textinformationen zu erkennen und Fragen dazu zu beantworten.
- Zukünftige Erweiterungen: Geeignet für interaktive Szenarien wie intelligente visuelle Assistenten, Roboterwahrnehmung und Augmented Reality.
Hinweise zum API-Aufruf
Der Aufruf visueller Sprachmodelle erfolgt über die Schnittstelle/chat/completions und unterstützt gemischte Eingaben aus Bild und Text.
Parameter für die Bildverarbeitung
Über das Felddetail wird die Genauigkeit der Bildverarbeitung festgelegt. Folgende Optionen werden unterstützt:
high: Hohe Auflösung, erhält mehr Details, geeignet für feingranulare Aufgaben.low: Niedrige Auflösung, schnelle Verarbeitung, geeignet für Echtzeitantworten.auto: Das System wählt automatisch den passenden Modus.
Beispiel für das Nachrichtenformat
Bild als URL
Bild als Base64
Beispielcode für Base64-Bildkodierung (Python)
Mehrbildmodus
Es wird unterstützt, mehrere Bilder zusammen mit Text als Eingabe zu senden. Für eine bessere Leistung und ein besseres Verständnis werden maximal zwei Bilder empfohlen.Unterstützte Modelle
Im Folgenden sind die derzeit von der Plattform unterstützten visuellen Sprachmodelle (VLM) aufgeführt:Abrechnung
Bildeingaben visueller Sprachmodelle werden in Tokens umgewandelt und gemeinsam mit Text zur Berechnung der Aufrufkosten herangezogen:- Die Regeln zur Schätzung der Bild-Tokens unterscheiden sich je nach Modell geringfügig;
- Die detaillierten Abrechnungsstandards können auf der jeweiligen Modellvorstellungsseite eingesehen werden.
Beispielcode für API-Aufrufe
Beschreibung eines einzelnen Bildes
Vergleichsanalyse mehrerer Bilder
Häufige Fragen und Hinweise
- Bildauflösung und Schärfe beeinflussen die Erkennungsgenauigkeit des Modells. Es wird empfohlen, klare Bildquellen zu verwenden.
- Base64-kodierte Inhalte sind relativ groß; es wird empfohlen, dass Bilder 1 MB nicht überschreiten.
- Bei Problemen lesen Sie bitte die Entwicklerdokumentation der Plattform oder reichen Sie ein Support-Ticket ein.