[ad_1]

Meta stellt neuen AI-Prozess zur Erleichterung der Erstellung aus einem breiteren Spektrum von Inputs vor

Im Februar kündigte Meta-CEO Mark Zuckerberg an, dass das Unternehmen an einer Reihe neuer AI-Initiativen arbeitet. Eines dieser Projekte beinhaltet die Entwicklung neuer Erfahrungen mit Texten, Bildern, Videos und „multi-modalen“ Elementen. Was „multi-modal“ in diesem Kontext bedeutet, wurde nun von Meta erläutert:

Was ist „multi-modal“?

Menschen nehmen Informationen aus der Welt um uns herum intuitiv über mehrere Sinne auf. Beispielsweise sieht man eine belebte Straße und hört das Geräusch von Auto-Motoren. Meta entwickelte deshalb einen Ansatz, der Maschinen einen Schritt näher an das gleichzeitige, ganzheitliche und direkte Lernen aus vielen verschiedenen Formen von Informationen bringt – ohne die Notwendigkeit einer expliziten Überwachung. Dieser Ansatz wird als „multi-modal“ bezeichnet. Der neu entwickelte Prozess von Meta – ImageBind – ist das erste AI-Modell, das in der Lage ist, Informationen aus sechs Modalitäten zu verbinden.

Wie ImageBind funktioniert

Der ImageBind-Prozess ermöglicht es Systemen, Assoziationen zwischen Text, Bild, Video, Ton, Raumwahrnehmung (über 3D Sensoren) und sogar thermischen Inputs zu lernen. Zusammen können diese Elemente genauere räumliche Hinweise liefern, die es dem System ermöglichen, genauere Darstellungen und Assoziationen zu produzieren. Dies bringt die AI-Erfahrungen einen Schritt näher an eine menschenähnliche Reaktion.

Nutzung von ImageBind

Die potenziellen Anwendungsfälle für ImageBind sind signifikant, und wenn das System genauere Ausrichtungen zwischen diesen variablen Eingängen herstellen kann, könnte dies die aktuelle Palette von auf Text und Bild basierenden AI-Tools in eine völlig neue Interaktivitätsstufe befördern. Ein wichtiger Faktor in Meta’s Fortschritt in Richtung Metaverse ist die Schaffung akkuraterer VR-Welten. Die technischen Beschränkungen in diesem Bereich bedeuten momentan, dass die meisten Horizon-Erfahrungen immer noch sehr einfach sind, wie das Betreten eines Videospiels aus den 80er Jahren. Wenn Meta jedoch mehr Werkzeuge bereitstellen kann, mit denen jeder seine eigene Welt in VR erschaffen kann, wird das die Attraktivität und Bindung der Nutzer an die VR-Erfahrung erhöhen.

Anwendung von ImageBind

ImageBind kann auch in unmittelbarerer Weise genutzt werden, um in-App-Prozesse voranzutreiben. Beispielsweise könnte jemand eine Videoaufnahme eines Ozean-Sonnenaufgangs machen und sofort den perfekten Audioclip hinzufügen, um die Erfahrung zu bereichern. Oder eine Bildaufnahme eines brindle Shih Tzu könnte Essays oder Tiefenmodelle ähnlicher Hunde erzeugen. Wenn ein Modell wie Make-A-Video ein Video von einem Karneval produziert, kann ImageBind Hintergrundgeräusche vorschlagen, um ein immersives Erlebnis zu schaffen.

Fazit

ImageBind könnte einer der bedeutendsten Fortschritte in Meta’s AI-Entwicklungsprozess sein und zur Entwicklung neuer AR- und VR-Erfahrungen in ihren Apps führen. Es bleibt abzuwarten, wie Meta ImageBind anwendet und welche neuen Erlebnisse dadurch möglich werden. Mehr Informationen über ImageBind und wie es funktioniert, findet ihr hier.

Quelle