[ad_1]

Meta stellt neuen AI-Prozess vor, um die Erstellung aus einem breiteren Spektrum von Inputs zu erleichtern

Im Februar kündigte Meta-CEO Mark Zuckerberg an, dass das Unternehmen an neuen AI-Initiativen arbeite, darunter neue Erfahrungen mit Text, Bildern sowie mit Videos und „multi-modalen“ Elementen. Heute hat Meta erklärt, wie seine multi-modale AI funktionieren könnte, mit der Einführung von ImageBind, einem Prozess, der es AI-Systemen ermöglicht, mehrere Inputs besser zu verstehen, um genauere und schnellere Empfehlungen abzugeben.

Was bedeutet „multi-modal“ in diesem Kontext?

Meta hat in seinem Blog erklärt, dass die multi-modale AI die Fähigkeit des maschinellen Lernens verbessert, mehrere Sinne zu nutzen, um Informationen aus vielen verschiedenen Formen zu absorbieren – ohne ausdrückliche Überwachung durch den Benutzer. Die ImageBind-Technologie bindet Informationen aus sechs verschiedenen Modalitäten zusammen: Text, Bild, Video, Audio, Tiefe (über 3D-Sensoren) und sogar thermische Inputs.

Durch diese Kombination der verschiedenen Inputs kann das System genauere räumliche Hinweise liefern und insgesamt genauere Darstellungen und Assoziationen erzeugen, um eine menschenähnliche Reaktion zu erreichen. Das ImageBind-Verfahren ermöglicht es somit, Assoziationen zwischen Text, Bild, Video und Ton herzustellen und damit eine ganz neue Stufe der Interaktivität in der AI-Technologie zu erreichen.

Welche Auswirkungen hat ImageBind?

Die möglichen Anwendungsfälle sind erheblich: Wenn Meta’s Systeme in der Lage sind, eine genauere Übereinstimmung zwischen diesen variablen Inputs herzustellen, könnte dies die derzeitigen AI-Tools, die auf Text und Bildern basieren, auf eine völlig neue Ebene der Interaktivität bringen.

Dies könnte auch die Erstellung von genaueren VR-Welten erleichtern, ein wichtiger Faktor für Metas Fortschritt zur Metaverse. Durch Horizon Worlds beispielsweise können Personen ihre eigenen VR-Räume erstellen, aber die technischen Einschränkungen bedeuten, dass die meisten Horizon-Erfahrungen derzeit sehr einfach sind – vergleichbar mit einem Videospiel aus den 80ern.

Fortschritte wie der ImageBind-Prozess könnten jedoch dazu beitragen, eine ganz neue Welt der Möglichkeiten zu eröffnen, in der es jedem Benutzer durch einfaches Sprechen möglich ist, alles zu erschaffen, was er möchte und somit die VR-Erfahrung erheblich attraktiver und interessanter zu machen.

Meta betont auch, dass ImageBind in unmittelbarer Zukunft für die Verbesserung von In-App-Prozessen eingesetzt werden könnte: Eine Videoaufnahme von einem Sonnenuntergang über dem Ozean könnte zum Beispiel direkt das perfekte Audio-Clip hinzufügen, oder ein Bild eines brindle Shih Tzu könnte als Ausgangspunkt für die Erstellung von Essays oder Tiefenmodellen von ähnlichen Hunden dienen. Oder wenn ein Tool wie Make-A-Video ein Video von einem Karneval produziert, kann ImageBind Hintergrundgeräusche vorschlagen, um ein immersives Erlebnis zu schaffen.

Fazit:
ImageBind könnte zu einem der wesentlichen Fortschritte in Metas AI-Entwicklungsprozess werden, und es bleibt nun abzusehen, wie Meta diese Technologie einsetzt und welche neuen AR- und VR-Erfahrungen in seinen Apps entstehen werden. Der AI-Bereich wird sich durch diese Technologie sicherlich weiterentwickeln und seine Anwendungsfälle im AI-Bereich erweitern.

Quelle