No início deste ano, o CEO da Meta, Mark Zuckerberg, mencionou que a empresa estava trabalhando em várias iniciativas de inteligência artificial (IA), incluindo novas experiências com texto, imagens, vídeos e elementos multimodais.
Agora, a Meta lançou o ImageBind e houve uma explicação de como o “multimodal” funciona nesse contexto, permitindo que os sistemas de IA compreendam melhor uma ampla gama de entradas para fornecer recomendações mais precisas e responsivas.
Como funciona o ImageBind, da Meta?
De acordo com a empresa:
Quando os humanos absorvem informações do mundo, nós inatamente usamos vários sentidos, como ver uma rua movimentada e ouvir os sons dos motores dos carros.
Hoje, estamos apresentando uma abordagem que aproxima as máquinas da capacidade humana de aprender simultaneamente, de forma holística e diretamente de muitas formas diferentes de informação — sem a necessidade de supervisão explícita.
ImageBind é o primeiro modelo de IA capaz de vincular informações de seis modalidades.
O processo do ImageBind permite que o sistema aprenda a associar não apenas texto, imagem e vídeo, mas também áudio, profundidade (por meio de sensores 3D) e até entradas térmicas, o que significa que a IA pode interpretar e entender vários tipos de entradas.
Essa abordagem combinada oferece pistas espaciais mais certeiras, permitindo que o sistema produza representações e associações mais precisas.
Como resultado, as experiências de IA estão um passo mais próximas de imitar as respostas humanas.
Por exemplo, usando o ImageBind, o Make-A-Scene da Meta pode criar imagens de áudio, como criar uma imagem baseada nos sons de uma floresta tropical ou de um mercado movimentado.
Outras possibilidades futuras incluem maneiras mais precisas de reconhecer, conectar e moderar conteúdo e impulsionar o design criativo, como gerar mídia mais rica de maneira mais integrada e criar funções de pesquisa multimodais mais amplas.
Um novo reino de interatividade
Se a Meta puder estabelecer um alinhamento mais preciso entre as entradas variáveis, os possíveis casos de uso da sua IA multimodal podem ser significativos.
Isso poderia levar a lista atual de ferramentas de IA, que são baseadas principalmente em texto e imagem, a um novo patamar de interatividade e recursos.
Além disso, a capacidade de estabelecer um alinhamento mais preciso entre as várias entradas também poderia ajudar a Meta a criar mundos de realidade virtual (RV) mais precisos — um elemento chave no avanço em direção ao metaverso.
Através do Horizon Worlds, os usuários podem criar seus próprios espaços de RV, mas as limitações técnicas atuais significam que muitas dessas experiências ainda são bastante básicas.
No entanto, se a Meta puder fornecer mais ferramentas para que qualquer pessoa possa criar em RV, através de comandos de voz, por exemplo, isso poderia abrir todo um novo reino de possibilidades, tornando a experiência ainda mais atraente e envolvente para os usuários.
A Meta também observa que o ImageBind pode ser usado de maneiras mais imediatas para avançar nos processos do aplicativo:
Imagine que alguém poderia fazer uma gravação de vídeo de um pôr do sol no oceano e adicionar instantaneamente o clipe de áudio perfeito para aprimorá-lo, enquanto uma imagem de um Shih-Tzu tigrado poderia render ensaios ou modelos de profundidade de cães semelhantes.
Ou quando um modelo como o Make-A-Video produz um vídeo de carnaval, o ImageBind pode sugerir um ruído de fundo para acompanhá-lo, criando uma experiência imersiva.
Este é apenas o começo do processo, mas ele pode se tornar um dos maiores avanços na evolução da IA da Meta.
A empresa está animada para ver como o ImageBind pode ser aplicado e aprimorado em seus aplicativos de realidades aumentada e virtual, abrindo possibilidades para novas experiências imersivas no futuro.
Você pode ler mais sobre o ImageBind e como ele funciona aqui.
Fonte: Social Media Today