Microsoft presenta un modelo de IA que interpreta imágenes y resuelve acertijos llamado Kosmos-1

Microsoft ha desarrollado un nuevo modelo de lenguaje grande multimodal llamado Kosmos-1, que ha mostrado resultados impresionantes en varias tareas, como comprensión del lenguaje, PNL sin OCR, tareas de percepción del lenguaje y respuesta visual a preguntas.
“Una gran convergencia de lenguaje, percepción multimodal, acción y modelado del mundo es un paso clave hacia la inteligencia artificial general. En este trabajo, presentamos Kosmos-1, un modelo de lenguaje grande multimodal (MLLM) que puede percibir modalidades generales, aprender en contexto y seguir instrucciones «, dijeron los investigadores de IA de Microsoft en un artículo.

“ También mostramos que los MLLM pueden beneficiarse de la transferencia intermodal, es decir, transferir conocimientos del idioma al multimodal y del multimodal al idioma. Además, presentamos un conjunto de datos de la prueba Raven IQ, que diagnostica la capacidad de razonamiento no verbal de los MLLM «, dijo el equipo.

Básicamente, este modelo puede:
• Comprender instrucciones en lenguaje natural
• Analizar el contenido de las imágenes y escribir subtítulos
• Resuelve acertijos visuales
• Pasar las pruebas de coeficiente intelectual.
Si desea más información visita: arxiv.org/pdf/2302.14045.pdf – arxiv.org/abs/2302.14045