Enquanto uma IA generativa como o ChatGPT trabalha primariamente com texto, a IA multimodal é capaz de processar e entender diferentes tipos de dados simultaneamente: texto, imagens, vídeos e até áudio. Isso permite que ela construa uma compreensão mais completa e complexa do mundo, assim como nós.