Нейросеть Microsoft научилась понимать изображения
Она получила название Kosmos‑1 — это ИИ‑модель, способная анализировать изображения, находить и распознавать на них текст, а также решать визуальные головоломки, проходить тесты на IQ и понимать команды на человеческом языке. Она может, например, решить капчу с арифметической задачей типа «3 + 5 = ...».
Microsoft называет ее «мультимодальной большой языковой моделью» — нейросеть сможет объединить сразу несколько режимов ввода: текст, изображения, видео, звук. Теоретически это позволит создать так называемый «общий искусственный интеллект», который сможет заменить людей в решении многих интеллектуальных задач.
Сейчас Kosmos-1 работает в первую очередь с текстом, а изображения воспринимает как серию специальных знаков. Для понимания, что изображено, нейросеть преобразует картинку в серию текстовых токенов, а дальше работает уже с ними.
Microsoft приводит несколько примеров (см. изображение ниже), в которых нейросеть анализирует изображения и находит ответы на вопросы. Так, если предложить ей постер кинофильма и спросить, когда он вышел, ИИ может распознать текст на постере и, действительно, найти дату премьеры. Еще нейросеть распознает прическу по запросу, может пояснить смысл мема или выполнить математические вычисления, которые обычно используют в капчах (защите от роботов на страницах сайта).
Обучение нейросети производилось в интернете на более чем 800 ГБ текста на английском языке. После обучения ее проверили с помощью разнообразных тестов, включая оценку понимания языка, классификации и генерации текстов. Также эксперты выяснили, насколько хорошо Kosmos-1 может описывать изображения. В Microsoft утверждают, что эта система более продвинутая, чем современные языковые модели (вроде той же ChatGPT). Однако проверить это на практике нельзя — исходный код корпорация не опубликовала. Когда это случится, неизвестно. Принципы работы Kosmos-1 и ее реакция на разные запросы доступны в научной статье на английском языке.
Нейросеть не всемогуща — во многих тестах она пока пасует перед человеческим интеллектом, например, в тесте на IQ британского психолога Джона К. Рейвена (John C. Raven), в котором нужно логически продолжить последовательность геометрических форм. Этот тест нейросеть не прошла — точность составила от 22 до 26%.
В Microsoft продолжают развивать Kosmos-1. В будущем разработчики хотят добавить возможность вести беседы.
Понравилась статья?
Теги статьи
Нам нравится, что вам нравится
Уверены, вы можете не хуже! Напишите статью и получите Бонусы.
Спасибо, что вам есть что сказать
Попробуйте расширить свою мысль и написать статью — и получите за это Бонусы.
Комментарии
Авторизуйтесь, чтобы иметь возможность писать комментарии:
Войти