Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков
Шрифт:
Интервал:
Закладка:
По мере совершенствования архитектур, роста размера и количества данных, на которых происходит обучение, генеративные сети становятся способны корректно обрабатывать всё более сложные и нестандартные текстовые запросы. Ещё недавно одной из типичных проблем генеративных моделей компьютерного зрения была их неспособность без ошибок нарисовать человеческие руки — с правильным числом и расположением пальцев. Но сегодня наиболее продвинутые модели чаще всего уже справляются с этой задачей. Вообще, как известно, нерекуррентные трансформерные модели не слишком хорошо умеют считать — с задачей подсчёта даже сравнительно небольшого числа объектов на генерируемой картинке (будь то пальцы, концы звезды, люди и т. д.) могут справиться только действительно большие нейросети, обученные на огромном числе соответствующих примеров. Другая проблема — создание сложных и необычных сочетаний объектов. Например, для большинства современных моделей уже не является проблемой изобразить астронавта на лошади, но если попросить модель нарисовать лошадь верхом на астронавте, то уже возникают большие трудности[2874]. Придумавший этот пример Гэри Маркус, профессор кафедры психологии Нью-Йоркского университета и специалист по ИИ, считает это одной из ярких иллюстраций того, что нейросетевые модели ограничены в постижении так называемой композициональности — свойства естественного языка, в соответствии с которым значение сложного выражения функционально зависит от значений отдельных его частей и способа, которым эти части комбинируются друг с другом, то есть по сути синтаксиса. По мнению Маркуса, композициональность сама собой не может быть постигнута современными нейросетевыми моделями за счёт увеличения количества обучающих данных. Для того чтобы решить эту проблему, по мнению Маркуса нужны специальные архитектуры[2875].
Впрочем, сегодня некоторые модели научились рисовать и лошадей на астронавтах, хотя такие примеры до сих пор плохо работают «из коробки» — для того чтобы получить требуемый результат, требуются усилия промпт-инженеров[2876]. Исследователь из Microsoft Джеймс Маккаммон придумал для обозначения такого типа запросов специальный термин «антагонистические запросы» [antagonistic prompts]; в своей статье он предлагает развёрнутую классификацию таких запросов и оценивает способность Midjourney 5.1 справляться с ними[2877]. В наши дни исследователи активно ищут способы улучшения работы моделей, генерирующих изображения, в том числе и в таких сложных случаях[2878].
Помимо обработки антагонистических запросов, сегодня на повестке дня стоит умение моделей воспринимать максимально детализированные описания (например, не просто нарисовать лицо человека, а воспроизвести его облик по подробному описанию, включающему форму носа, цвет и форму глаз, губ и т. д.). Кроме того, сегодня исследователи опробуют нейросетевые модели в задачах генерации зрительных образов, обладающих большей размерностью: например в задачах генерации видео (о них мы подробнее поговорим в следующем разделе) и в задачах генерации трёхмерных объектов. К числу последних относятся модели для таких задач, как генерации полигональных сеток [mesh] трёхмерных объектов (например, модель TextMesh[2879]), нейросетевой рендеринг (обычно при помощи моделей из семейства NeRF (Neural radiance field, Нейронное поле яркости)[2880] — RegNeRF[2881], DreamFusion[2882], Instant NeRF[2883] и т. д.), генерация изображений вместе с картами глубин (например, LDM3D[2884]), построение карт глубин на основе имеющихся (в том числе сгенерированных) изображений — например MiDaS (Mixed Data Sampling, Смешанное семплирование данных)[2885], и так далее. В марте 2023 г. был опубликован[2886] датасет под названием Objaverse-XL, включающий в себя более 10 млн трёхмерных объектов, снабжённых текстовыми описаниями (при этом в предыдущей версии Objaverse, вышедшей в декабре 2022 г., их было лишь чуть больше 800 тысяч[2887]), что открыло дверь для создания новых, более совершенных моделей для 3D-генерации.
Успехи графических генеративных нейросетей вызвали нешуточную полемику в сообществе профессиональных дизайнеров и художников[2888], едва ли не более ожесточённую, чем споры времён появления фотографии. Впрочем, возможно, и на авторегрессионных моделях генерации изображений пока рано ставить крест: по крайней мере Parti[2889] от Google и Craiyon (бывшая DALL-E Mini, переименованная по требованию OpenAI) [2890] от Craiyon LLC также порой демонстрируют интересные результаты.
Рис. 174. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Обворожительная хозяйка медной горы" , стиль: 4k»
Рис. 175. Изображение, сгенерированное моделью Kandinsky 2.1 по запросу «"Ктулху в дыму", стиль: 4k»
Вообще, успех фундаментальных моделей в области обработки естественного языка, а также генерации изображений по тексту подтолкнул специалистов из области компьютерного зрения к активным экспериментам в области этой парадигмы — действительно, почему бы не сделать предобученную модель, которую затем можно будет использовать для решения самых разных задач в области обработки изображений? В результате вслед за CLIP и DALL·E на свет появились такие модели, как FLORENCE[2891] и NÜWA (Visual Synthesis Pre-training for Neural visUal World creAtion, Предобучение визуального синтеза для нейросетевого создания визуальных миров)[2892] от исследователей из Microsoft, ALIGN от Google Research[2893], а также основанные на MoE-подходе V-MoE от Google Brain[2894] и WuDao 2.0 от Пекинской академии искусственного интеллекта[2895].
Не остались в долгу и специалисты от DeepMind, представившие публике собственную модель под названием Flamingo, предназначенную для решения примерно того же спектра задач. Для обозначения этого класса моделей специалисты предлагают использовать термин «визуальные языковые модели» (Visual Language Models, VLMs). Flamingo имеет 80 млрд параметров и состоит из двух частей (отвечающих за текстовое и графическое