Знаете ли вы, что на протяжении долгого времени разработка роботов-гуманоидов продвигалась медленными темпами, однако благодаря сотрудничеству между Fig AI и OpenAI происходит быстрое ускорение. В результате этого сотрудничества было создано самое потрясающее видео о реальных роботах-гуманоидах, которое когда-либо можно было увидеть. Стартап-робототехника Fig AI выпустил видеообновление своего робота Fig 01, который благодаря новой модели визуального языка (VLM) превратился из обычного автомата в научно-фантастического бота, приближаясь к возможностям уровня C-3PO.

 

На видео Фигура 01 стоит за столом, накрытым тарелкой, яблоком и чашкой. Слева — сушилка. Человек стоит перед роботом и спрашивает робота: «Рисунок 01, что ты сейчас видишь?»

Через несколько секунд Фигура 01 отвечает удивительно человеческим голосом (лица нет, только анимированный свет, который движется синхронно с голосом), детализируя все, что находится на столе, и детали человека, стоящего перед ним.
«Это круто», — подумал я.

Затем мужчина спрашивает: «Эй, можно мне что-нибудь поесть?»
Фигура 01 отвечает: «Конечно», а затем ловким плавным движением берет яблоко и протягивает его парню.
«Вау», — подумал я.

Затем мужчина высыпает смятый мусор из мусорного бака перед Фигурой 01, спрашивая: «Можете ли вы объяснить, почему вы сделали то, что только что сделали, собирая этот мусор?»
Рисунок 01, не теряя времени, объясняет свои доводы и кладет бумагу обратно в корзину. «Итак, я дал тебе яблоко, потому что это единственный съедобный предмет, который я мог дать тебе со стола».

Я подумал: «Этого не может быть».
Однако, по крайней мере, согласно рисунку AI.

Речь в речь

В своем пресс-релизе компания пояснила, что Рисунок 01 занимается рассуждениями «речь-в-речь», используя предварительно обученную мультимодальную модель OpenAI, VLM, для понимания изображений и текстов, и полагается на весь голосовой разговор для выработки ответов. Это отличается, скажем, от GPT-4 OpenAI , который фокусируется на письменных подсказках.

Он также использует то, что компания называет «обученной бимануальной манипуляцией низкого уровня». Система сопоставляет точные калибровки изображения (вплоть до уровня пикселей) со своей нейронной сетью для управления движением. «Эти сети принимают встроенные изображения с частотой 10 Гц и генерируют действия с 24 степенями свободы (позы запястий и углы суставов пальцев) на частоте 200 Гц», — говорится в пресс-релизе компании Fig AI.

Компания утверждает, что каждое поведение в видео основано на системном обучении и не управляется телеуправлением, а это означает, что никто за кадром не управляет фигуркой 01.

Не видя рисунок 01 лично и не задавая себе вопросы, трудно проверить эти утверждения. Существует вероятность того, что Рисунок 01 выполняет эту процедуру не в первый раз. Это мог быть сотый раз, что могло объяснить его скорость и плавность.
Или, может быть, это на 100% реально, и в таком случае — вау. Просто вау.