Я давно замислювався, чи можемо ми змусити гуманоїдного робота робити сальто зі стіни - і ми щойно зробили це, використовуючи OmniRetarget із відстеженням BeyondMimic! Це сталося після наших оригінальних експериментів OmniRetarget, з лише незначними коригуваннями в тренуванні RL: послаблення порогу припинення та видалення одного терміну винагороди. Ця політика досягла 5/5 успіху в наших експериментах на реальних умовах, демонструючи силу високоякісного ретаргетингу руху, що зберігає взаємодію, у поєднанні з мінімальним RL-відстеженням BeyondMimic. Ось оновлений arXiv: (У розд. A)