

Съвместен изследователски екип от Zojian Power (至简动力), Пекинския университет и Китайския университет в Хонг Конг предложи LaST-R1 (Подсилване на роботизираната манипулация чрез адаптивно физическо латентно разсъждение), нова въплътена парадигма за обучение на AI, която вгражда латентно космическо физическо разсъждение в обучението за подсилване.
Публикуван като документ на ICML 2026 Spotlight (топ 2,2%), LaST-R1 постига 99,9% среден процент на успеваемост на бенчмарка LIBERO само с една загрявка на траекторията — ефективно “край” бенчмарк LIBERO. В реални задачи, включващи хващане и въртене, LaST-R1 превъзхожда предишния SOTA модел π0.5 с 22,5%.
Основната иновация е изоставянето на разсъжденията, базирани на езикова верига от мисли, в полза на разсъжденията директно в латентното пространство. Вместо да картографира наблюденията директно към действията (както в OpenVLA, π0, π0.5), LaST-R1 първо моделира структурата на сцената, взаимоотношенията на физическите обекти и бъдещите динамични промени в латентен когнитивен слой, преди да генерира действия.
Алгоритъмът на екипа LAPO (Latent-to-Action Policy Optimization) съвместно оптимизира както “процес на мислене” и на “изпълнение на действието” — обратната връзка за околната среда оптимизира не само дали действието е успешно, но и как роботът е разсъждавал за физиката, преди да действа.
Това представлява фундаментална промяна от “запаметяване на траектории” към “разбиране на физиката,” решаване на критичния проблем с обобщението, при който роботите се провалят, когато позициите на обектите се изместят леко или осветлението се промени.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта