Источник: MIT
09:24 16.10.2018
| 128 прочтений
В дальнейшем исследователи хотят совместить в своей системе распознавание движений и объектов, а также добавить «интуитивное понимание физики».
Ученые МТИ создали сверточную нейронную сеть, способную автоматически заполнять пробелы между отрывочными кадрами и благодаря этому быстро распознавать действия, происходящие на видео.
Систему обучили на группах ключевых кадров, изображающих разные стадии действия.
Она также точно предсказывала, что произойдет на видео дальше по нескольким начальным кадрам, например, «увидев» изображение едва надорванного листа бумаги, который держат двумя руками. При тестировании система существенно лучше других моделей справлялась с распознаванием сотен простых действий, таких как подбрасывание предмета в воздух, толкание объектов, демонстрация жеста одобрения. Точность идентификации достигала 95%.
Система умеет распознавать даже неоднозначные действия, например, отличать притворное открытие книги от реального; для этого она анализирует дополнительные ключевые кадры, на последнем из которых видно, что руку убрали, а книга все еще закрыта.
В дальнейшем они хотят совместить в своей системе распознавание движений и объектов, а также добавить «интуитивное понимание физики» — определение примерных физических свойств объектов на видео. Когда-нибудь с помощью такого модуля роботы смогут лучше понимать происходящее вокруг них, уверены разработчики.
Теги: Робототехника МТИ Машинное обучение Машинное зрение