Группа исследователей из Техасского университета и Университета Оклахомы нашла способ , позволяющий определять, что набирает на клавиатуре пользователь по другую сторону экрана во время видеозвонка, основываясь на его телодвижениях. По словам экспертов, представленный ими метод применим не только к видеозвонкам, но и к стримам на YouTube и Twitch, если поле обзора web-камеры фиксирует движения верхней части тела пользователя. Процесс определения того, какие клавиши нажимает пользователь, проходит в три этапа. Первый этап – предварительная обработка записанного видео. На этом этапе убирается фон и видео переводится в серый цвет. Далее проводится сегментирование областей левой и правой руки относительно лица человека, обнаруженного с помощью детектора лица FaceBoxes. На втором этапе происходит определение кадров, где пользователь нажимает клавиши. Извлекаются сегментированные кадры рук для вычисления индекса структурного сходства (SSIM) с целью количественной оценки движений тела между последовательными кадрами в каждом из левых и правых сегментов видео и определения потенциальных кадров, в которых произошли нажатия клавиш. Третий этап – определение набранных на клавиатуре слов. На данном этапе анализируются сегменты кадра с нажатием клавиш с целью найти признаки движения до и после каждого обнаруженного нажатия клавиши. Затем с помощью алгоритма прогнозирования на основе словаря выводятся конкретные слова. Другими словами, слова выводятся из пула обнаруженных нажатий клавиш путем подсчета количества нажатий для каждого слова и определения размаха и направления руки между последовательными нажатиями. Смещение руки определяется с помощью технологии компьютерного зрения под названием Sparse. Исследователи протестировали фреймворк с 20 участниками (9 женщин и 11 мужчин) в контролируемом сценарии. В ходе тестирования испытуемые использовали как неумелое печатание двумя пальцами, так слепой набор текста и надевали разную одежду с разным покроем рукавов. Также использовались разные фоны, модели web-камер и клавиатур и разные программ для видеозвонков, в том числе Zoom, Hangouts и Skype. Как показали результаты тестирования, представленный исследователями метод наиболее эффективен в отношении пользователей, плохо печатающих на клавиатуре, носящих одежду без рукавов и использующих web-камер Logitech.