Чтение по губам, как известно, часто используется глухими и слабослышащими людьми для общения с другими членами общества. Обучить такому навыку непросто и занимает много времени, однако теперь эту задачу может взять на себя искусственный интеллект.
Новая компьютерная программа под названием Watch, Attend and Spell ("смотри, следи и читай по буквам"), или WAS, разработанная специалистами Оксфордского университета совместно с компанией DeepMind , не только упростит коммуникацию для глухих людей, но также позволит учёным продвинуться в усовершенствовании искусственного интеллекта.
Напомним, что ещё осенью 2016 года специалисты рассказали о разработке алгоритма, который распознаёт речь по губам лучше, чем профессионалы. ИИ-систему, использующую компьютерное зрение и методы машинного обучения, "тренировали", показывая ей выпуски различных телешоу общей продолжительностью пять тысяч часов (примерно 118 тысяч предложений).
Затем последовала проверка эффективности: из случайной выборки 200 видеофрагментов профессиональный чтец по губам безошибочно распознал только 12,4% произнесённых слов, в то время как компьютерные алгоритмы — 46,8%. При этом ошибки системы были незначительными, например, единичный пропуск буквы либо потеря буквы на конце слова (напомним, что в английском языке буква "s" на конце существительного может обозначать множественное число слова).
Как отмечает соавтор разработки Джун Сон Чун ( Joon Son Chung ), очень важную роль играет также понимание контекста, а этому программу обучить сложнее, нежели человека. К примеру, слова mat (коврик), bat (летучая мышь) и pat (погладить) по артикуляции практически неотличимы, и выбрать нужный вариант поможет только контекст.
При этом программа WAS обеспечивает не только точность, но и скорость понимания, добавляют авторы. Но есть у неё и недостатки. Пока что система не способна работать в режиме онлайн, а кроме того, она умеет распознавать лишь цельные предложения. Заставить систему работать в режиме онлайн, а также усовершенствовать точность распознавания слов – сейчас это основные задачи авторов проекта. "Тренировки" планируется продолжить на телевизионных программах.
Что же касается перспектив использования, то они представляются весьма широкими. "Чтение по губам – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: давать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно", — добавляет Джун Сон Чун. Но, что самое главное, программа поможет адаптироваться к просмотру видео и даже общению глухим и слабослышащим людям.
Подробное описание программы Watch, Attend and Spell представлено на сайте Оксфордского университета.
Напомним, что ранее казанские учёные создали распознаватель речи . Кроме того, специалистами была создана новая система аутентификации , которая распознаёт пользователя по движению губ и предотвращает взлом систем безопасности.