Новая программа распознаёт речь по губам лучше специалистов

Новая программа распознаёт речь по губам лучше специалистов
Новая программа распознаёт речь по губам лучше специалистов
Фото: www.vesti.ru

Чтение по губам, как известно, часто используется глухими и слабослышащими людьми для общения с другими членами общества. Обучить такому навыку непросто и занимает много времени, однако теперь эту задачу может взять на себя искусственный интеллект.

Новая компьютерная программа   под названием Watch, Attend and Spell ("смотри, следи и читай по буквам"), или WAS, разработанная специалистами Оксфордского университета совместно с компанией DeepMind , не только упростит коммуникацию для глухих людей, но также позволит учёным продвинуться в усовершенствовании искусственного интеллекта.

Напомним, что ещё осенью 2016 года специалисты рассказали   о разработке алгоритма, который распознаёт речь по губам лучше, чем профессионалы. ИИ-систему, использующую компьютерное зрение и методы машинного обучения, "тренировали", показывая ей выпуски различных телешоу общей продолжительностью пять тысяч часов (примерно 118 тысяч предложений).

Затем последовала проверка эффективности: из случайной выборки 200 видеофрагментов профессиональный чтец по губам безошибочно распознал только 12,4% произнесённых слов, в то время как компьютерные алгоритмы — 46,8%. При этом ошибки системы были незначительными, например, единичный пропуск буквы либо потеря буквы на конце слова (напомним, что в английском языке буква "s" на конце существительного может обозначать множественное число слова).

Как отмечает соавтор разработки Джун Сон Чун ( Joon Son Chung ), очень важную роль играет также понимание контекста, а этому программу обучить сложнее, нежели человека. К примеру, слова mat (коврик), bat (летучая мышь) и pat (погладить) по артикуляции практически неотличимы, и выбрать нужный вариант поможет только контекст.

При этом программа WAS обеспечивает не только точность, но и скорость понимания, добавляют авторы. Но есть у неё и недостатки. Пока что система не способна работать в режиме онлайн, а кроме того, она умеет распознавать лишь цельные предложения. Заставить систему работать в режиме онлайн, а также усовершенствовать точность распознавания слов – сейчас это основные задачи авторов проекта. "Тренировки" планируется продолжить на телевизионных программах.

Что же касается перспектив использования, то они представляются весьма широкими. "Чтение по губам – это впечатляющий и сложный в освоении навык, и WAS создана, чтобы помочь переводчикам, например, предлагая им варианты на утверждение. Есть и другие применения: давать указания смартфону в шумной обстановке, озвучивать немые фильмы, различать речь нескольких человек, говорящих одновременно", — добавляет Джун Сон Чун. Но, что самое главное, программа поможет адаптироваться к просмотру видео и даже общению глухим и слабослышащим людям.

Подробное описание программы Watch, Attend and Spell представлено   на сайте Оксфордского университета.

Напомним, что ранее казанские учёные создали распознаватель речи . Кроме того, специалистами была создана новая система аутентификации , которая распознаёт пользователя по движению губ  и предотвращает взлом систем безопасности.

 
По теме
26 марта в Российском государственном гуманитарном университете прошло заседание ученого совета, в ходе которого были вручены ведомственные награды работникам вуза, намечены новые векторы международного сотрудничества университета,
Студенты ИИЯ на международной конференции «Парламентаризм в странах Востока» - МГПУ Студенты направления Востоковедение и африканистика (китайский язык) ИИЯ приняли участие в работе международной конференции «Парламентаризм в странах Востока», проходящей в Государственной Думе Российской Федерации.
МГПУ
Успеть за шесть минут - Район Арбат Эвакуация учащихся Колледжа права им. Н.С. Киселевой при Московском государственном юридическом университете имени О.Е.
Район Арбат
Счет шел на секунда: как врачи спасали жизни пострадавших в теракте в «Крокусе» - Вечерняя Москва Заместитель главного врача по медчасти НИИ скорой помощи им. Склифосовского Артем Саприн во флагманском центре, куда доставили многих пострадавших в результате теракта в «Крокус Сити Холле».
Вечерняя Москва
28 марта 2024, 23:42 — Общественная служба новостей — ОСН Онколог и колопроктолог Аркадий Беджанян предупредил об опасности дивертикулеза — патологического процесса, который может привести к серьезным последствиям.
ИА Общественная служба новостей
IMG 7951 1 - Государственный университет управления 26 марта 2024 года прошло заседание ученого совета ГУУ. Встречу начали с минуты молчания в память о жертвах теракта, произошедшего 22 марта в «Крокус сити холл».
Государственный университет управления