Microsoft разрабатывает технологию распознавания речи, не требующую "тренировки"
30 августа 2011 года

Компания Microsoft разрабатывает сверхточную систему распознавания речи, которая в перспективе позволит компьютерам и мобильным устройствам безошибочно распознавать речь любого человека, без предварительной адаптации к особенностям голоса конкретного человека, сообщает пресс-служба компании.

"Мобильные устройства идеальны для таких технологий, поскольку управление голосом в данном случае - самый естественный интерфейс. Но люди будут использовать подобные технологии, только если они будут простыми и эффективными", - прокомментировал руководитель группы разработчиков новой системы Донг Ю (Dong Yu).

По словам разработчиков технологии, большинство современных коммерческих систем распознавания речи несовершенны, поскольку требуют предварительной "тренировки" и способны распознавать лишь весьма ограниченный набор звуков и слов. Поэтому большинство из них плохо работает в условиях звуковой зашумленности или когда необходимо распознать речь разных людей. Специалисты Microsoft собираются справиться с этими проблемами при помощи нейронных сетей.

Идея использовать принципы работы нейронных сетей для распознавания визуальных и звуковых образов существует много лет, однако раньше ее реализации препятствовала низкая производительность пользовательских устройств. Возможности современных ПК и мобильных устройств позволяют применять ресурсоемкие алгоритмы, считают авторы исследования.

Хотя разработка системы находится на раннем этапе и о ее практическом применении речи пока не идет, в Microsoft утверждают, что после реализации замысла разработку можно будет использовать для синхронного перевода обычной беседы, распознания беглой речи, голосового управления компьютерными системами и т.п.

Сегодня на рынке уже присутствует несколько систем распознавания голоса, получивших весьма широкое распространение. В частности, технологии распознавания голоса Google применяются для осуществления голосового поиска и управления мобильной операционной системой Android. Эта система способна обучаться особенностям голоса пользователя, но ее основной минус заключается в том, что для работы она требует постоянного соединения с интернетом.

Системы распознавания голоса также используются в автомобильной промышленности: голосовое управление функциями автомобильных аудио- и навигационных систем реализовано в некоторых моделях BMW, Mercedes-Benz, Ford, Toyota и других. Такие системы помогают водителю не отвлекаться от дороги, однако для того, чтобы их эффективно использовать, водитель должен знать специальные слова-команды, которых, к примеру, в системе Ford SYNC около десяти тысяч.

По данным аналитической компании Global Industry Analysts, мировой объем рынка технологий распознавания голосовых команд к 2015 году составит 20 миллиардов долларов.