Количество приложений и важность голосовых интерфейсов быстро растет

Содержание

Большая четверка
американцы хотят купить
Стирать, печь, убирать!
Старая концепция. Неужели ее время наконец пришло?
Технически сложный вопрос
Голос? Графика? Или, может быть, оба?
Следите за безопасностью!

Американская семья в Портленде, штат Орегон, недавно узнала, что голосовой помощник Алекса записал их личные чаты и отправил их другу. Хозяйка дома, которую СМИ прозвали Даниэль, заявила журналистам, что «никогда больше не будет подключать это устройство, потому что ей нельзя доверять».

Alexa, предоставляемый динамиками Echo (1) и другими гаджетами в десятках миллионов домов в США, начинает запись после того, как услышит свое имя или «призывное слово», произнесенное пользователем. Это означает, что даже если слово «Alexa» упоминается в телевизионной рекламе, устройство может начать запись. Именно это и произошло в данном случае, говорит Amazon, дистрибьютор оборудования.

«Остальная часть разговора была интерпретирована голосовым помощником как команда отправить сообщение», — говорится в сообщении компании. «В какой-то момент Алекса громко спросила: «Кому?» Продолжение семейного разговора о паркете из твердой древесины должно было быть воспринято машиной как пункт в списке контактов клиента». По крайней мере, так считает Amazon. Таким образом, перевод сводится к череде несчастных случаев.

Тревога, однако, остается. Потому что по какой причине в доме, где мы до сих пор чувствовали себя в своей тарелке, приходится вводить какой-то «голосовой режим», смотреть, что мы говорим, что транслирует телевизор и, конечно же, что рассказывает этот новый динамик на комоде. нас.

тем не менее, несмотря на несовершенство технологий и опасения по поводу конфиденциальности, с ростом популярности таких устройств, как Amazon Echo, люди начинают привыкать к идее взаимодействия с компьютерами с помощью голоса..

Как отметил Вернер Фогельс, технический директор Amazon, во время своей сессии AWS re: Invent в конце 2017 года, до сих пор технологии ограничивали наши возможности взаимодействия с компьютерами. Мы набираем ключевые слова в Google с помощью клавиатуры, так как это все еще самый распространенный и простой способ ввода информации в машину.

– сказал Фогельс. –

Большая четверка

При использовании поисковой системы Google на телефоне мы наверняка давно заметили там знак микрофона с призывом говорить. Этот Google сейчас (2), с помощью которого можно продиктовать поисковый запрос, ввести сообщение голосом и т. д. За последние годы Google, Apple и Amazon значительно улучшили технологии распознавания голоса. Голосовые помощники, такие как Alexa, Siri и Google Assistant, не только записывают ваш голос, но и понимают, что вы им говорите, и отвечают на вопросы.

Google Now доступен бесплатно для всех пользователей Android. Приложение может, например, ставить будильник, проверять прогноз погоды и маршрут на картах Google. Разговорное расширение состояний Google Now Google Ассистент () – виртуальная помощь пользователю оборудования. Он доступен в основном на мобильных устройствах и устройствах умного дома. В отличие от Google Now, он может участвовать в двустороннем обмене. Помощник дебютировал в мае 2016 года как часть приложения Google для обмена сообщениями Allo, а также в голосовом динамике Google Home (3).

3. Главная страница Google

В системе IOS также есть свой виртуальный помощник, Siri, то есть программа, входящая в состав операционных систем Apple — iOS, watchOS, tvOS homepod и macOS. Siri дебютировала с операционной системой iOS 5 и смартфоном iPhone 4s в октябре 2011 года на конференции «Поговорим об iPhone».

Программное обеспечение основано на диалоговом интерфейсе: оно распознает естественную речь пользователя (с iOS 11 также возможен ввод команд вручную), отвечает на вопросы и выполняет задания. Благодаря внедрению машинного обучения помощник со временем анализирует личные предпочтения пользователю для предоставления более релевантных результатов и рекомендаций. Для Siri требуется постоянное подключение к Интернету — основные источники информации здесь Bing и Wolfram Alpha. В iOS 10 появилась поддержка сторонних расширений.

Еще один из большой четверки Кортана. Это интеллектуальный личный помощник, созданный Microsoft. Он поддерживается платформами Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android и iOS. Впервые Cortana была представлена на конференции Microsoft Build Developer в апреле 2014 года в Сан-Франциско. Название программы происходит от имени персонажа из серии игр Halo. Cortana доступна на английском, итальянском, испанском, французском, немецком, китайском и японском языках.

Пользователи уже упомянутой программы Alexa они также должны учитывать языковые ограничения — цифровой помощник говорит только на английском, немецком, французском и японском языках.

Виртуальный помощник Amazon впервые был использован в умных колонках Amazon Echo и Amazon Echo Dot, разработанных Amazon Lab126. Он обеспечивает голосовое взаимодействие, воспроизведение музыки, создание списков дел, настройку будильника, потоковую передачу подкастов, воспроизведение аудиокниг и предоставление в реальном времени информации о погоде, пробках, спорте и другой новостной информации, такой как новости (4). Alexa может управлять несколькими интеллектуальными устройствами для создания системы домашней автоматизации. Его также можно использовать для совершения удобных покупок в магазине Amazon.

4. Для чего пользователи используют Эхо (согласно исследованиям)

Пользователи могут расширить возможности Alexa, установив «навыки» Alexa (), дополнительные функции, разработанные сторонними поставщиками, чаще называемые приложениями, такими как погода и аудиопрограммы в других настройках. Большинство устройств Alexa позволяют активировать виртуального помощника с помощью пароля пробуждения, так называемого .

Сегодня Amazon определенно доминирует на рынке умных динамиков (5). IBM, представившая новую услугу в марте 2018 года, пытается войти в четверку лидеров, Помощник Ватсона, предназначенный для компаний, которые хотят сами создавать системы виртуальных помощников с голосовым управлением. В чем преимущество решения IBM? По словам представителей компании, в первую очередь, на гораздо большие возможности персонализации и защиты конфиденциальности.

Во-первых, Watson Assistant не имеет навязанной торговой марки. Компании могут создавать свои собственные решения на этой платформе и маркировать их своим собственным брендом.

Во-вторых, они могут обучать свои вспомогательные системы, используя свои собственные наборы данных, которые, по словам IBM, легче добавлять функции и команды в эту систему, чем другие технологии VUI (голосовой пользовательский интерфейс).

В-третьих, Watson Assistant не предоставляет IBM информацию об активности пользователей — разработчики решений на платформе могут хранить ценные данные только при себе. Между тем, все, кто создает устройства, например, с помощью Alexa, должны учитывать, что их ценные данные в конечном итоге попадут в Amazon.

У Watson Assistant уже есть несколько реализаций. Систему использовала, например, компания Harman, создавшая голосового помощника для концепт-кара Maserati (6). В аэропорту Мюнхена ассистент IBM приводит в действие робота Pepper, который помогает посетителям передвигаться. Третий пример — Chameleon Technologies, где голосовая технология используется в умном домашнем счетчике.

6. Watson Assistant в концепт-каре Maserati

Стоит добавить, что базовая технология здесь тоже не нова. Watson Assistant включает возможности шифрования для существующих продуктов IBM, Watson Conversation и Watson Virtual Agent, а также API-интерфейсы для языкового анализа и чата.

Amazon не только является лидером в области интеллектуальных голосовых технологий, но и превращает их в прямой бизнес. Однако некоторые компании экспериментировали с интеграцией Echo намного раньше. Sisense, компания из индустрии BI и аналитических инструментов, представила интеграцию Echo в июле 2016 года. В свою очередь, стартап Roxy решил создать собственное программное и аппаратное обеспечение с голосовым управлением для индустрии гостеприимства. Ранее в этом году Synqq представила приложение для заметок, которое использует обработку голоса и естественного языка для добавления заметок и записей календаря без необходимости набирать их на клавиатуре.

Все эти небольшие предприятия имеют высокие амбиции. Однако больше всего они узнали, что не каждый пользователь хочет передавать свои данные в Amazon, Google, Apple или Microsoft, которые являются наиболее важными игроками в создании платформ голосовой связи.

американцы хотят купить

В 2016 году на голосовой поиск приходилось 20% всех мобильных поисковых запросов Google. Люди, которые используют эту технологию ежедневно, отмечают ее удобство и многозадачность среди самых больших преимуществ. (например, возможность использовать поисковую систему во время вождения автомобиля).

Аналитики Visiongain оценивают текущую стоимость рынка умных цифровых помощников в $1,138 млрд. Таких механизмов становится все больше и больше. По данным Gartner, к концу 2018 г. уже 30% наших взаимодействий с технологией будет через разговоры с голосовыми системами.

По оценкам британской исследовательской компании IHS Markit, к концу этого года рынок цифровых помощников на базе ИИ (искусственного интеллекта) достигнет 4 млрд устройств, а к 2020 году это число может увеличиться до 7 млрд.

Согласно отчетам eMarketer и VoiceLabs, в 2017 году 35,6 млн американцев использовали голосовое управление как минимум раз в месяц. Это означает увеличение почти на 130% по сравнению с предыдущим годом. Ожидается, что только рынок цифровых помощников вырастет на 2018% в 23 году. Это означает, что вы уже будете использовать их 60,5 миллионов американцев, что выльется в конкретные деньги для их производителей. По оценкам RBC Capital Markets, к 2020 году интерфейс Alexa принесет Amazon до $10 млрд выручки.

Стирать, печь, убирать!

Голосовые интерфейсы все более смело выходят на рынок бытовой техники и потребительской электроники. В этом уже можно было убедиться во время прошлогодней выставки IFA 2017. Американская компания Neato Robotics представила, например, робота-пылесоса, который подключается к одной из нескольких платформ умного дома, включая систему Amazon Echo. Поговорив с умным динамиком Echo, вы можете поручить машине убрать весь дом в определенное время дня или ночи.

На выставке были представлены и другие продукты с голосовым управлением, начиная от смарт-телевизоров, продаваемых под брендом Toshiba турецкой компанией Vestel, и заканчивая одеялами с подогревом немецкой компании Beurer. Многие из этих электронных устройств также можно активировать удаленно с помощью смартфонов.

Однако, по словам представителей Bosch, пока рано говорить о том, какой из вариантов домашнего помощника станет доминирующим. Немецкая техническая группа продемонстрировала на IFA 2017 стиральные машины (7), духовки и кофемашины, которые подключаются к Echo. Bosch также хотела бы, чтобы в будущем ее устройства были совместимы с голосовыми платформами Google и Apple.

7. Стиральная машина Bosch, которая подключается к Amazon Echo

Такие компании, как Fujitsu, Sony и Panasonic, разрабатывают собственные решения для голосового помощника на основе искусственного интеллекта. Sharp добавляет эту технологию к печам и небольшим роботам, выходящим на рынок. Nippon Telegraph & Telephone нанимает производителей оборудования и игрушек для адаптации системы искусственного интеллекта с голосовым управлением.

Старая концепция. Неужели ее время наконец пришло?

На самом деле концепция голосового пользовательского интерфейса (VUI) существует уже несколько десятилетий. Любой, кто смотрел «Звездный путь» или «2001: Космическая одиссея» много лет назад, вероятно, ожидал, что примерно в 2000 году мы все будем управлять компьютерами с помощью голоса. Кроме того, не только авторы научной фантастики видели потенциал этого типа интерфейса. В 1986 году исследователи Nielsen спросили ИТ-специалистов, что, по их мнению, будет самым большим изменением в пользовательских интерфейсах к 2000 году. Они чаще всего указывали на разработку голосовых интерфейсов.

Есть основания надеяться на такое решение. Вербальное общение — это, в конце концов, наиболее естественный способ сознательного обмена мыслями между людьми, поэтому его использование для взаимодействия человека с машиной кажется пока лучшим решением.

Один из первых VUI, названный крохотная каморка, был создан в начале 60-х годов компанией IBM. Он был предшественником сегодняшних систем распознавания голоса. Однако разработка устройств VUI была ограничена пределами вычислительной мощности. Разбор и интерпретация человеческой речи в режиме реального времени требует много сил, и потребовалось более пятидесяти лет, чтобы добраться до того момента, когда это действительно стало возможным.

Устройства с голосовым интерфейсом начали появляться в массовом производстве в середине 90-х, но популярности не снискали. Первый телефон с возможностью голосового управления (набор номера) был Филипс Спарк, выпущенный в 1996 году. Однако это новаторское и простое в использовании устройство не было свободно от технологических ограничений.

Другие телефоны, оснащенные формами голосового интерфейса (созданные такими компаниями, как RIM, Samsung или Motorola), регулярно появлялись на рынке, позволяя пользователям набирать номер голосом или отправлять текстовые сообщения. Все они, однако, требовали запоминания конкретных команд и произнесения их в вынужденной, искусственной форме, приспособленной к возможностям устройств того времени. Это порождало большое количество ошибок, что, в свою очередь, приводило к недовольству пользователей.

Однако в настоящее время мы вступаем в новую эру вычислительной техники, в которой достижения в области машинного обучения и развития искусственного интеллекта открывают потенциал разговора как нового способа взаимодействия с технологиями (8). Количество устройств, поддерживающих голосовое взаимодействие, стало важным фактором, оказавшим большое влияние на развитие VUI. Сегодня почти 1/3 населения мира уже владеет смартфонами, которые можно использовать для такого типа поведения. Похоже, большинство пользователей наконец-то готовы адаптировать свои голосовые интерфейсы.

8. Современная история развития голосового интерфейса

Однако прежде чем мы сможем свободно разговаривать с компьютером, как это сделали герои «Космической одиссеи», мы должны преодолеть ряд проблем. Машины до сих пор не очень хорошо справляются с лингвистическими нюансами. Кроме того многие люди до сих пор чувствуют себя некомфортно, отдавая голосовые команды поисковой системе.

Статистика показывает, что голосовые помощники используются преимущественно дома или в кругу близких друзей. Ни один из опрошенных не признался в использовании голосового поиска в общественных местах. Однако эта блокада, скорее всего, исчезнет с распространением этой технологии.

Технически сложный вопрос

Проблема, с которой сталкиваются системы (ASR), заключается в извлечении полезных данных из речевого сигнала и связывании его с определенным словом, имеющим определенное значение для человека. Произносимые звуки каждый раз разные.

Изменчивость речевого сигнала является его естественным свойством, благодаря которому мы, например, распознаем акцент или интонацию. Каждый элемент системы распознавания речи имеет определенную задачу. На основе обработанного сигнала и его параметров создается акустическая модель, которая связана с языковой моделью. Система распознавания может работать на основе малого или большого количества паттернов, что определяет размер словаря, с которым она работает. Они могут быть маленькие словари в случае систем, которые распознают отдельные слова или команды, а также большие базы данных содержащие эквивалент языкового множества и учитывающие языковую модель (грамматику).

Проблемы, с которыми сталкиваются голосовые интерфейсы, в первую очередь правильно понимать речь, в которых, например, часто опускаются целые грамматические последовательности, встречаются лингвистические и фонетические ошибки, ошибки, пропуски, речевые дефекты, омонимы, неоправданные повторы и т. д. Все это системы АСР должны работать быстро и надежно. По крайней мере, таковы ожидания.

Источником затруднений также являются акустические сигналы, отличные от распознаваемой речи, попадающие на вход системы распознавания, т.е. всевозможные помехи и шум. В простейшем случае они вам нужны отфильтровывать. Эта задача кажется рутинной и легкой — ведь фильтруются различные сигналы и каждый электронщик знает, что делать в такой ситуации. Однако это нужно делать очень внимательно и тщательно, если результат распознавания речи должен соответствовать нашим ожиданиям.

Используемая в настоящее время фильтрация позволяет удалить вместе с речевым сигналом внешний шум, улавливаемый микрофоном, и внутренние свойства самого речевого сигнала, затрудняющие его распознавание. Однако гораздо более сложная техническая проблема возникает, когда помехой для анализируемого речевого сигнала является… другой речевой сигнал, то есть, например, громкие дискуссии вокруг. Этот вопрос известен в литературе как так называемый . Это уже требует применения сложных методов, т.н. деконволюция (распутывание) сигнала.

На этом проблемы с распознаванием речи не заканчиваются. Стоит осознать, что речь несет в себе множество различных типов информации. Человеческий голос подсказывает пол, возраст, разные характеры владельца или состояние его здоровья. Существует обширный отдел биомедицинской инженерии, занимающийся диагностикой различных заболеваний на основе характерных акустических явлений, обнаруживаемых в речевом сигнале.

Также существуют приложения, где основной целью акустического анализа речевого сигнала является идентификация говорящего или проверка того, что он тот, за кого себя выдает (голос вместо ключа, пароля или PUK-кода). Это может иметь важное значение, особенно для интеллектуальных строительных технологий.

Первым компонентом системы распознавания речи является микрофон. Однако сигнал, улавливаемый микрофоном, обычно остается малопригодным. Исследования показывают, что форма и ход звуковой волны очень сильно изменяются в зависимости от человека, скорости речи, а отчасти и настроения собеседника — при этом в малой степени они отражают само содержание произносимых команд.

Поэтому сигнал должен быть правильно обработан. Современная акустика, фонетика и информатика в совокупности предоставляют богатый набор инструментов, которые можно применять для обработки, анализа, распознавания и понимания речевого сигнала. Динамический спектр сигнала, так называемый динамические спектрограммы. Они довольно легко получаются, а речь, представленная в виде динамической спектрограммы, сравнительно легко распознается с помощью приемов, аналогичных тем, которые используются при опознании изображений.

Простые элементы речи (например, команды) можно распознать по простому подобию целых спектрограмм. Например, словарь мобильного телефона с голосовым управлением содержит всего от нескольких десятков до нескольких сотен слов и словосочетаний, обычно заранее наложенных, чтобы их можно было легко и эффективно идентифицировать. Этого достаточно для простых задач управления, но это сильно ограничивает общее приложение. Системы, построенные по схеме, как правило, поддерживают только конкретных дикторов, для которых специально обучены голоса. Так что если есть кто-то новый, кто хочет использовать свой голос для управления системой, его, скорее всего, не примут.

Результат этой операции называется спектрограмма 2-W, то есть двумерный спектр. В этом блоке есть еще одно занятие, на которое стоит обратить внимание — сегментация. Вообще говоря, речь идет о разбиении непрерывного речевого сигнала на части, которые можно распознавать по отдельности. Только из этих отдельных диагнозов складывается распознавание целого. Такая процедура необходима, потому что невозможно идентифицировать длинную и сложную речь за один раз. О том, какие сегменты следует различать в речевом сигнале, уже написаны целые тома, поэтому мы не будем сейчас решать, должны ли выделяемые сегменты быть фонемами (звуковыми эквивалентами), слогами или, может быть, аллофонами.

Процесс автоматического распознавания всегда обращается к некоторым признакам объектов. Для речевого сигнала протестированы сотни наборов различных параметров.В распоряжении речевого сигнала разделен на распознанные кадры и имея выбранные функциипосредством чего эти кадры представлены в процессе распознавания, мы можем выполнить (для каждого кадра отдельно) классификация, т.е. присвоение фрейму идентификатора, который будет его представлять в дальнейшем.

Следующий этап сборка фреймов в отдельные слова – чаще всего на основе т.н. модель неявных марковских моделей (НММ-). Затем идет монтаж из слов полные предложения.

Теперь мы можем ненадолго вернуться к системе Alexa. На его примере показан многоэтапный процесс машинного «понимания» человека — точнее: отдаваемой им команды или заданного вопроса.

Понимание слов, понимание значения и понятие намерения пользователя — совершенно разные вещи.

Следовательно, следующим шагом является работа модуля НЛП (), задача которого распознавание намерений пользователя, т.е. смысл команды/вопроса в том контексте, в котором она была произнесена. Если намерение идентифицировано, следует назначение так называемого навыки и умения, то есть конкретная функция, поддерживаемая интеллектуальным помощником. В случае вопроса о погоде вызываются источники данных о погоде, которые остается обработать в речь (механизм TTS -). В результате пользователь слышит ответ на заданный вопрос.

Голос? Графика? Или, может быть, оба?

Большинство известных современных систем взаимодействия основаны на посреднике, называемом графический пользовательский интерфейс (графический интерфейс). К сожалению, графический интерфейс — не самый очевидный способ взаимодействия с цифровым продуктом. Это требует, чтобы пользователи сначала научились использовать интерфейс и запоминали эту информацию при каждом последующем взаимодействии. Во многих ситуациях голос гораздо удобнее, потому что для взаимодействия с VUI достаточно просто обратиться к устройству. Интерфейс, который не заставляет пользователей запоминать и запоминать определенные команды или методы взаимодействия, вызывает меньше проблем.

Конечно, расширение VUI не означает отказ от более традиционных интерфейсов — скорее будут доступны гибридные интерфейсы, сочетающие в себе несколько способов взаимодействия.

Голосовой интерфейс подходит не для всех задач в мобильном контексте. С ним мы позвоним другу за рулем автомобиля, и даже отправим ему смс, но проверка последних переводов может оказаться слишком сложной – из-за количества информации, передаваемой в систему () и генерируемой системой (система). Как предполагает Рэйчел Хинман в своей книге Mobile Frontier, использование VUI становится наиболее эффективным при выполнении задач, в которых количество входной и выходной информации невелико.

Смартфон, подключенный к Интернету, удобен, но в то же время доставляет неудобства (9). Каждый раз, когда пользователь хочет что-то купить или воспользоваться новой услугой, ему приходится скачивать другое приложение и создавать новую учетную запись. Здесь создано поле для использования и развития голосовых интерфейсов. По мнению экспертов, вместо того, чтобы заставлять пользователей устанавливать множество различных приложений или создавать отдельные учетные записи для каждого сервиса, VUI позволит переложить бремя этих обременительных задач на голосового помощника, оснащенного искусственным интеллектом. Именно ему будет удобно выполнять напряженную деятельность. Мы будем только отдавать ему приказы.

9. Голосовой интерфейс с помощью смартфона

В настоящее время к Интернету подключены не только телефон и компьютер. Умные термостаты, светильники, чайники и многие другие устройства, интегрированные с Интернетом вещей, также подключены к сети (10). Таким образом, вокруг нас есть устройства с беспроводным подключением, которые наполняют нашу жизнь, но не все из них естественным образом вписываются в графический интерфейс пользователя. Использование VUI поможет вам легко интегрировать их в нашу среду.

10. Голосовой интерфейс с Интернетом вещей

Создание голосового пользовательского интерфейса скоро станет ключевым навыком дизайнера. Это настоящая проблема — необходимость внедрения голосовых систем побудит вас больше сосредоточиться на упреждающем дизайне, то есть пытаться понять первоначальные намерения пользователя, предвосхищая его потребности и ожидания на каждом этапе разговора.

Голос — эффективный способ ввода данных — он позволяет пользователям быстро отдавать команды системе на своих условиях. С другой стороны, экран обеспечивает эффективный способ отображения информации: он позволяет системам одновременно отображать большой объем информации, уменьшая нагрузку на память пользователей. Логично, что объединение их в одну систему звучит обнадеживающе.

Умные колонки, такие как Amazon Echo и Google Home, вообще не предлагают визуальный дисплей. Значительно повышая точность распознавания голоса на умеренных расстояниях, они позволяют работать без помощи рук, что, в свою очередь, повышает их гибкость и эффективность — они желательны даже для пользователей, у которых уже есть смартфоны с голосовым управлением. Однако отсутствие экрана является огромным ограничением.

Для информирования пользователей о возможных командах можно использовать только звуковые сигналы, и чтение вывода вслух становится утомительным, за исключением самых простых задач. Установка таймера с помощью голосовой команды во время приготовления — это здорово, но заставлять вас спрашивать, сколько времени осталось, не обязательно. Получение обычного прогноза погоды становится испытанием памяти для пользователя, которому приходится всю неделю слушать и усваивать ряд фактов, а не собирать их с экрана с первого взгляда.

Дизайнеры уже разработали гибридное решение, Echo Show (11), в котором к базовой умной колонке Echo был добавлен экран дисплея. Это значительно расширяет функциональные возможности оборудования. Однако Echo Show по-прежнему гораздо менее способно выполнять базовые функции, которые уже давно доступны на смартфонах и планшетах. Он не может (пока), например, просматривать веб-страницы, показывать обзоры или отображать содержимое корзины покупок Amazon.

Визуальный дисплей по своей сути является более эффективным способом предоставления людям большого объема информации, чем просто звук. Проектирование с приоритетом голоса может значительно улучшить голосовое взаимодействие, но в долгосрочной перспективе произвольное неиспользование визуального меню ради взаимодействия будет похоже на борьбу с одной рукой, связанной за спиной. Из-за надвигающейся сложности сквозных интеллектуальных голосовых и дисплейных интерфейсов разработчики должны серьезно рассмотреть гибридный подход к интерфейсам.

Повышение эффективности и скорости работы систем генерации и распознавания речи позволило использовать их в таких приложениях и областях, как, например:

• военные (голосовые команды в самолетах или вертолетах, например, F16 VISTA),

• автоматическая транскрипция текста (речь в текст),

• интерактивные информационные системы (Прайм-Речь, голосовые порталы),

• мобильные устройства (телефоны, смартфоны, планшеты),

• робототехника (Cleverbot – системы ASR в сочетании с искусственным интеллектом),

• автомобильный (управление компонентами автомобиля без помощи рук, например Blue & Me),

• домашние приложения (системы умного дома).

Следите за безопасностью!

Автомобили, бытовая техника, системы отопления/охлаждения и домашней безопасности, а также множество бытовых приборов начинают использовать голосовые интерфейсы, часто на основе ИИ. На этом этапе данные, полученные в результате миллионов разговоров с машинами, отправляются в вычислительные облака. Совершенно очевидно, что ими интересуются маркетологи. И не только они.

В недавнем отчете экспертов Symantec по безопасности рекомендуется, чтобы пользователи голосовых команд не управляли функциями безопасности, такими как дверные замки, не говоря уже о домашних системах безопасности. То же самое касается хранения паролей или конфиденциальной информации. Безопасность искусственного интеллекта и интеллектуальных продуктов еще недостаточно изучена.

Когда устройства по всему дому прислушиваются к каждому слову, риск взлома и неправомерного использования системы становится чрезвычайно важной проблемой. Если злоумышленник получит доступ к локальной сети или связанным с ней адресам электронной почты, настройки смарт-устройства могут быть изменены или возвращены к заводским настройкам, что приведет к потере ценной информации и удалению пользовательской истории.

Другими словами, специалисты по безопасности опасаются, что искусственный интеллект, управляемый голосом и VUI, еще недостаточно интеллектуален, чтобы защитить нас от потенциальных угроз и держать рот на замке, когда о чем-то спрашивает незнакомец.