Что не является голосовым помощником
Перейти к содержимому

Что не является голосовым помощником

  • автор:

Говорит ИИ: что такое голосовые помощники и как их создают?

Говорит ИИ: что такое голосовые помощники и как их создают?

«Алиса, включи музыку», «Олег, установи лимит на траты», «Siri, поставь будильник»: это то, что мы часто говорим своим голосовым помощникам. Они также готовы помогать бизнесу: отвечать на звонки вместо оператора или продавать квартиры. Вместе с экспертами из компании Just AI и банка «Тинькофф» разбираемся, что происходит на рынке разговорного ИИ.

✌️Бонус в конце: рассказываем, как создать своего чат-бота.

Освойте профессию «Data Scientist»

Что происходит на рынке голосовых помощников?

Распространение голосовых помощников началось еще в 2010-х годах, когда на рынок вышли Siri и Google Assistant. Уже тогда ассистенты могли проложить маршрут, поставить будильник или же сделать напоминание.

Мы спросили голосовых помощников, для чего они созданы, но пока они не ответили однозначно:

  • Алиса предполагает, что ее могли придумать два программиста, которые понравились друг другу и создали бета-версию. И честно признаётся, что предпочитает не думать об этом.
  • Сири и Google Assistant выдают строку из Википедии о том, что помощники «помогают выполнять задачи для пользователей на основе полученной информации».
  • Олег теряется и говорит, что не хочет дезинформировать. Поэтому он удалится и вернется, как только удастся разобраться в происходящем.

Решайте амбициозные задачи с помощью нейросетей

Group 1321314349 (2)

Почти за десять лет они эволюционировали и стали привычной частью смартфонов и умных домов. По оценкам Just Al, в 2021 году было продано 2,9 миллиона умных колонок и других устройств с голосовыми ассистентами, а общее количество их пользователей составило 52 миллиона человек.

С 2018 по 2021 год российские пользователи купили более 4 миллионов умных колонок, экранов и ТВ-приставок. Лидерство получил Яндекс с Алисой, заняв 70% рынка. Сбер с ассистентами семейства «Салют» получил 21% продаж, а умные колонки «Капсула» с ассистентом Маруся от VK — 9%.

О чем хотят говорить пользователи?

Согласно исследованию Института общественного мнения «Анкетолог», чаще всего пользователи хотят отвлечься или уменьшить количество действий со своей стороны: послушать музыку, узнать информацию или погоду, набрать текст. Кажется, что общение с искусственным интеллектом — чистой воды развлечение, но нет.

Компании создают полезные навыки — это сторонние приложения внутри голосовых помощников, написанные на одном из языков программирования. Например, сама Алиса не умеет заказывать что-то в интернете, но компания «Водаком» создала навык, обратившись к которому, можно заказать воду домой или в офис.

Полезным и имиджевым навыком можно назвать «Больше муррчаний с Whiskas». Он рассказывает пользователям о том, как сделать жизнь домашних кошек лучше. Кстати, позаботились о домашних питомцах более 13 тысяч раз.

Так, на вопрос о том, чем пользователи интересуются чаще всего, Алиса назвала две просьбы: фильмы и котики.

Разговор с Алисой о частых запросах от пользователей

Навык «Краски Tikkurila» подбирает краску по запросу и находит ближайший магазин, где можно ее приобрести, а пиццерия Papa John’s позволяет оформить доставку без связи с оператором. Также с помощью голосовых помощников можно продавать более масштабные вещи, чем пицца: строительная компания «Инград» в Алисе получила 72 заявки на покупку и 2 закрытых сделки по продаже квартир.

По данным банка «Тинькофф», голосовой ассистент помогает решать 40% вопросов от клиентов без помощи оператора. Олега часто просят установить лимиты на траты, пополнить кредитку и посмотреть структуру своих расходов.

На просьбу показать доходы Олег предоставит полную статистику на месяц, а потом предложит выбрать интересующий период:

Разговор с ассистентом банка «Тинькофф»

Как устроена работа помощника и почему он нас понимает?

В кейсе Robovoice по созданию голосового помощника для автомобильной сети робот самостоятельно отвечал на вопросы 23% пользователей. Чтобы достичь такого результата, системе необходимо отделить речь человека от посторонних звуков и сопоставить фрагмент с закодированными сочетаниями звуков.

По словам Ивана Голубева, Solution Owner Just AI, для этого используются две системы распознавания: ASR и NLU. Automatic Speech Recognition (ASR) работает на то, чтобы точно уловить слова человека, несмотря на посторонние шумы. Natural Language Understanding (NLU) делает так, чтобы бот понимал собеседника в правильном контексте, запоминал его предыдущие ответы и не спрашивал дважды.

Обучение помощника может проходить несколькими способами:

  • rule-based-подход, когда есть программа, в которой уже заложены ответы. Бот распознает вопрос и выбирает самый уместный вариант ответа из базы;
  • генеративный подход, когда применяют машинное обучение и алгоритмы, которые, используя знания о языке, могут сгенерировать фразу на основании входящей реплики. Генеративным подходом можно назвать обучение Олега, который работает с помощью VoiceKit — собственной технологии «Тинькофф». Редакторы помогают ему обучаться с помощью открытых источников.

Чаще всего проблема с непониманием заключается в том, что произошел сбой в последовательности работы ASR и NLU. В таком случае просто не получается распознать звуки, и начинается игра в глухой телефон. Посторонние шумы, дефекты речи и акцент только увеличивают вероятность ошибки в распознавании.

Станьте дата-сайентистом и решайте амбициозные задачи с помощью нейросетей

Сколько стоит создание ассистента и что для этого нужно уметь?

Пока разработку собственных голосовых помощников могут позволить себе крупные компании. Например, разработка Олега обошлась «Тинькофф» примерно в 50 миллионов рублей и оправдала себя уже в первый месяц, когда позволила сэкономить столько же.

Чтобы разработать своего помощника, стоит определиться с тем, какие проблемы будет решать ИИ и какой результат получат пользователи. Сейчас технологии позволяют разработать как голосового помощника, так и чат-бота. Они оба распознают человеческую речь, но первый может сам выстроить логическую цепочку, а второй отправит автоматизированный ответ.

Если бюджет не позволяет разработать личного Олега, то лучше будет обратиться к экосистеме Сбера или Алисы, которые помогут разработать свой навык на их платформе.

Навыки для Алисы можно создать с помощью платформы Яндекс.Диалоги, а Сбер работает в SmartApp Studio. Тех, кто не умеет программировать, выручит визуальный конструктор от Яндекса или сторонний Dialogflower. На базе Aimylogic можно создать навыки почти для всех известных ассистентов.

По данным Just Al, создание чат-бота займет от недели до 3,5 месяцев и в среднем будет стоить от 250 до 300 тысяч рублей. При том можно заняться разработкой самостоятельно, и тогда придется оплатить лишь лицензию за использование конструктора, которая стоит от 5900 до 59 000 рублей в зависимости от количества пользователей.

Если проект масштабный, то лучше привлечь дополнительных специалистов:

  • проектного менеджера, который будет заниматься разработкой ТЗ и координацией процесса; -разработчика для создания алгоритмов распознавания речи и ее синтеза;
  • UI/UX-аналитика, чтобы проработать пользовательский опыт в продукте и создать для него оболочку; для выявления ошибок и сбоев.

Работа строится по следующей схеме. Первым этапом определяются требования и создается ТЗ. На проектировании проводятся анализ и разметка пользовательских данных и создание макетов интерфейса. При разработке нужно будет реализовать бизнес-логику и интеграции. А после этого протестировать навык и запустить его.

На курсе «Профессия Data Scientist» вы можете выбрать специализацию NLP-разработчик и получить нужные знания для создания голосовых навыков.

Разговоры с голосовыми помощниками действительно конфиденциальны?

Почти во всех маркетинговых материалах ассистентов говорится, что те «живут в облаке и становятся умнее». Это создает впечатление, будто процесс обучения проходит без участия человека.

Тем временем Bloomberg провели исследование, в ходе которого выяснили, что у Amazon есть специальный отдел независимых подрядчиков, которые слушают разговоры. Это необходимо для того, чтобы помощник лучше понимал контекст разговора. Так, они могут проверять, поняла ли Алекса, что Тейлор Свифт — певица. Но получают работники лишь малую часть информации для обучения искусственного интеллекта и не видят никаких данных о пользователе, кроме серийного номера устройства.

Система работает так, что голосовой ассистент в умной колонке слушает пользователя постоянно, но записывать данные начинает лишь в тот момент, когда произнесено его имя.

Иван Голубев, Solution Owner Just AI, объяснил, почему не стоит переживать за конфиденциальность:

«Надо понимать, что в момент настройки умной колонки мы соглашаемся на использование и обработку персональных данных. Если с помощью ассистентов мы пользуемся сервисами других компаний, то все они также становятся операторами данных.

Данные хранятся в облаке, вендоры уделяют их защите большое внимание, происходят шифрование и полная деперсонализация. Но для тех, кто хочет обезопасить себя самостоятельно, всегда есть ограничения на уровне самого устройства: можно отключить микрофон и камеру».

В банке «Тинькофф» также рассказали о безопасности ассистента:

«Общение с голосовым ассистентом Олегом от Тинькофф абсолютно конфиденциально и безопасно».

Как приживутся голосовые помощники в бизнесе?

В 2021 году количество пользователей, совершающих онлайн-покупки и обращающихся к компаниям через колонку, достигло 45 миллионов человек, говорится в отчете VoiceBot.

Сейчас крупным компаниям выгодно устанавливать роботов, так как они позволяют хорошо сэкономить. Директор департамента маркетинга ОАО «МТТ» Сергей Маслов объяснил, что Аэрофлот сохранил порядка 31 миллиона рублей на автоматической обработке звонков. Однако пользу это принесет не только большим корпорациям, но и среднему бизнесу, который может сократить до 70% расходов компании. Малый бизнес подключится в последнюю очередь, когда будут проверенные схемы взаимодействия.

Кирилл Петров, управляющий директор Just AI, рассказал, чего стоит ждать на рынке:

«Конечно, инвестировать в разработку собственных голосовых помощников все крупные компании не будут, более вероятный сценарий связан с чат-ботами. Разговорные интерфейсы будут дополнять коммуникации практически во всех каналах, где происходит взаимодействие бизнеса и клиентов. Чат-боты и голосовые помощники все чаще будут встречаться на сайтах, в мобильных приложениях, мессенджерах и социальных сетях».

Бонус от Just Al

Если вы хотите самостоятельно разработать чат-бота, то вот сборник уроков, который все объяснит.

Дата-сайентисты решают поистине амбициозные задачи. Научитесь создавать искусственный интеллект, обучать нейронные сети, менять мир и при этом хорошо зарабатывать. Программа рассчитана на новичков и плавно введет вас в Data Science.

Голосовые помощники: эволюция, устройство и основные игроки

DTI Algorithmic

Уточнить у Siri рецепт сырников во время готовки или попросить Алису прочитать сказку — вполне привычные для нашей жизни сценарии. А как это работает? Как звук превращается в понятные виртуальному помощнику команды, которые сразу же исполняются? Кто главные игроки на рынке? Какие еще заботы могут снять с нас голосовые помощники?

Редакция DTI Algorithmic собрала ответы на все эти вопросы — и помогали нам в этом наши программисты и союзники. В результате получился информационно насыщенный лонгрид, который мы будем публиковать по частям. Сегодня — про эволюцию голосовых помощников, их устройство и основных игроков на рынке.

Эволюция голосовых помощников

История голосовых ассистентов начинается с конца 1930-х годов, когда ученые начали предпринимать попытки распознать голос силами технологий. Тогда созданию качественного помощника мешали две большие проблемы:

  • существование омонимов — слов с одинаковым звучанием, но с разным значением,
  • постоянный шумовой фон, из которого система должна выбирать речь пользователя.

#справка Подробнее про историю и эволюцию технологии распознавания речи на Medium

Сейчас для решения этих проблем разработчики используют машинное обучение. Оно учит нейронные сети самостоятельно анализировать контекст и эффективно определять основной источник звука. Однако пришли разработчики к этому не сразу — потребовалось как минимум 80 лет подготовительных работ:

1939 год. Советский физик Лев Мясников создал аппарат, способный распознавать человеческую речь — несколько гласных и согласных звуков.

1952 год. Сотрудники лаборатории Bell разработали механизм, который распознавал продиктованные по телефону числа от 1 до 9.

1962 год. Компания IBM представила собственную технологию распознавания речи — Shoebox. Машина распознавала 16 английских слов, 10 цифр и 6 арифметических команд.

Презентация системы распознавания речи Shoebox от IBM

1980 год. Инженеры научились применять методы «Скрытой модели Маркова». Со временем это позволило голосовым системам лучше распознавать речь. Они обрабатывают слово, учитывая несколько предыдущих и предсказывая, что может с ними сочетаться.

#справка Скрытая модель Маркова описывает генерацию случайных событий в зависимости от текущего состояния объекта. Пример: человек может находиться в одном из четырех состояний и не в каждое их них может перейти сразу (схема ниже). Например, если человек лежит, то он не может моментально пойти куда-либо — нужно сесть, встать и только потом идти

1987 год. В США компания Worlds of Wonder начала продавать говорящую куклу Джулию, которая училась распознавать речь ребенка во время игры. В куклу был встроен процессор, который позволял ей реагировать и генерировать речь. Джули воспринимала восемь высказываний: «Джули», «да», «нет», «хорошо», «притворяйся», «голодна», «пой» и «молчи».

Реклама интерактивной игрушки — куклы «Джули»

1990-е годы. Появилась коммерческая программа Dragon Dictate, ориентированная на массовый рынок. Она распознавала речь и записывала надиктованный текст в файл.

1996 год. Появилось полноценное голосовое меню VAL от BellSouth. Система обрабатывала телефонные справочные запросы и помогала покупателям в поиске нужной информации об интересующих товарах.

Позже компания запустила Info by Voice — интерактивные голосовые «желтые страницы» с информацией о ближайших ресторанах, такси и некоторых магазинах. Система также могла рассказать о новостях и котировках акций, погоде, телепрограмме, гороскопе и спортивных событиях.

2001 год. Компания Microsoft добавила голосовой ввод текста в офисный пакет Office XP.

2002 год. Google запустил Voice Search — сервис для голосового поиска в интернете. Проект приостановили из-за неудобства использования — чтобы выполнить поиск, надо было позвонить на специальный номер. На Voice Search основан современный интерактивный помощник компании — Google Assistant.

2007 год. Центр исследования искусственного интеллекта SRI International начал разработку Siri. Siri стала первой голосовой помощницей — система умела не только искать информацию в интернете или работать как голосовое меню, но и вести с пользователем диалог.

2011–2014 годы. Google интегрировал функцию голосового поиска в браузер Chrome. Компания также запустила персонализированного ассистента Google Now с расширенными возможностями голосового поиска — сервис подбирал актуальную информацию с учетом местоположения пользователя, истории браузера и других поисковых запросов.

У Microsoft также появилась собственная виртуальная голосовая помощница — Cortana.

#интересное Ассистент Microsoft назван в честь персонажа из игровой серии шутеров Halo. Фразы для него записала актриса озвучки Джен Тейлор, озвучившая Кортану в игре

2014 год. Amazon представил первую в мире умную колонку Amazon Echo с голосовой ассистенткой Alexa.

#справка Alexa от Amazon была вдохновлена компьютерной голосовой и диалоговой системой на борту Starship Enterprise в научно-фантастических сериалах и фильмах вселенной «Star Trek»

2017 год. Alibaba представила умную колонку Tmall Genie с голосовым помощником AliGenie.

2018 год. Яндекс выпустил умную колонку Яндекс.Станция с голосовой помощницей Алисой.

2019 год. Банк «Тинькофф» запустил собственного голосового ассистента «Олега». Mail.Ru Group представила голосовую помощницу «Марусю».

Как устроены современные голосовые помощники

Голосовые помощники пассивно считывают все звуковые сигналы, и для активной работы им необходима активация при помощи кодовой фразы. Например, произнесите: «Окей, Google», потом можете задать свой вопрос или отдать команду без пауз.

Математик Ханна Фрай исследует, как работает программное обеспечение для распознавания голоса, используемое в в домашней технике.

В момент голосового запроса автоматическая система распознавания речи (ASR system) преобразовывает звуковой сигнал в текст. Это происходит в четыре этапа:

    Система убирает из звукового сигнала шумовой фон и помехи, возникающие при записи. Звуковые волны преобразуются в понятный компьютеру цифровой вид. Параметры получаемого кода в том числе определяют качество записи. В сигнале выделяются участки, содержащие речь. Система оценивает ее параметры — к какой части речи относится слово, в какой оно форме, насколько вероятна связь между двумя словами. Полученную информацию система включает в словарь — собирает разные варианты произношения одного и того же слова. Чтобы точнее распознавать новые запросы, ассистенты сравнивают слова в них с шаблонами.

Если после обработки запроса виртуальный помощник не понимает команду или не может найти ответ, он просит перефразировать вопрос. В некоторых случаях могут понадобиться дополнительные данные — например, при вызове такси ассистент может уточнить местоположение пассажира и пункт назначения.

Основные игроки на рынке

По данным Microsoft, самые популярные голосовые помощники в США — Google Assistant, Siri от Apple, Alexa от Amazon и Cortana от Microsoft. Русский язык из них понимают только первые два, однако на российском рынке также работает Алиса от Яндекса, а на китайском — AliGenie от Alibaba. Сравнили основные характеристики умных колонок с поддержкой этих пяти голосовых ассистентов:

Почему голосовые помощники до сих пор в аутсайдерах

Популярность ассистентов меняется волнообразно, от хайпа, накрывшего общество с появлением Siri, до тихого разочарования. За 25 лет существования технология все еще далека от идеала. Голосовые помощники не слышат собеседника, ошибаются и отвечают невпопад.

Эффективных бизнес-кейсов тоже немного. Samsung, выпустившая в 2017 году голосового помощника Bixby, практически перестала выпускать для него обновления. МТС анонсировала выход собственной колонки с ассистентом «Марвин» в декабре 2019 года, но так и не выпустила ее.

Мы решили разобраться, почему технология, обладавшая всеми перспективами для развития, так и не стала популярной. И что ждет в голосовых помощников в будущем — новый виток развития или медленная смерть.

Мы в Surf разрабатываем мобильные приложения и помогаем компаниям в цифровизации процессов.

�� Рассказываем об этом в наших кейсах.

✅ Подписывайтесь на наш блог на VC: в нем пишем про тренды и технологии мобильной разработки.

Чтобы понять, что происходило с голосовыми помощниками и что происходит с ними сейчас, нужно взглянуть на статистику.

По данным Consumer Intelligence Research Partners, в 2017 году количество виртуальных ассистентов на рынке США достигло 8,2 млн единиц. 2018 год негласно был объявлен «Годом голосового помощника» — число ассистентов, согласно отчету Voicebot.ai, перевалило за миллиард. В 2019 — за 3,25 млрд.

Но уже в 2020 году рост значительно замедлился. Количество программ увеличилось всего на 0,95 млрд. Это самый низкий показатель прироста за последние 4 года.

Объяснить причину падения всеобщего ажиотажа просто, если соотнести развитие технологии с кривой Гартнера. Это цикл зрелости, который описывает развитие любой инновационной бизнес-модели. Считается, что технология проходит пять этапов — «запуск», «пик завышенных ожиданий», «нижняя точка разочарования», «склон просвещения» и «плато производительности».

Массовый запуск голосовых помощников пришелся на 2010-2011 год. В AppStore была опубликована Siri, которую вскоре выкупила Apple Inc. Google интегрировала голосовой поиск в браузер Chrome и запустила персонализированного помощника Google Now, который трансформировался в Google Assistant.

Мини-революцией для технологии стал 2016 год. Google приобрел Dialogflow — облачный сервис распознавания естественного языка, который можно интегрировать с различными мессенджерами и фактически создавать собственных голосовых помощников. Казалось, теперь создавать своих помощников может любая компания даже с самыми скромными компетенциями в IT. Голосовые ассистенты плодились и множились.

Согласно опросу PwC, в 2018 году только 10% опрошенных американцев не использовали продукты с голосовой поддержкой. Технология вышла на пик популярности.

Но массовая осведомленность быстро принесла обратный эффект — разочарование. Опросы показывали, что большинство пользователей обращались к ассистентам только с простыми задачами — задать вопрос, узнать погоду, включить музыку, установить таймер.

Пользователи отмечали, что:

  • Не понимают, как доверить манипуляции с деньгами ассистенту, не способному ответить на простой вопрос.
  • Не до конца знают, как работают и что по-настоящему могут ассистенты, с какими запросами к ним обращаться.
  • Обеспокоены вопросами безопасности и испытывают неудобство, общаясь с ассистентами в публичном пространстве.

В 2018 году Ралука Будиу и Пейдж Лаубхаймер из Nielsen Norman Group предложили 12 респондентам описать их ожидания от идеального умного ассистента — лучшей версии Siri или Alexa.

Полученные ответы можно разделить на три группы:

  • Простые действия
  • Многоступенчатые действия или несколько последовательных действий
  • Многозадачные действия
  • Исследовательские действия

Вот несколько примеров ожиданий пользователей в каждой из групп:

Исследование помогло выявить 6 главных качеств голосового помощника, который мог бы обеспечить такой стиль взаимодействия:

В том формате, в котором технология существовала в 2018 году, она терпела поражение по всем пунктам, кроме, пожалуй, голосового ввода. Помощники:

  • Плохо понимали естественный язык, испытывали явные проблемы с распознаванием местоимений, длинных предложений.
  • Не всегда точно формулировали собственные ответы;
  • Использовали только минимальную контекстную информацию — геолокацию, контактные данные. Этого явно было недостаточно для сложных запросов;
  • Практически не использовали внешние источники информации, например, календарь или электронную почту;
  • Не интегрировались с другими приложениями и не использовали все возможности девайса, например телефона.

Юзабилити выглядело так, будто пользователя перенесли куда-то в 90-е. Запутанный интерфейс, туманное представление о возможностях технологии, линейное взаимодействие с пользователем. Это было простительно на заре технологической революции, но не в 2018-м, когда одни представители человечества запускали на орбиту автомобиль, а другие делали телефоны с Face ID.

Прошло почти три года, но голосовые помощники все еще находятся в «точке разочарования». Исследование Forrester показывает, как именно пользователи используют голосовые сервисы в 2020 году. Большинство совершают те же самые действия, что и в 2018 году — просто задают вопросы (83,1%) и справляются о погоде (77,1%). На вершине топа — включить музыку (88,7%).

Спустя три года технология по-прежнему топчется на месте. Отчет PwC сегодня читается так, словно был написан несколько месяцев назад. Пользователи до сих пор сталкиваются с теми же проблемами. Голосовые помощники:

не понимают акцент/особенности дикции;

ошибаются, путают данные и вместо того, чтобы позвонить другу, зачитывают статью из Википедии;

вызывают вопросы в части, касающейся защиты персональных данных — достаточно вспомнить публичные извинения Apple, прослушивавшей разговоры ничего не знавших пользователей;

не решают проблему пользовательского опыта — не всем нравится прилюдно разговаривать с телефоном, колонкой или чайником.

Как и раньше, голосовые помощники остаются непопулярным инструментом для покупок и плохо развиваются в e-commerce-среде. Хотя компании по-прежнему не оставляют попыток использовать возможности технологии в коммерции. Есть успешные кейсы, в которых голосовой ассистент помогает решать локальные задачи бизнеса. Например, Surf разработал концепт для ресторана KFC. Клиенту помогает сделать заказ виртуальный полковник Сандерс. Пользователь может общаться с ним, как с кассиром. С помощью полковника Сандерса можно:

  • быстро посмотреть нужный раздел меню, сказав «Покажи мне все бургеры»;
  • найти самое выгодное по цене блюдо: «Покажи мне все бургеры по акции»;

изучить новинки, близкие по вкусу. Система автоматически обрабатывает заказы постоянного клиента и предлагает попробовать блюда, схожие по составу;

заказать доставку домой. Если клиент заказывает не первый раз, ему не нужно говорить адрес и вводить контакты. Заказ оформляется в несколько раз быстрее;

По данным рекламной сети AdColony за 2019 год, 61% покупателей предпочитает покупать у ритейлеров, которые позволяют изучить товар в дополненной реальности. Чтобы приложение максимально подтолкнуло клиента к покупке, мы предложили в пару к голосовому ассистенту использовать AR-режим для любого блюда.

Таким образом, голосовой ассистент помогает клиенту почувствовать себя так, будто он находится в реальном ресторане. Заказ блюд делается предельно быстро, компания может продать больше и сэкономить на обслуживании бизнеса.

В остальных сферах голосовые помощники все еще не самодостаточны. На пути развития технологии до сих пор стоят серьезные препятствия:

  • Есть сложности с интерфейсом ввода и вывода. Вспомните, как часто вам хотелось показать Алисе, что вы имеете ввиду: «Смотри, вот такую куртку мне надо найти на Али — но чтоб зеленая и покороче».
  • Есть трудности с эмоциональным восприятием помощников и общением с неживыми предметами. Голос удобен для управления, но в контексте человеческого общения он не существует сам по себе. Огромное значение имеет интонация, порядок слов — нюансы, к восприятию которых искусственный интеллект приблизился лишь отдаленно.

Самый понятный и популярный сценарий для виртуальных помощников сегодня — интеграция с аудиостриминговыми сервисами. Голос — естественный и удобный способ управления музыкальным потоком. Музыка как настроенческая область сама подталкивает нас к голосовому взаимодействию.

В отличие от сервисных запросов — «купи бананы» или «позвони бабуле» — здесь менее всего важна точность. Напротив, пользователи стремятся уйти от детализации. On demand обращения уступают место сложным и абстрактным формам: не «поставь КиШа», а «поставь что-нибудь бодрое».

Это значит, что мы готовы воспринимать умную колонку не как коробочку с программой, а как полноценного собеседника. Хотим общаться с ней на высоком уровне, ждем отклика на свои эмоции. И системы постепенно начинают этому соответствовать, самообучаясь и усиливая навыки кастомизации.

Именно поэтому наибольшее развитие голосовых помощников происходит в музыкальных сервисах — Spotify, Яндекс.Музыка, умные колонки, которые большинство пользователей использует только для того, чтобы слушать музыку. Сегодня аудиостриминговые приложения — единственная область, в которой возможности виртуальных ассистентов раскрываются полностью и соответствуют ожиданиям потребителя.

Системы станут самодостаточными, по-видимому, только когда дополнятся другими девайсами. Например, AR-очками, которые добавят к голосовому управлению визуальный компонент.

Речь идет не об отдельных кейсах использования виртуальных ассистентов, а о создании новой системы коммуникации XR — extended reality.

XR станет новым информационным слоем в пространстве. Она объединит технологии AI, VR, MR и AR в единый способ взаимодействия с окружающей средой. В нем голосовое управление будет естественно сочетаться с другими компонентами. В тот момент, когда вы, надев AR-очки, сможете сказать Алисе: «Смотри, какой ресторан, добавь-ка его мне на карту и поищи похожий рядом с домом» — можно будет говорить, что голосовые помощники стали полноценной частью нашей жизни.

В нашем блоге на VC много рассказываем про тренды и мобильную разработку:

В этой статье рассказали, как цифровизация меняет ритейл

Тут разобрали, стоит ли бизнесу вкладываться в AR

А здесь посмотрели, как банки применяют AR, чат-ботов и другие тренды

Подписывайтесь на наш блог на VC.

Что не является голосовым помощником

Обзор рынка голосовых ассистентов с точки зрения пользователей и бизнеса: цифры, вызовы, перспективы.

С появления первых голосовых помощников прошло 25 лет, а технология всё ещё далека от совершенства. Алисы, Сири и Алексы не слышат собеседников, ошибаются, отвечают невпопад и не вызывают доверия у большинства пользователей.

Разберёмся, почему так происходит, как сегодня используются голосовые сервисы и есть ли перспективы развития у этой технологии.

Surf уже более 10 лет занимается разработкой мобильных приложений, в том числе банковских. Среди наших клиентов Росбанк, Магнит, KFC, «Лабиринт» и многие другие.

Как работает виртуальный помощник

Чтобы пользователь получил ответ, программа проходит пять этапов.

Убирает фоновый шум.

Преобразует звук в цифровой код.

Выделяет речь, анализирует отдельные слова и связь между ними.

Сравнивает полученную информацию с шаблонами. Система ищет варианты, как слово произносится. Если слово для неё новое, она так же сравнивает его с шаблонами. Когда голосовой помощник не может найти ответ, не понимает команду, то просит пользователя задать вопрос по-другому.

Выдаёт ответ, ориентируясь на библиотеку шаблонов и поведение пользователя в сети, его прошлые запросы в поисковых системах, геолокацию.

Программа может вступить в диалог, если ей не хватает данных. Например, уточнить, куда пользователь хочет поехать, если тот вызывает такси.

Несовершенная технология

Хотя схема выглядит стройной и понятной, она по-прежнему изобилует багами. Только за прошлый год голосовые помощники спровоцировали несколько довольно громких инфоповодов.

Например, Алиса по ошибке выдавала личный номер тверского пенсионера за номер администрации города Конаково. В итоге на бывшего мэра, давно ушедшего на пенсию, обрушилась лавина звонков горожан, желающих заказать пропуск. Та же Алиса вгоняла пользователей в ступор открытой критикой президента и фразами о том, что «он попал в Кремль случайно». А Siri неоднократно путала гимн стран Балтии с гимном СССР, включая жителям Эстонии и Латвии «Союз нерушимый».

Это лишь некоторые из ошибок, просочившихся в сеть. Куда больше милых багов, с которыми мы сталкиваемся при ежедневном взаимодействии с голосовыми помощниками. Но они по-прежнему пользуются спросом. По итогам 2020 года, объём мирового рынка умных колонок составил 154 млн единиц, увеличившись на 58% (аналитика компании Omdia).

За что мы их любим

Люди говорят почти в четыре раза быстрее, чем печатают. Голосовой помощник помогает быстрее ввести данные и получить ответ. Конечно, при условии, что программа чётко распознала речь и нашла шаблон в базе данных.

Голосовым приложением чаще пользуются, когда заняты руки. По этой причине из голосового приложения на смартфоне помощники быстро перекочевали в музыкальные колонки и умный дом. Можно заниматься домашними делами и параллельно заказывать еду из ресторана, не отвлекаясь на нажатие кнопок.

Голосовые чатботы заменяют десятки сотрудников. Бизнесу выгоднее вложиться в разработку голосового помощника, ведь бот может общаться с сотнями клиентов одновременно, не уставать и не бегать покурить каждые полчаса.

Помощника можно персонализировать. Изменить голосовые команды, дать имя ассистенту вместо «заводского» и даже выбрать голос, чтобы о погоде и курсах валюты вам рассказывал Трамп или Баста.

Просто интересно. Каждый хотя бы раз так делал: задавал Алисе странный вопрос, а потом издевался над её ответом. А как ещё мог бы появиться баг с критикой Путина?

Что бесит в голосовых помощниках

Бот не понимает команды. Когда десять раз просишь включить ребёнку сказку про муми-тролля, а колонка десять раз включает Лагутенко, рано или поздно приходишь к мысли, что проще было бы написать.

Сложнее преодолеть языковой барьер. Текстовый запрос можно быстро перевести онлайн-переводчиком, а голосовой ассистент общается на ограниченном наборе языков.

Неловко как-то. Легче всего в контакт с голосовыми помощниками вступают зумеры. Бумерам, поколению 1990-х и даже миллениалам трудно заставить себя разговаривать с колонкой, чайником или утюгом. Ощущение идиотизма ещё сильнее, если приходится общаться с техникой в публичных местах.

Использовать голосовую команду для поиска информации без визуала сложно. На вопрос «Сколько времени?» ответ однозначный. А покупка техники, выбор отеля или ресторана уже требуют в ответ фотографии и видео.

Проблемы с защитой персональных данных. Например, Siri можно активировать, когда телефон находится в фоновом режиме. А значит, любой человек может включить ассистента и выполнить какие-то действия. Известный пример: в 2019 году Apple официально принесла извинения за то, что нанимала субподрядчиков, прослушивающих записи разговоров пользователей. В большинстве случаев запись включалась автоматически после того, как юзер произнёс ключевую фразу: «Привет, Siri». По словам Apple, прослушивание велось для того, чтобы повысить качество распознавания речи.

Кто пользуется голосовыми помощниками

Примерный портрет типичного любителя умных колонок — молодой человек в возрасте от 16 до 34 лет. Он с одинаковым успехом может быть как юношей, так и девушкой — статистика показывает, что голосовыми помощниками пользуются оба пола.

А ещё пользователь, вероятнее всего, китаец, так как наиболее популярны виртуальные помощники именно там. Вводить текстовые запросы на китайском довольно сложно, голос стал хорошей альтернативой. Да и в целом китайцы охотнее принимают новые технологии.

Поколения по-разному используют помощников. В рамках исследования «Будущее голосового поиска» портал Search Engine Watch сравнил запросы к голосовому помощнику подростков и взрослых:

Сценарии использования в бизнесе

Чаще всего боты заменяют менеджеров на входящих звонках и обзвоне. Один робот способен обработать за день до двух тысяч звонков. Компания может быстро окупить вложения на разработку помощника, убрав расходы на зарплаты, аренду площади, телефонию и интернет.

Голосовой ассистент может решать и локальные задачи бизнеса. Например, в числе кейсов Surf есть концепт для ресторана KFC. Клиенту помогает сделать заказ виртуальный полковник Сандерс. Пользователь может общаться с ним, как с кассиром.

С помощью полковника Сандерса можно:

быстро посмотреть нужный раздел меню, сказав «Покажи мне все бургеры»;

найти самое выгодное по цене блюдо: «Покажи мне все бургеры по акции»;

изучить новинки, близкие по вкусу. Система автоматически обрабатывает заказы постоянного клиента и предлагает попробовать блюда, схожие по составу;

заказать доставку домой. Если клиент заказывает не первый раз, ему не нужно говорить адрес и вводить контакты. Заказ оформляется в разы быстрее;

По данным рекламной сети AdColony за 2019 год, 61% покупателей предпочитает покупать у ритейлеров, которые позволяют изучить товар в дополненной реальности. Чтобы приложение максимально подтолкнуло клиента к покупке, мы предложили в пару к голосовому ассистенту использовать AR-режим для любого блюда.

Таким образом, голосовой ассистент помогает клиенту почувствовать себя так, будто он находится в реальном ресторане. Заказ блюд делается предельно быстро, компания может продать больше и сэкономить на обслуживании бизнеса.

Другой пример использования голосового помощника — семейство виртуальных ассистентов Сбербанка. Это кейс с прицелом на кастомизацию: помощников три, каждый со своим характером, голосом и целевой аудиторией. Количество сценариев соответствует широкому диапазону запросов: можно переводить деньги, записываться к парикмахеру, болтать, искать рецепты.

Juniper Research утверждает, что к 2024 году потребители будут взаимодействовать с голосовыми помощниками на более чем 8,4 миллиарда устройств. Казалось бы, такая статистика предвещает расцвет популярности голосовых помощников, что ведёт к росту кейсов, связанных с технологией. Но если всмотреться внимательнее, всё не так однозначно.

Что ждёт голосовых помощников в будущем

Исследование Forrester среди американских пользователей показывает, что заказ или повторный заказ товаров является самым непопулярным запросом (не более 5%). Чаще пользователи просто задают вопросы (83,1%) и справляются о погоде (77,1%). На вершине топа — включить музыку (88,7%). То есть большинство владельцев умных девайсов используют их исключительно как аудиоустройства.

Интеграция с аудиостриминговыми сервисами — самый понятный и популярный сценарий для виртуальных помощников. Голос — естественный и удобный способ управления музыкальным потоком. Музыка как настроенческая область сама подталкивает нас к голосовому взаимодействию.

В отличие от сервисных запросов — «купи бананы» или «позвони бабуле» — здесь менее всего важна точность. Напротив, пользователи стремятся уйти от детализации. On demand-обращения уступают место сложным и абстрактным формам: не «поставь КиШа», а «поставь что-нибудь бодрое». Это подтверждает готовность аудитории воспринимать голосового помощника как систему, потенциально способную на сложное, почти человеческое взаимодействие. И системы постепенно начинают этому соответствовать, самообучаясь и усиливая свои навыки кастомизации.

Именно поэтому наибольшее развитие голосовых помощников происходит не в ecommerce, фудтехе или в сфере госуслуг, а в музыкальных сервисах. Сегодня аудиостриминговые приложения — единственная область, в которой возможности виртуальных ассистентов раскрываются полностью и соответствуют ожиданиям потребителя. В остальных сферах голосовые помощники всё ещё не самодостаточны.

После периода завышенных ожиданий 2018–2019 годов, когда ИТ-компании одна за другой анонсировали выход умных колонок, кривая hype cycle вывела технологию на новый виток — избавления от иллюзий.

Оказалось, что на пути развития технологии стоят серьёзные препятствия. Есть сложности с интерфейсом ввода и вывода (вспомните, как часто вам хотелось показать Алисе, что именно вы имеете в виду). Есть трудности с эмоциональным восприятием помощников и общением с неживыми предметами. Голос удобен для управления, но в контексте человеческого общения он не существует сам по себе. Огромное значение имеет интонация, порядок слов — нюансы, к восприятию которых искусственный интеллект приблизился лишь отдалённо.

Но дело не только в способности голосовых помощников воспринимать эмоции или инверсию. Системы станут самодостаточными, по-видимому, только когда дополнятся другими девайсами. Например, AR-очками, которые добавят к голосовому управлению визуальный компонент.

Речь идёт не об отдельных кейсах использования виртуальных ассистентов, а о создании новой системы коммуникации XR — extended reality. Она объединит технологии AI, VR, MR и AR в единый способ взаимодействия с окружающей средой, в котором голосовое управление будет естественно сочетаться с другими компонентами.

XR станет новым информационным слоем в пространстве.

В тот момент, когда вы, надев AR-очки, сможете сказать Алисе: «Смотри, какой ресторан, добавь-ка его мне на карту и поищи похожий рядом с домом» — можно будет говорить, что голосовые помощники стали полноценной частью нашей жизни.

Какой вывод можно сделать из этой гипотезы? Ждём появления нового технологического чуда — AR-очков от Apple или Microsoft. До тех пор голосовые помощники смогут развиваться лишь линейно, оттачивая мастерство точного распознавания человеческой речи или даже эмоций. Пока этого вполне достаточно, чтобы отполировать технологию. И подготовить её к чему-то большему.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *