Людям #3: Разговорные интерфейсы

42

Вы читаете перевод статьи “Conversational User Interfaces”. Над переводом работали Nancy Pong и Ринат Шайхутдинов. При поддержке iSpring.

iSpring — решение для запуска дистанционного обучения.


←Apple, человечный с самого начала | Умное будущее→

Повсеместное распространение разговорных опытов взаимодействия лишний раз напоминает нам, насколько просто стало взаимодействовать при помощи компьютеров. Люди моложе 30 наверное удивятся, если я скажу, что раньше большинство компьютеров выглядело как в фильме “Хакеры”:

Интерфейс, каким мы привыкли видеть его сегодня, называется графический пользовательский интерфейс (graphical user interface, GUI). Развитие таких интерфейсов началось в 1980-х с подачи Xerox, Apple и Microsoft. Ранние компьютеры были полностью ориентированы на текст: взаимодействие с компьютером было таинственным, сложным процессом ввода базовых команд в строку на экране (как показано на картинке выше).

Графический интерфейс сделал компьютеры более понятными, дружественными и доступными обычному человеку, и сейчас ГИ является стандартом для всех персональных устройств.

В широком смысле графические интерфейсы конечно стали гораздо более дружественными и визуально привлекательными, но и у них есть свои недостатки. Если вам приходилось сталкиваться с неприятным опытом бронирования билетов на самолет или заказа столика в ресторане, вы скорее всего испытали на себе кучу несогласованных текстовых полей, выпадающих списков и непонятно где расположенных кнопок.

Прибавьте к этому всему массовый (и полный приключений) переход на мобильные устройства, где недостаточно экранного пространства для отображения всех необходимых элементов страницы — и получите громоздкий пользовательский опыт в 20 кликов и 8 разных экранов. Тут добрым словом вспомнишь стационарные телефоны и бумажные справочники! Плохо спроектированный сайт или мобильное приложение способны превратить 2-минутный заказ столика в 20-минутное мучение.

А теперь подумаем о такой возможной альтернативе:

Как здорово было бы просто написать в телефоне: “Столик на 5 человек @Momofuku в 7 вечера”?

В этом то и сила набирающей обороты разработки под названием “разговорный интерфейс” (CUI, conversational user interface). С его помощью мы осознали, что иногда проще поговорить с компьютером, чем кликать, тыкать и смахивать в неловкой попытке пробраться через плохо спроектированный опыт взаимодействия.

Если вы живете в восточном полушарии, то возможно уже сталкивались с разговорными интерфейсами. Популярное в Азии приложение WeChat тесно интегрировано с огромным количеством китайских компаний, и многие приложения, которые мы привыкли скачивать, изначально существуют внутри мессенджера. Более того, многие компании, которым необходимо собственное мобильное приложение или сайт, просто создают аккаунт в WeChat. Если вы открываете бизнес в Китае, то скорее всего в его основе будет лежать какой-то мессенджер, а значит клиенты смогут общаться с вами напрямую в режиме реального времени.

Источник: Дэн Гровер

Вот переведенный макет:

Источник: Рон Палмери

Платформы мессенджеров начинают поддерживать весь спектр мультимедийного контента, раздвигая границы интерфейса. Другими словами, мессенджеры становятся тем местом, куда можно встраивать мини-приложения, чтобы предоставить пользователю мгновенный доступ к полезным функциям, включая медиа плееры, игры, платежи и фототграфии.

Источник: Томаш Штольфа

Компании типа Operator, которые лидируют на американском рынке, обеспечивают приятный опыт, основанный на тексте, но дополненный визуальными элементами или базовыми командами.

Самая привлекательная особенность разговорных интерфейсов лежит на поверхности: они разговорные. И хотя большинство разговоров, которые мы ведем в рамках этих интерфейсов, происходит с другими людьми, искусственный интеллект постепенно заменит нас по мере своего развития. В идеале мы сможем вести увлекательные беседы о том, что нам важно, а не просто о продуктах, которые нам интересны. Сири — это хорошее начало, но все же мы говорим ей, а не с ней.

Пока технологии не научатся улавливать тончайшие аспекты нашего общения — выражения лица, тон голоса, язык тела — текст останется идеальным средством общения для ИИ. Возможно сейчас общение с искусственным интеллектом не так привлекательно, как разговоры Хоакина Финикса с его OS в фильме “Она”, но это первый шаг в этом направлении.

Вы читаете “Дизайн для людей”

Дизайн для людей — это интерактивное эссе, посвященное прошлому, настоящему и будущему антропоморфного дизайна. Вы читаете часть 3 из 7.

Искусственный интеллект

Алан Тьюринг с самого начала знал, что машинам будет сложно перенимать и имитировать незначительные людские жесты, которые являются неотъемлемой частью общения. Именно поэтому в оригинальной версии своей “игры в имитацию” (эксперимента, цель которого выяснить, может ли машина имитировать человека) Тьюринг дал компьютеру некую фору.

Игра в имитацию — ныне известная нам как тест Тьюринга — изначально подразумевала участие трех игроков: игрок A (компьютер), игрок B (человек) и игрок C (человек). Игрок C задает вопросы и получает ответы в письменной форме, и его задача — определить, кто из игроков человека, а кто — компьютер.

Тьюринг утверждал, что только когда компьютер будет обыгрывать человека в 70% случаев, мы сможем утверждать, что у него есть интеллект.

Конечно в 1950 году, когда разрабатывался тест, компьютеры были очень далеки от сегодняшних мощных речевых возможностей, поэтому тесты проводились (и до сих пор проводятся) в текстовой форме. Сам тест за последние 65 лет тест неоднократно видоизменялся, но суть остается неизменной: сможет ли компьютер в ходе разговора убедить нас, что он человек?

Одной из самых ранних версий виртуального собеседника была Элиза, спроектированная профессором Массачусетского технологического института Джозефом Вейзенбаумом в 1966 году. Программа была названа в честь героини пьесы Бернарда Шоу Элизы Дудитл. Пользователь общался с программой посредством электронной печатной машинки.

Вейзенбаум положил в основу своей программы техники терапии Рогерианской, в рамках которой психиатр задает пациенту пассивные наводящие вопросы, не требующие обширных знаний по теме или глубокой вовлеченности в разговоре. Пользователь вводил свою реплику в программу, Элиза анализировала ключевые слова — например “мама”, “головная боль”, “семья” — и подбирала подходящий ответ из огромной базы данных. Если распознать ключевые слова не удавалось, Элиза просто генерировала общий ответ для поддержания разговора.

Элиза: Тебя что-то беспокоит?

Вы: Меня бросила мать.

Элиза: Расскажи мне подробнее о твоей семье?

Вы: Мы сейчас живем в Нью Йорке, но вообще мы из России.

Элиза: Ты до этого говорил, что тебя бросила мать.

Вы: Да, говорил.

Элиза: Расскажи мне об этом.

Вы: Я не видел свою мать уже очень давно.

Элиза: Что еще приходит в голову, когда ты думаешь о матери?

Вы: Я думаю о детстве.

Элиза: Для тебя важно, что у тебя есть детство?

Вы: Что ты имеешь в виду?

Элиза: Мы говорим о тебе, а не обо мне.

Элиза почти всегда выдает себя через несколько реплик своим поверхностным общением, но вот простая, пассивная манера ведения разговора очаровывает пользователя. На самом деле некоторые коллеги и студенты Вейзенбаума очень сильно эмоционально привязались к программе.

“Моя секретарша, которая долгое время была свидетелем моей работы над проектом и уж точно знала, что Элиза — это просто программа, как-то начала с ней разговаривать. Несколько реплик спустя, она попросила меня выйти и оставить их с Элизой наедине”.

Как видно из этого случая, Вейзенбаум обнаружил нечто тревожное: люди относились к боту, словно он был реальным, мыслящим существом, искренне заинтересованным в их состоянии — хотя и знали, что это лишь компьютерная программа. Это состояние сегодня так и называют — ”Эффект Элизы”. И хотя оно не всегда выражается в такой яркой форме, как описано выше (люди не всегда просят побыть наедине с роботом), это заставило Вейзенбаума стать ярым критиком ИИ.

Эффект Элизы — это яркий пример того, как объект (в данном случае печатная машинка) может выстроить эмоциональную связь с человеком за счет лишь нескольких рудиментарных элементов “человечности”. Чтобы очеловечить клавиатуру достаточно было базовой разговорной программы.

Объект может выстроить эмоциональную связь с человеком за счет лишь нескольких рудиментарных элементов “человечности”.

Хотя Элиза оказывала мощный эффект на людей, с которыми она взаимодействовала, кое-чего все же не хватало: а именно эмоционального и эстетического интеллекта. Если вернуться к концепции “игры в имитацию” Тьюринга, мы поймем, что это была лишь версия игры для вечеринок, где мужчина должен убедить другого игрока, что он — женщина.

В основе этой игры лежит эмпатия. Конечно, лучший способ убедить другого игрока в вашей принадлежности к противоположному полу — это поставить себя на место представителя этого пола, перенять его/ее опыт и как можно лучше играть роль.

И хотя современные версии Элизы стали гораздо совершеннее — они способны поддерживать разговор в течение нескольких минут, не будучи раскрытыми — в их основе все равно лежат сложные алгоритмы, которые не способны “понимать” получаемую и передаваемую информацию. Эта особенность хорошо объясняется при помощи эксперимента с “китайской комнатой”. В ходе эксперимента человек, который не знает китайского, находится в изолированной комнате и при помощи инструкции формирует ответы на вопросы, которые получает через специальный слот. Конечно, с технической точки зрения обмен сообщениями будет осуществляться без сбоев, но человек не будет понимать сути разговора.

То есть получается, что одним из главных препятствий на пути развития ИИ является не способность “обмануть” игрока-человека (как предполагал Тьюринг), а способность понимать полученную информацию и, как следствие, сопереживать собеседнику. На видео ниже мы видим, как вышеупомянутый ИИ может участвовать в беседе, но его последний ответ говорит о том, что он вообще не понимает сути:

Очеловечивание технологий

Искусственному интеллекту посвящена отдельная область информатики, а компании используют разработки в этой области в практических целях, внедряя их в привычные продукты.

Эми — это приложение с одним простым назначением: помогать вам планировать и организовывать ежедневные встречи. Самой приятной чертой Эми является то, что она воспринимается нами как человек. Чтобы активировать Эми, нужно просто поставить ее в копию письма, которое вы пишете по поводу встречи — и она включится в работу как настоящий ассистент. У Эми есть доступ к вашему календарю, поэтому она знает, когда вы свободны. Она также знает, где вы любите проводить встречи: потому что всякий раз, когда вы находите приятное местечко, можно послать ей быстрое сообщение. Но самая “человеческая” особенность Эми — это ее способность разбирать ваши письма.

Как видите, Эми — это больше чем просто чат-бот. Она также может хранить информацию о предыдущих встречах и строить на ней свои предположения. Она в определенной степени независима. Она способна делать “выводы”, которые буквально пару лет назад мог делать только человек. По мере развития разговорных интерфейсов и их адаптации к нашим привычкам, взаимодействие с ними становится все более тонким. Компании вроде Google, Facebook и Amazon уже знают, как мы ведем себя в сети и на рынке, но разговорные интерфейсы будут так же близки нам, как друзья или коллеги.

Двигателем этой технологической разработки выступает процесс, известный нам как глубинное обучение. По своей сути, глубинное обучение позволяет программам распознавать сложные паттерны в звуках, изображениях и других массивах данных путем обработки огромных объемов информации и анализа того, как эта информация согласуется с введенным запросом. Самым впечатляющим применениям этого процесса была разработка IBM — суперкомпьютер Watson, который стал чемпионом мира по телевикторине Jeopardy! (российский аналог — ”Своя игра”) и теперь используется для помощи врачам в определении диагноза и назначении пациентам лечения.

Разговорные интерфейсы благодарят за ваше терпение…

До этого мы обсуждали потенциал, которым обладают разговорные интерфейсы в развитии человеко-компьютерного взаимодействия, но пришло время обсудить и недостатки этой технологии в том виде, в каком она есть сейчас.

Посмотрите на пример выше: то, что задумывалось как легкое, увлекательное общение с компьютером, больше напоминает автоматизированную очередь, которую мы проходим при звонке, к примеру, в банк. А это мучительный процесс, который всегда кажется обезличенным и гораздо более долгим, чем заняло бы короткое объяснение своего запроса оператору.

На самом деле, компания-автор этого взаимодействия сделала слишком сложный ход: заставила нас работать с разговорным интерфейсом по тем же правилам, по каким мы работаем с графическим. Ввод чисел в телефон вручную далек от ощущения реального общения.

Даже у Siri, самого технологически развитого разговорного интерфейса на сегодняшний день, есть свои недостатки. Siri прекрасно справляется, если надо порекомендовать ресторан, подобрать рецепт или указать направление, но ей сложно понять деликатные нюансы вопроса. Хорошо известен случай, когда Siri дала потенциальному самоубийце инструкции, как добраться до магазина оружия. В другой раз, Siri сказала взволнованной матери, что то, что ее дочь подверглась сексуальному насилию, “не проблема”.

Текстовая коммуникация без сомнения находится на ранних стадиях развития, и возможно технологии распознавания голоса со временем научатся считывать наш тон разговора со всеми его мельчайшими деталями. Тем не менее, ни текстовое общение, ни распознавание голоса не принимают во внимание выражения лица и язык тела: а именно на них будут сильно полагаться интерфейсы будущего. Хотя у разговорных интерфейсов большой потенциал, только искусственный интеллект сможет вывести машины на новый уровень развития.

В идеале, по мере развития ИИ мы сможем взаимодействовать с машинами различными способами: посредством текста, голоса, графического интерфейса, температуры тела или других неуловимых жестов, которые появляются в контексте обстоятельств или по желанию пользователя. Возможно, машины так хорошо нас изучат, что взаимодействия станут совсем невидимыми.

Мы сможем взаимодействовать с машинами различными способами: посредством текста, голоса, графического интерфейса, температуры тела или других неуловимых жестов.

К примеру, мне бы не хотелось вытаскивать телефон, вводить пароль и сообщать моему дому, что я прибыл. Вместо этого, мой дом будущего будет чувствовать мое приближение, распознавать лицо и открывать дверь за долю секунды до того, как я возьмусь за ручку. Возможно, если я захочу ощутить собственную важность, дверь будет открываться автоматически.

Эти возможности отражаются также в современной поп культуре. Вспомните OS из фильма “Она”: как она за секунду и по одному лишь вздоху делает вывод об отношениях героя с мамой. Эта способность уловить сложности в отношениях по простой паузе в разговоре намекает нам, что устройства будущего смогут перенять нашу способность воспринимать незначительные эмоциональные сигналы.

Компьютеры постепенно учатся собирать и анализировать данные подобно людям.

Еще рано загадывать, когда именно появятся такие интерфейсы и как они будут выглядеть и работать, но данные об эмоциях уже исследуются и применяются на практике. Посредством пассивных сенсоров, которые передают информацию о психическом состоянии и поведении пользователя, компьютеры постепенно учатся собирать и анализировать данные подобно людям.

К примеру, видео камеры могут захватывать выражения лица, позы и жесты, а микрофоны и другие аудио устройства передают нюансы речи. В то же время, медицинские аппараты уже давно умеют отслеживать физиологические показатели: температуру тела и сердечный ритм. Благодаря способности искусственного интеллекта собирать воедино все эти данные, мы сможем глубже взаимодействовать с нашими устройствами.

Дизайн для людей

Интерактивное эссе, посвященное прошлому, настоящему и будущему антропоморфного дизайна.

1: Дизайн для людей

2: Apple, человечный с самого начала

3: Вы здесь!

4: Умное будущее

5: Эмоциональные машины

6: Компьютеры тоже плачут

7: День, когда ты станешь киборгом

.

.

Спасибо за внимание

Это интерактивное + развивающееся эссе. Пожалуйста, пишите, если у вас есть идеи по поводу нового контента, модификаций текущих статей или чего-то еще.

Привет, я Дэниэл. Я основал несколько компаний, включая Piccsy и EveryGuyed. Сейчас я подумываю начать новую карьеру или заняться консалтингом. Пишите на почту.



Мобильное приложение «Заметки о психике» | Mental Notes

Подкидывает идеи, как привлечь, удержать и направить внимание пользователя.

Mental notes — это колода из 53 карточек с описанием психофизиологических моделей поведения людей, которые лежат в основе принципов веб-дизайна. Они помогают дизайнерам, проектировщикам лучше понять поведение пользователей и найти эффективные решения при создании дизайна интерфейсов.

Скачать приложение в Appstore →
Эссе «Дизайн для людей»

Посты в категории Продуктовый дизайн

Сосредоточьтесь на джобе, а не на клиенте

Ольга Жолудова

23 апреля 2019

Посты в категории Продуктовый дизайн

10 фишек разработки продуктов, которым я научился у Джейсона Фрайда

Ольга Жолудова

23 января 2019

Посты в категории Продуктовый дизайн

MVP умер. Да здравствует RAT.

Ольга Жолудова

17 января 2019