“声” と “プログラマブル” に感じる違和感のはなし。

こんにちは。hugtech.io です。普段はプログラマーとしていくつかのStartupさんのお手伝いをしながら、Alexa をはじめとしたVUI 界隈を漂っております。先日、Voice UI/UX Designer Meetup にお邪魔して、とても感じるところがあったので参加レポートもかねて書きます。

Voice UI/UX Designer Meetupとは?

@vui_rie が日本で主催する VUI Designer のためのコミュニティです。Developer が多い中で デザインにフォーカスしてくれるコミュニティは貴重です。

スピーカーのかたたちも、こんな素晴らしい資料を惜しげも無くUPしてくれています。どれも 一読オススメです。
https://vuidesigner.connpass.com/event/177473/

とても新鮮でした。

声によるインタラクションをプログラムするときに感じていた違和感

今回の主題は、私が普段感じている 音声デザインとプログラムに関する違和感についてです。私はいつも Alexa Skill を コマンドラインベースのツール類を使って作ります。Developer には馴染みの深い ASK-CLI、ASK-SDK、AWS ですね。ただ、会話をテキストエディターでコーディングしている時は、いつも小さな違和感を感じていました。

プログラムの性質

コーディングはとても論理的なものです。曖昧さがありません。y = x のように、なんらかの入力に対して、なんらかの結果を返すものです。ソフトウェアの世界ではよくMECE(ミーシー、「漏れなく、ダブりなく」)なんてことが 言われます。要件を実現するために、MECE に項目を洗い出して、よいソフトウェアを作りましょう、ということです。コーディングの世界においても、同じようなことはよく言われます。DRY(Don’t Repert Yourself) や Software Design Pattern などは、論理的整合性を保ちながらより、スマートにその論理性を磨き上げる考え方、思想群であるとも言えます。VUI アプリを作る際もこれはそのまま当てはまるでしょうか?

会話デザインの性質

会話とはあいまいで不確実なものです。それはシーンが特定された状況でもです。私はVUIアプリが GUI や これまで普及したアプリケーションよりも 「シチュエーション スペシフィックで(シーンを選ぶ)」ということをかなり前から感じていました。

少し昔の話になりますが、2017年の Re:Invent の Alexa のセッションの一つに、言語学、コミュニケーション学の観点から、「良いVUIデザインとは?」という趣旨のセッションがありました。アカデミックな知見から、音声インタラクションに関しては、「変化に富むほうが人は喜ぶ」というのです。つまり、VUI の インタラクションにおける良体験は、「一つのゴールに到達することでさえも、変化に富む会話体験を提供すること」ととることができると思います。

「変化に富むように設計する」これはプログラムと相対する考えかたです。少しずつ共通な部分を見つけだして、小さく、小さくしていくプログラム脳と、一つの答えにバリエーションをつけて拡散させていくVUI脳。この根本的な違いが、違和感の正体であることに、Designer 目線で話す人たちや進んでいくチャットを思い返して、腑に落ちました。

人間の会話の不確実性をプログラムの論理性で表現することは基本できない。

VUI デザインとは「脚本を作ること」である

Voice UI/UX Designer Meetup のセッションでは、VoiceFlowAdobe XD のセッションがありました。VoiceFlow は 日常私が使う開発環境よりも 開発フローとしては自然に見えました。そして、それよりも Adobe XD の方がもっと自然に見えました。答えが出そうで出なくてモヤっとしながら仕事をしていました。

では、会話をもっともわかりやすく表現できるフォーマットはなんでしょうか?

それは「脚本」です。

(日本放送作家協会 九州支部 のブログより引用)

脚本には、「ト書き」という構成要素があり、そこに会話の前提となる背景や設定を記載する部分があります。

「ト書き」に記載された背景を前提に、セリフを構成していき、一つのシーンが終わればまた「ト書き」から始まります。

演劇やドラマでは、これが地続きに長いストーリーになりますが、VUIではそのゴールが 天気予報を教えたり、ものを動かしたり、ゲームキャラクターへのアクション、になったりするわけです。

この小さな脚本を、ユーザーがたどり着きたいゴールに向けて、たくさんのバリエーションを考え出す。

これが、VUI 設計なんだと気づきました。

Adobe XD の モックデザインのほうがもっと自然に見えたのは、セリフがありシーンが想像しやすく、音声インタラクションがより自然に見えたからだったんだ。ということに2日かけて気づきました。

そして改めて、シーン、背景、会話、この3つの要素がバリエーション豊かにわかりやすく、繋がっていることが大事であって、できるだけ「論理的な設計」を目指すプログラマ脳からは離れて、考えることに気付かされたミートアップでした。

さいごに

それに気づかせてくれた Voice UI/UX Designer Meetup。とってもいいものですね。(淀川○治風に)さよなら。さよなら。。。。さよなら。
…. 時代古すぎw