生成AIとユーザビリティテスト
AI Engineering Nowの瀬谷です。瀬谷さん、 今日もよろしくお願いします。
はい、よろしくお願いします。
はい、では本日はですね、
Does Gen AI Make Usability Testing of Threats? というタイトルの論文について話していこうかなと思います。
こちらはですね、日本語を訳すると、
生成AIはユーザビリティテストを無用の長物にするかという、
ちょっと挑戦的なタイトルの論文なんですけれども、
明々に概要だけ早くお伝えすると、
生成AIでアプリの画面の画像とかデザインとかをソースコードとともにインプットして、
こういう課題、どんなユーザビリティ上の課題がありますか、みたいなものを聞いて、
これを著者たちはUXLLMと呼んでいるんですけれども、
そのユーザビリティを見つけた課題が、
その価値があるかというか、
実際に人間に対して行うようなユーザビリティテストを代替できるのか、
というのを検証してみたという論文ですね。
デザインレビューと課題発見
はじめに結論だけ言っちゃうと、そんなことはないというのが結論ではあるんですけど、
人間を補完した課題をいっぱい見つけてくれるよ、
そういう差はあったりするので、その辺について語ってきたらなと思います。
じゃあ、香谷さんはこういうプロダクトデザイン全般で何でもいいんですが、
デザインのレビューとか、プロダクト上の課題とか、
検出するために取り組まれていることとかってあったりしますか。
デザインレビュー自体はデザイナーではないので、
多分受けてないしやってないですが、
ユーザビリティテストみたいな文脈で言うと、
どっちかというとバグバッシュとかの文脈近いですけど、
リリース前のバグバッシュとか、社内とかで触って、
その時にユーザビリティ的にこれどうなんだみたいなのをそこで見つけるとかは全然あるので、
そういう意味で広い意味でのユーザビリティテストみたいな、
そういうユーザビリティのQA的なこととかはやってるんだと思いますが、
それぐらいかな。デザインレビューみたいなものはさすがにやってはないですね。
レビューする側でもされる側でもそんな主体ではない気がするので。
でも確かに弊社でもそんな仕組み化されているかと問われると怪しいんですが、
大きい機能とかリリースする前にいろんな人に触ってもらって、
とにかく課題をコメントしてもらうみたいなものをやってたりするんで、
確かにそういうところは今回の内容とも重なってきそうな感じですね。
評価方法と結果
そうですね。デザイナーとかはやってますし、
画面とかの画像とかスクリーンショットデザインファイル元に
ユーザビリティが悪いようなところとかを指摘してくれるって感じですか。
そうですね。
なるほど。それでいうと確かに機能とか画面とか増えてくると、
こっちの画面だとボタンこういう挙動なんだけど、
こっちの画面だとボタンこうみたいな、体型の統一性みたいなものだったりとかって、
特にマルチプロダクトとかってなってくると、
なかなか統一しづらかったりとか、
あんまり気づかれてないみたいなものとかがあったりする印象なので、
ビートビザとかだと。
その辺とか勝手にやってくれるとか嬉しそうだなって気がしました。
なるほど。残念ながら今回の論文のHow、
多分1ページ単位でしかやってないから、
多分そこまではやってくれてないんですけど、
でもできそうではありますよね。
複数ページのスクショを与えてあげるとか。
そうですね。もうちょっと進化した先にありそうな体験ではある気がしますね。
こんなところで、早速この論文の中で主張されているUXLMがどういうものかっていうのと、
あとどういう結果が出たのかっていうところをざっくり解説していこうと思うんですが、
でもHowとしてはすごくシンプルで、
さっき言ったことが8割、もうはや9割みたいなぐらいな感じなんですけれども、
生成AI、おそらく何のモデルを使っているかは言及がもしかしたらあったかもしれないんですが、
画像とかも使っているのでVision LMみたいなものを活用していますと。
生成AIにコードとかデザインとかをインプットにユーザビリティ課題を出してねっていうのを受け入れると。
なのですごくHowとしてはめちゃくちゃシンプルで、
プロンプトとかも結構しっかり持ってて、本当にプロンプトもそんなに難しいことないですね。
あなたはUXエキスパートです。
あなたのタスクはユーザビリティ課題を見つけることですみたいな、そんな感じで書いていて。
自動生成できそうなプロンプト。
自動生成で終わりのプロンプトに見えますね。
そうですね。オープンAIのプロンプトジェネレーターとかで出てきそう。
なのでそんなにめちゃくちゃチューニングされたのかもしれないですけど、そういうものでもないという感じですね。
なので結構模倣もしやすいというか、ここから発展もさせやすいかなという感じで。
UXLLMの中身はもう本当それだけ。
この論文の大事なところとしては、それをどうやって評価していったのかというところで、
大きくは2つやっていて、まずユーザビリティエキスパート、UXエキスパートに2人に協力をしてもらっています。
それぞれに今回UXLLMがユーザビリティ課題を検出した対象のアプリのエキスパートレビューを、
まず人がそれぞれに対して課題を洗い出してもらいますというのが1個目。
この洗い出した課題というのは後にUXLLMが見つけたものと相関があるか、
どれくらい一緒かそういうのを見るために使われます。
それとは別にUXLLMが見つけた課題たちをエキスパートの人たちが見て、
これは重要な課題である、これは全然課題じゃないみたいな、
その課題の重要度評価みたいなものをしていってもらうという、
絶対評価と相対評価みたいなのを言おうとしましたが、
別にそうでもないなと思ったので、そのまま話し続けますが、そんな感じです。
というのをやってるんですが、程度は全体同等です。
この手法に対する、今回の評価に対する課題みたいなところに関して言うと、
まず手法自体はすごいシンプル、そんなに凝ったチューニングもしなさそうなので、
ある意味簡単に追検証もしやすいというところはあるんですけれども、
何かさっきも香谷さんがおっしゃってたような複数ページまたいだものを、
遷移とかを見たいとか、何か統一性を見たいとか、
そういうのも別途あると思うので、そこに対するアプローチはないといえばないという感じですかね。
というのと、今回選定対象のアプリがかなりシンプル。
クイズアプリ、ちょっとしたクイズアプリとトゥルーアプリみたいなもので、
本当多分数ページしかないようなものなので、
理由としては、自分たちのコードを提供してくれるパートナーが見つからなかったという、
そういう会社が見つからなかったというのが苦労話がちょろっと書かれて、
面白かったんですけど、というのがあって、
我々が開発するようなちょっと複雑な、それなりにページもあったりとか、
状態もあったりとかするようなアプリケーションではまたちょっと変わってくるかもしれないというのは、
あったりはしますという感じなんですが、
一旦このあたりのプロセスとかハウの部分で気になるところとかってあったりされました?
こういう系の研究とかオンソースの実装とかでも、
最近ってもうちょっとエージェンティックワークフローというのか、
エージェントというのか、フローエンジニアというのか、
大体ほぼニアリーイコールなあの辺の概念に近い、
もうちょっと複雑なLMのプロンプトとか複数使ってたりとか、
リフレクション入ってますとか、ツール使ってますとか、
そういう複雑なことをやってたりするものとかが結構、
だんだん増えてきたなって思うんですけど、
この研究に関しては本当にプロンプトを投げて返ってきたのを見て終わりみたいな感じなんですかね、
実装的に。
と、私が読んでる範囲ではそうですね。
だからまあ、どっちかっていうとこの評価をどうしたかみたいな方が、
主軸なのか。
っていう感じかなっていう印象ですね。
なるほどな。評価のところも、人間のエキスパートの評価の一致度というか、
それとどれだけ近いものを出してるかみたいなのを見て、
人間の評価とずれてるものがあったときにそれが有効か無効かみたいなのを
ジャッジして、人間がジャッジしてみたいなことをやってるんですよね。
まあまあそれはせやなみたいな感じをするが、
確かにプロセスのところとか、この研究にどうなんだろうな、
オープンソースとかで結構公開してるWebUIを持ったアプリとかって、
まあなくはないじゃないですか。
そうですね。
その辺だとダメだったんだろうかというか、
このQuizAppleとToDoAppleよりはもうちょっと頑張れたんじゃないのかなって思っちゃうけど、
っていうところがちょっと気になりました。
そうですね。
せっかくなら。
確かに言われてみるとそこはそうですね。
まあ確か冒頭にモバイルアプリに絞るみたいな、
なんかそういうエクスクイズはありはしたんですけど、
確かにそういう、まあにしても確かに、
もうちょっと複雑なアプリはいろいろOSSでもある気がするからそこはそうですね。
そうですね。
あれこれモバイルアプリに絞った理由とかって書いてあったんですか?
書いてあったかもしれないけどちょっとパッと出せない、思い出せない。
なんでモバイルアプリだったんだろうな。
確かにプロンプトにおいてますけど、
I have an iOS appって書いてますね。
そうですね。
これAndroidじゃないって言うとIOS限定なのか。
その方がアテンションが集中しやすいと。
まあまあまあ、ここAndroid変えるだけだったら、
あれですけど、
それって言うとアプリの中でもAndroidの方がデバイスの数多かったりとかしていて、
その辺のユーザビリティとか画面崩れるとかってAndroidの方が起きやすい印象を持っているので、
なんでAndroidアプリじゃなかったんだろうかみたいなのをちょっと思わなくはない。
やりやすいからなのかな本当に。
そうですね。
ちょっと多分書いてない可能性の方が高いと思いますし、
そんなこと言ってもあれなので。
でもなんかシンプル。
めちゃくちゃすごいシンプル。
プロンプトとかも公開してくれてるので、
同じことだと思ったらすぐできちゃうぐらいのシンプルさなので、
そういう意味では取り込みやすくて参考にはしやすいなと思いますね。
そうですね。
あとその評価の仕方は割と妥当性あるなっていう感じなので、
取られられるインサイトみたいなものは参考になるなと思いますし、
あとこれよりもっと複雑なもの、
自分たちで検証したいときはそういうフレームごと真似れるんで、
そういう意味でもいいかなっていう感じですね。
そうですね。
ちなみに評価のところで参考になったところって具体的にどういうものがあるんですかね。
言葉にすると、
確かにさっき言われたように性やなっていう感じかもしれないんですけど、
そのエキスパートの人たち招いて、
その人たちが見つけた課題との相関を取るであったりとか、
インサイトとしては見つけた、
この先の結果のところについて後で話しちゃうんですけれども、
結果としては、
正々堂が見つけた課題とエキスパートが見つけた課題の相関係数は0.53で、
まあまあぐらいの中ぐらいですね。
エキスパートが指摘した評価揺れとか細かなデザインのずれとかは、
正々堂が指摘できなかったんですけれども、
一方、正々堂がそのコードとかをセットで参照することを強みに、
エキスパートが指摘しなきゃいけなかったテストしづらいパス性の課題とか、
パフォーマンス課題も検知できたというところで、
結論としては人間によるユーザビリティテストは全然必要そうなんですけれども、
パイロット的に性性愛が得意なところもいろいろ見えたので、
よかったね、キュート雑な言葉になるんですけど、
全然活躍してくれそうだなという感じの結論ですね。
ユーザビリティテストの課題
あとちょっと読んでて確かにそれはそうだよなっていうところとしては、
評価も人間同士でもやっぱ割れるところ。
具体例として挙げていたのは、
インジュケーターにラベルがないのはダメだみたいな、
いや、なくても自明だからいいみたいなものを人間同士で言っても意見が分かれるみたいなものがあったりして、
そういう一義的に決まらない課題みたいなものもいろいろあるよねみたいなものが
インサイトとしてはありましたという感じです。
学びとしては、こういう人間だけが見つけられたものは、
とはいえ前でも頑張れば検知できそうな気がするので、
そこは改善予知として、
未来の評価基準みたいなものの足しになるなというところと、
一方で性性愛の強みみたいな、
やっぱ多分全てのパスみたいなものを探索するみたいなこともできたりはすると思うので、
そういう見つけづらい、テストされづらいところもテストしてくれるみたいな、
そういうところにはやっぱ活躍してくれそうだよなとか、
そういう傾向が見えたところが面白みポイントかなという感じですね。
生成AIの活用可能性
コードの施策だからずっと具体例考えて出てこなかったですけど、
デザインとかフロントエンドとかの感度高いエンジニアが、
だからこそ気づけるみたいなやつとか探せばありそうな気がするので、
そっち側を見つけるとかの方が確かにこれだと得意そうですね。
コードとか持ってる分、URL UX、デザイナーみたいな方と比較したときに言うと。
そうですね。
便利だろうなとは思います。確かに便利に使えそうなとこいくらでもありそう。
そういうところで、関連したこの辺のプロダクトデザイン関連の生成や使い方みたいなところで言うと、
私詳細読んでないのを見て話すのはあれなんですけど、
UXテストは人間がやって、その内容を元にLLMがインサイトを分析するみたいな用途だと、
結構ちゃんと役に立つレポートが作れますよみたいな話であったりとか、
あとこれは逆に生成AIそんなに役立たなかったよっていう話なんですけれども、
合成ユーザー、ペルソナーとかをLLMが生成して、
そのペルソナーと会話とかユーザー調査、ユーザーテストとかをやらせても、
曖昧なことしかインサイトしか話してくれないので、
全然役に立たんなみたいなそういう話もあったりとかして、
今後の展望
今のはそんなに役に立たなかったようなお話をしてしまったんですけれども、
ただ生成AIをこういうプロダクトデザインのプロセスに活用するみたいな話って、
そんなに事例としては聞いたことがなかったんですけれども、
いいツールが作れればそれなりに価値を出すみたいなものはできるかもしれないなという印象を受けましたという感じで、
この辺のプロダクトデザイン×生成AIみたいなところで、
こういうの興味あるなとかそういうのって分けましたか。
分けましたか。
分けましたか。
そうですね。
さっきの画面とか横断して体系の統一性だったりとかを、
ある種リント的な感じでチェックしてくれるみたいなものは、
自動でやってあげてくれると普通に今より便利になりそうだなと思いますし、
ユーザビリティみたいなところとかも、
今ってさかさわってみてちょっと気づく、
バグバッシュみたいなことして気づくみたいなものとかを、
自動でガンガン回して操るものとか、
それこそ直すかどうかともかく、
パークパターンとかってあるじゃないですか。
例えばああいうこれって分かりづらいフローになってませんか、
みたいなのとか言ってくれたら使えそうな気はしますよね。
そうですね。
割とデザイン段階でそういうフィードバックは、
人間でもしてるんですけど機械的にしていただけると助かりそうではある。
そうですね。
普通に助かりそうではあるのと、
構成ユーザーの調査があんまりみたいなのって、
これってあれなんですよ。
いわゆるプロダクトとかソフトウェアとかの、
画面レベルとかでのユーザビリティテストみたいなことをユーザ調査って呼んでる。
で言うとおそらくなんですが、
どっちかっていうとこれユーザーインタビューとかのほうが近い気がします。
ユーザーインタビューなのか。
おそらく内容としては。
ユーザーインタビュー確かに難しそうな気がするけどな。
難しそうっていうか、できるはできると思いますけど、
それで十分だったら最初からユーザーの訂正のインタビューしようと思わないんじゃないかな。
そうですね。
このNielsenの記事なんですけど、
この中でも結構それによって満足しちゃって、
実際のユーザビリティ調査、ユーザビリティじゃないわ、
ユーザ調査やらなくなっちゃうみたいな副作用があるかもしれないみたいな、
そこの懸念がありますみたいな話もされていて、
これで分かった気になっちゃうみたいなほうが、
デメリットとしては大きいかもしれないという感じですね。
そうですね。今記事見てますけど、
例でアメリカで働く医療情報担当者で、
調査のインタビューの目的がどう仕事してるか、業務フローとかの話だと思うんですけど、
それをLLMに聞いて十分なインタビューなのかって言われると、
それは最近ToBeSourceとかやってるからってのはありますけど、
そこまで一般化できるんだったら最初からそんなに、
ユーザーインタビュー自体あんまり必要とされないようなケースな気はしなくもないですけどね、
そういうケースがあるかどうかはともかく。
合成ユーザーとかも別に普通に使える機械シーン自体はあるとは思うんですけど、
何なら使えるんだろうな。
AIが作ったPersonaに向けてLPを勝手に自動最適とかいろいろ作りますみたいなのを
さっき見たことある気がするんですけど、
それとかだったらPersonaみたいなぐらいの解像とかでLPバーンっていろいろ自動生成して、
それをABテストできるとかで、
点としては十分なのかなって思うのがないですけど、
僕が別にLPとかのその辺に強くはないので、
適当なハズレなこと言ってるかもしれない。
そうですね。合成ユーザー。
合成ユーザーと言っていいかわかんないんですけど、
最近本職の話をどこまでしてよいのか。
作ったプロンプトをちょっとテストしたいなってなったときに、
ありえるPersonaみたいなものでインプットのパターンをバーって書き出してもらって、
LMにそれで結果を見るみたいな、
そういう合成データを作るみたいな文脈だと、
インプットの幅を広げるのに役に立ててくれたなっていうのはあったんですけど、
プロダクトデザインとは全く関係ない話になったが、
そういうのもあるか。
全くその価値観がない領域の初期リサーチみたいなところとかで、
一般的にそれっぽいよねって言われるようなものとかをリサーチするみたいな意味とかではないそうです。
たぶん普段正直何やってるかもよく、
エンジニアのやつとかも明らかにそんな壊れた話とかもしないと思うので、
ただ細かく本当にそれぞれの企業とか個人とかにフォーカスしてみると、
そうじゃないよなみたいなところだったりとか、
上っていくとズレるみたいな感じの傾向がありそうなので、
初期的に知らないところとかをパッと、
なんとなく大幅抑えるみたいな意味とかで言うと確かに使えそうな気がしますが、
満足しちゃいけないみたいなのは確かにその通りかもしれないですね。
なんとなくの感覚を掴むぐらいの感じで使うという感じで。
そうですね。ユーザー調査そんな感じな気がして、
プロダクトデザイン生成案みたいなところとかも、
使えそうなとこある気はしますけどね、めちゃ。
スナイプウィズラーとかも結構近い領域だし、プロダクトデザインみたいな。
そうですね。私の希望としてはFigmaとかがそういうAI搭載してくれないかなっていう。
確かに。
コントラスト微妙じゃないですかとか、
他のデザインと揃ってないですよみたいな。
確かに。
見てくれないかなっていう。
そのうち言ってくれそう。
ワンチャン1,2年後ぐらいに来そうな気もしなくはない。
全然ありそうですし、ちゃんと追ってないけど、
ありましたよね、Appleがそういうモバイルアプリのか、
モバイルのデバイスの画面とかを読み取る専門のモデルを作ってみましたよみたいなとか。
確かに。
何だっけ、ベレットみたいなやつ。
一応読んだけど、あんま覚えてないんで語れることはないですけど、
そんな感じねとか。
だから、モバイルアプリとかにはAppleが載せてくれるとかね。
ありそう。
確かに。
じゃあ、今回はそんなところで。
じゃあ、今回はユーザビリティテストを生成で行うUXLMについて、
ちょっとそれに派生してね、
プロダクトデザインかける生成AIみたいなところについて、
ちょろっと話していきました。
はい。
ありがとうございました。
はい。ありがとうございました。