コーヒー1杯の暖かさ

心理学を研究する大学院生が、研究もそこそこちゃんとやりながら、日本の教育に一石を投じます。

人工知能 vs. マヤ・アンジェロウ:人はAIが生成した詩と人間が書いた詩を区別できない(Köbis & Mossink, Computers in Human Behavior, 2021)

f:id:jin428:20210510115518j:plain

みなさんこんにちは!

微かに混じり合う教育と心理学とアートを考えていますじんぺーです。

今日も論文を読んでいきます。

  

www.jinpe.biz

 

 

人工知能 vs. マヤ・アンジェロウ:人はAIが生成した詩と人間が書いた詩を区別できない(Köbis & Mossink, Computers in Human Behavior, 2021)

結論から言うと、インセンティブ付きの新しいチューリング・テストでは、Human-in-the-loopではアルゴリズムによって生成された詩を確実に検出できなかったが、Human-out-of-the-loopでは成功した。また、アルゴリズムで生成された詩であることを知らされた場合(Transparency)と知らされなかった場合(Opacity)とで、わずかながらも嫌悪感を抱くことがわかった。

 

背景

■自然言語生成(NLG)アルゴリズム

・人間を支援するだけでなく、さまざまなタイプのテキストを自律的に作成することができる

・すでにデジタルジャーナリズムの分野では、スポーツのスコアや株式市場の値など、標準化された入力データに基づいてアルゴリズムがニュース記事を生成することができる

・しかし、自律的にクリエイティブ・テキストを生成するには、魅力的で有用だと判断されるオリジナルのコンテンツを作成する必要があるため、より大きな課題となる

■Generative Pre-Training 2(GPT-2;Radford et al.2019)と呼ばれるオープンソースのアルゴリズム

■人工的なテキストと人間のテキストを区別

・チューリングテスト:チューリングは、思考実験に基づいて、機械が考えることができるかどうかを調べる方法として、このテストを提案(判定者が人間か機械かを当てるテスト)

・チューリングテストのどのバージョンにも、判定者の精度に対する金銭的なインセンティブが含まれていない

・アルゴリズムの動作を検出する自分の能力を過大評価し、それを確実に実行できない場合、気づかないうちにアルゴリズムにさらされ、影響を受ける可能性がある

■人工的な創造性:嫌悪と評価

・アルゴリズムは適応し、学習し、予測不可能なオリジナルのアウトプットを生み出すことができるようになってきている

・一般的にアルゴリズムの意思決定者に対して嫌悪感を抱くことが明らかになっている:アルゴリズム嫌悪

・人間のエラーはランダムであるのに対し、アルゴリズムのエラーはシステマティックであるという信念に後押しされる部分もある

・アルゴリズムで生成されたコンテンツは、より説明的でつまらないと評価される一方で、客観的であり、ジャーナリストが書いたコンテンツとは必ずしも区別できないと見られていることが明らかになった

■ループ内外での人間の選択

・GPT-2のようなアルゴリズムは、わずか数秒で複数のテキストサンプルを作成することができるため、アルゴリズムを使って自分の代わりにテキストを作成する人は、出力結果に目を通し、特定のタスクに最も適したものを選択することができる

・GPT-2を取材した『エコノミスト』などの報道では、GPT-2の最もまとまりのある面白い返答だけを「チェリーピック」して、実際よりも能力が高いように見せていると批判

▶このような人間による編集は、Human-in-the-Loop(HITL、Goldenfein、2019年)による選択プロセスを反映

・もう一方では、多くのチャットボットやツイートボット、その他の自動テキスト生成アルゴリズムなど、フィルターを通さないアルゴリズムの出力がある

▶これらのアルゴリズムは、自律的に行動:選択プロセスは、HOTL(Human-out-of-the-Loop)

・アルゴリズムによる意思決定への人間の関与が、同一の結果に対する知覚を決定的に形成することが示唆されており(Starke & Lünich, 2020)、機械の自律性の度合いが道徳的な評価を左右することが示唆されている(Bigman, Waytz, Alterovitz, & Gray, 2019)

 

研究1

(詩の作成)

■参加者:30人の参加者(MAge = 29.40, SDAge = 8.75; female = 56.67%)

■手続き:詩を書き、いくつかの質問に答えるというタスクを完了し、合計で平均約11分かかった

・参加者は、自分のテキストがコンペの勝者に選ばれると、2ユーロの賞金を得ることができ、合計40ユーロのボーナスが支払われることになった

・参加者が書いたランダムに選ばれた詩は、GPT-2が書いた詩とのコンペに参加

■GPT-2は、Jane Campion、Roald Dahl、Robert Frost、William Blakeなど、さまざまなプロの詩人の作品を集めた自作のデータセットを用いて、この特殊な作文タスクの訓練を行った

・GPT-2が生成したテキストは、あらかじめ設定された詩の外観基準のうちの1つを満たさなければ、ライティングコンテストに参加できない:詩には、行や節、韻(終止符や始終符、アソナンス)、アリテレーション(同じ文字で始まる単語)、オノマトペ(意味のある音を音声的に模倣すること)、リズム、繰り返し、象徴、矛盾などの要素が必要

(詩の評価)

■参加者:Prolificを介して200人

■手続き

・審査員役の参加者は、すべて同じ2つの冒頭部分で始まる10組の詩を受け取った

・それぞれのペアについて、どちらの詩が好きかを示さなければならない

・審査員は、それぞれのペアにおいて、1つの詩は人間の作家からのもので、もう1つの詩はアルゴリズムGPT-2からのものであることを知っていた

・参加者は、「透明性」処理と「不透明性」処理のいずれかに無作為に割り当てられた:透明処理では、審査員はそれぞれのペアについて、どの詩が人間によって書かれたもので、どの詩がGPT-2によって生成されたものであるかを、勝者を決定する前に知ることができた

・審査員は、人間の詩を正しく識別する自信の度合いを100点満点で評価した(0=全く自信がない、100=非常に自信がある)

■結果

・人間が書いた詩は、1,915のコンペのうち1,091のコンペで勝利し、勝率は56.97%となり、勝率50%とは有意に異なる結果となった(χ2 = 37.23, p < 0.001)

・アルゴリズムで生成された詩よりも人間が書いた詩の方が有意に選好されることが一貫して明らかになった

・透明度」では、「不透明度」よりもアルゴリズムで生成された詩を嫌う傾向があるかどうかを調べるために、人間の作家の勝利数を均等にして2標本のt検定を行ったところ、有意な差は見られなかった

・審査員は平均50.21%(95%CI[46.4; 53.9])の精度で正しい起源を特定

▶Wilcoxon signed-rank testによると,偶然からの有意な逸脱がないことを示す(V = 1479, p = 0.935)

・審査員の平均確信度は、M = 62.27 (SD = 22.27)

▶GPT-2で書かれた詩と人間の詩を区別する自信を、実際のパフォーマンスに回帰分析したところ、有意な関係は見られなかった(b < 0.01; β = 0.017, t(74) = 0.143, p = 0.887)

 

研究2

■詩の選択

・HITL処理では、GPT-2が生成した出力の中から、著者(NCKとLDM)がコンセンサス投票によって最適な詩を選んだ;HOTL処理では、詩は同じ出力から無作為に抽出された

■参加者と手続き

・384人の審査員(Mage=31.38、SDage=11.92、女性=47.14%、その他/言いたくない=0.54%)

・10組の詩を読み、それぞれの組について、より好きな詩を選んだ

・透明処理(N = 192)では、審査員はどちらの詩が人間によって書かれたものか、どちらがAIによって生成されたものかを知っていたが、不透明処理(N = 192)では知らなかった

・アルゴリズム嫌悪感を測定する既存の尺度に新たな項目を加えた(Castelo, Bos, & Lehmann, 2019):この尺度は複数の項目で構成されており、それぞれが異なるタスク(例えば「車を運転する」)を記述しており、参加者はそのタスクを実行するのに誰をより信頼するかを示す

■識別タスク

・参加者:200人

・詩の出所、つまり人間が書いたものかアルゴリズムが生成したものかを正しく識別すると、0.50ユーロの金銭的報酬

■結果

・人間のライターは、比較対象の64.90%

▶観察された人間の勝率を偶然レベルの勝率50%と比較するχ2検定を行ったところ、有意な乖離(χ2(1) = 340.82, p < 0.001)

・「透明度」(対「不透明度」)処理において、審査員が人間の書いた詩をより強く好むかどうかを調べるために、人間が獲得した平均数を比較する2標本のt検定を行ったところ、有意な処理差は見られなかった(t(365) = 0.62, p = 0.54)

・HOTL(対HITL)処理:HITL処理(M = 6.23, SD = 1.55)よりもHOTL処理(M = 6.69, SD = 1.69)の方が、平均して人間の詩を選択する頻度が高かった((t(372) = -2.82, p = 0.005)

▶審査員は、アルゴリズムによって生成された詩をランダムに抽出した場合(HOTL)の方が、人間によって選択された場合(HITL)よりも、人間が書いた詩に対する強い選好を示す

・詩を書くのに人間(0)とアルゴリズム(100)のどちらが好きかを評価する項目への回答では、平均スコアがM = 19.50, SD = 20.73

▶有意にマイナスの偏差があった(t(383) = -28.83, p < 0.001)

・表明された好みと明らかになった好みの間に、弱いながらも有意な関連性がある

・人々の詩の検出精度が偶然のレベルを超えているかどうかをテストするために、1サンプルのt-テストで、すべてのラウンドで集計された精度(M = 5.94, SD = 2.01)をチャンスレベル5と比較すると、有意な差(t(184) = 6.33, d = 0.47, p < .001)

・HOTLでは、HITL(M =5.37, SD =1.95)に比べて、詩の由来を正確に推測する頻度が高かった(M = 6.55, SD = 1.90)(t(183) = -4.19, d = -0.62, p < 0.001)

・これらの結果は、詩の由来を正しく判断する能力は、詩の選び方に依存するという予測を支持

▶人々は、HITLでランダムに選ばれたプロの詩とアルゴリズムで生成された詩を区別することができるが、これらの詩がHOTLで選ばれた場合は、確実に区別することができない

・自信と精度を線形回帰したところ,有意な正の関係が示された(b = 0.93, SE = 0.03, t(185) = 34.92, p < 0.0001, 図4の右ペイン参照)

 

コメント

AIが作った詩と人間が作った詩を比べさせる研究。人間がAI詩の選定に関わる(ベストな詩を1つ選ぶ)とAI詩と人間詩の区別がつかなくなる。AIが作った詩のどれもがクオリティが高いわけではないが、沢山作られたものの中にはクオリティが高いものも混ざっているということが分かる。これでAIは創造性を持つということはできないけど、人間との相互作用の力を感じざるを得ない。

 

論文

Köbis, N., & Mossink, L. D. (2021). Artificial intelligence versus Maya Angelou: Experimental evidence that people cannot differentiate AI-generated from human-written poetry. Computers in Human Behavior, 114. https://doi.org/10.1016/j.chb.2020.106553