生成系AIについての大誤解？

April 16, 2023

カテゴリ：雑感

このところ、世間ではChatGPTをはじめとした生成系AIについて話題が沸騰中。なにしろ通常は事件・事故といった報道が中心のニュース番組ですらも連日のように取り上げられ、何か革命でも起きたかのような勢いです。（まぁ、「人が犬を噛んだ」ぐらいのニュースバリューはあるかもしれませんが…）

ところが、そういった報道での扱いを見聞きしていると、どうやら大きな誤解に基づいているとしか思えないようなコメントや反応に出会うこともしばしばです。典型的には、「生成系AI」が生身の人間のように「人格」あるいは「知性」を持っていて、それが生成する文章の意味内容も「理解」していると想像する、という類のもの。速い話が、「ChatGPTは平気でウソをつく」という言説も、生成系AIが人間のように物事の正邪を理解・判別できるだろうという先入観（願望？）の裏返しとしての反応に見えます。

ここで生成系AIのしくみをざっと復習すると、基になっているのは機械学習に基づく「パターン認識」です。例えば手書きの文字を見せて対応するフォントに変換出力するという作業もその一つ。このような機械学習プログラムの開発は既に数十年の歴史がありますが（古くは郵便番号の読み取り）、そこに「深層学習（ディープラーニング」という新たな手法が加わったことでその性能が飛躍的に発展し、2013年ごろから始まった第3次AIブームを引き起こしました。

深層学習では、生物の脳が持つニューロンネットワークのような多層の論理処理系をコンピュータの上に用意し、あらかじめ正解がわかっている入力データ（例えば手書きの文字）に対して、なるべく正解になるデータを出力するよう、ニューロンネットワーク内の変数を調整します。

ここで重要なことは、それ以前の機械学習ではこの調整を人間がやっていたのに対し、深層学習ではそれをコンピュータ上で自動化する（＝学習させる）ことに成功した点にあります。この「学習の自動化」により、大量の「教師データ」による効率的な学習が可能になりました。（21世紀初頭にはそのようなデータはないに等しい状況でしたが、この十年ほどで世の中のIT化が急速に進んだおかげで、ネットワーク上で膨大なデータ（いわゆる「ビッグデータ」）を集めることができるようになりました。）

一方で、「学習」という言葉がイメージさせるのとは裏腹に、AI自身は入力側・出力側を問わずデータが何を意味するのかを全く「理解」していません。あくまで１セットの入力に対して「機械的に」１セットの出力データを吐いているだけです。

生成系AIは、この深層学習によるパターン認識において、学習後に入力と出力を逆向きにして応用したものだと言えます。例えば、さまざまなりんごの画像を入力して「りんご」という言葉を出力するように学習させたAIを使い、今度は「りんご」という言葉を入力してそれらしい画像を出力させる、といった按配です（もちろんここでAIが「りんご」が何かを「理解」したわけでは全くない点に注意）。画像の代わりにそれらしい文章を吐かせるようにしたのがChatGPTをはじめとした文章生成AIです。

というわけで、ChatGPTがやっていることは、あくまで教師データのパッチワーク的な文章の生成であって、生身の人間が意味内容を理解しながら作文しているのとは全くの別物。とはいえ、困ったことにこの「パッチワーク」は見かけ上それらしく高度に洗練されていることも事実で、あたかもその背後に人格を持った有機体が存在するかのように錯覚させます（これが亭主のいう大誤解の元）。

さて、世間ではこのような生成系AIをいろいろな意味で脅威と見る向きが多数のようですが、亭主はかなり懐疑的です。その主な理由は、学習に使えるデータの量と質の限界です。たとえば、ChatGPTのベースになっているGPT-3が学習に用いたデータ量は45テラバイト。日本語1文字=2バイトなので、文庫本換算で2億3千万冊程度とのことで、これは一見大きな数字に見えます。が、結局のところChatGPTが「平気でウソをつく」原因は、これでも全くデータが足りておらず、あるいはデータそのものも玉石混交だったことの証拠だといってもよいでしょう。

比較すべき例として、たとえば世界最強の棋士を打ち負かしたAI、「アルファ碁」の場合、その強さの秘密はコンピュータ内で生成される文字通り天文学的な数の対局譜にあると言われています。囲碁や将棋といったゲームはルールや学習目標が明確なので、コンピュータ上でまさに無限といってもよい数の対局が教師データとして生成可能です。これにくらべれば、人類が過去に行った対局の数など、過去から現在まで全て集めたとしてもハナクソ程度のもの。一概に「ビッグデータ」と言っても、「人間が作り出す」データの量や質については所詮タカが知れているというわけです。

ChatGPTの学習データは、これまでに出版された世界中の書籍の数に比べればまだほんの一部だと思われますが、仮にそれら全てを学習できたとしても問題の解決にはならない気がします（学習データを増やそうとするほど、それらの質を担保することも難しくなるでしょう）。結局、文字通りお喋りの相手、あるいは作文のための便利な小道具以上にはならないのではないか、というのが現状での亭主の見立てです。

お気に入りの記事を「いいね！」で応援しよう

Last updated April 16, 2023 10:11:33 PM
コメント(0) | コメントを書く

[雑感] カテゴリの最新記事