【5分講義・自然言語処理#1】自然言語モデルの最近の課題

当初はウェブ記事のカテゴリ分けや機械翻訳といったもののために開発された「言語モデル」は、今では、文章や楽譜やソースコードまで生成できるまで技術が様々な課題を乗り越えて進化してきました。(※ここでいう言語モデルとは、「どれだけ自然な文脈を実現する単語の並びになっているのか」を、確率値で評価するためのモデルのことです)言語モデルで「すごいことが出来る」と分かった今、今度は、「してはいけないこと」そして「もっと効率的に出来ないか」に関する「発展的な課題」を考える段階となりました。ここでは、大きく論じられている、「公平性」(Fairness)「モデルのサイズ」の2つについて記述していきます。

■公平性について

自然言語処理は人間の言語を対象とするため、どうしても人間社会に潜む様々なバイアスに影響されやすくなります。性別、人種、宗教など個人の特性に左右されているようなモデルを使用した場合、特定のグループにとって不利な結果を出力する可能性があります。

有名な事例としては、Amazon社が開発したAIを活用した人材採用システムです。履歴書に「女性」という単語が含まれると評価が下がるように学習してしまうことが判明され、当然ながらこのシステムは現在使用されていません。 参考: Amazon scraps secret AI recruiting tool that showed bias against women | Reuters

「小説を書ける」と言われるほど、文章生成の能力が高く評価されている「GPT-3」でも公平性の問題が検証されています。例えば、女性という単語から生成された文には「美しい」や「華やか」など女性の外見に関する単語を含みやすい傾向が現れています。人種や宗教に関して共起する単語の感情スコアを検証したところ、さらに悲惨な結果が出ました。「黒人」に対してはネガティブな表現と共起しやすい、「イスラム教」は(他宗教と比べて)「テロリズム」という単語と共起しやすい結果になりました。

近年、言語モデルの公平性はますます重要視されつつあります。有能な技術を社会の中でトラブルなく使用するためには、公平性を担保するための研究が大変期待されています。

■モデルサイズについて

近年開発された有名な言語モデルのパラメーター数が驚くほど膨らんでいきます。例えば、2018年に提案された「BERT」のパラメーター数は3億程度であり、初代の「GPT」はおよそ1億個です。それから1年後に登場した「GPT-2」は15億個、2020年の「GPT-3」が1750億個程度まで巨大化しました。

なぜここまで大きなモデルを作るのでしょうか?実は、パラメーター数やデータセットのサイズ、計算量のべき乗則に従って性能が改善することが実験的に示されているからです。「べき乗に従う」とは端的にいうと、サイズを徐々に増やしても性能は緩やかにしか改善しないので、大きくな性能向上を実現するためにはモデルサイズを急増させないといけないことです。

確かに、パラメータ数の多い巨大なモデルほど、幅広いタスクにおいて汎用的に高い性能を発揮できると言えます。しかしデメリットはコストです。パラメーター数を増やせば増やすほど、必要な学習データの量と計算資源の稼働量も増やす必要があります。近年の巨大モデルの学習には数百〜数千個のGPUやTPUを使います。パラメーター1000個に対しておよそ$1使用すると見積もられているので、例えばGPT-3(1750億個)は10億円を超えてしまいます!こういうこともあって、言語モデルの研究開発はどうしても計算のリソースや予算を使えるIT大手企業を中心に競い合われることになります。 参考論文:The Cost of Training NLP Models: A Concise Overview: [2004.08900] The Cost of Training NLP Models: A Concise Overview

先述のように、巨大な「汎用的自然言語モデル」は幅広いタスクにおいて高い性能を発揮します。一方で、実用上、質問応答や翻訳などの特定のタスクに対応する小さなモデルが望まれることが多く、ユーザーにとってリソース的にも扱いやすいです。事前学習モデルの先駆者である「BERT」が提案された後、転移学習を使う前提で、パラメーター数の少ないモデルの提案も増えてきています

最後に ... 完全なる余談

記事を脳トレがてらに英訳して遊んだりすることがあります。「問題」と「課題」は厳密に意味も使い道も違いますね。英語に翻訳する際に「問題」は簡単に"problem"に出来るけど、「課題」の方は、"theme", "subject being questioned", "problem to be solved" など様々なので悩みます。この記事に出る「課題」に一番すっきり当てはまる英訳は"issue"でしょうね。

記事担当:(分析官・講師)ヤン・ジャクリン