必見：ChatGPTのテクノロジーの凄さについて - 合同会社モリカワのブログ

OpenAIにより１２月１日発表されたChatGPTですが、世界中で話題になってます。
私も夢中になって色々と調べてます。
日本語でのやり取りも問題なさそうで色々な記事も出てますが、APIとか内部について触れている記事があまりなかったので調べてみました。APIについては下記をご覧ください。
速報：ChatGPTのAPIを叩いてみた
 続：ChatGPTのAPI調査
 続：ChatGPTのAPI調査・その２
今回は、内部について少し詳しく見ていきたいと思います。

何が起きたのか？

今週、ニューオーリンズで開催されるNeurIPS2022でGPT-4の噂が飛び交う中OpenAIからChatGPTが発表されました。AIを利用した大規模言語モデルのGPT-3ファミリーの新しいモデル、text-davinci-003を発表しました。これは、「GPT-3.5 シリーズ」と呼ばれるものの一部であり、より複雑な指示を作成し、より高品質で長い形式にも対応してます。

OpenAIとは

OpenAIは、人工知能（AI）を研究する非営利団体です。そしてみんな大好きイーロン・マスク氏が立ち上げメンバーです。但し、2018年にイーロン・マスク氏は利益相反があるとして退任してます。

GPT-3とは

GPT-3は、Web等から収集した45TBもの膨大なテキストデータのうち、いくつかの前処理を施した570GBのデータセットを学習に用いたデータセットに対して、 1,750億個のパラメータを持つ自己回帰型言語モデル（ある単語の次に出てくる単語を予測するモデル）を学習することで、今まであった「BERT」や「GPT-2」のデータ学習量を遥かに超えた、巨大な言語モデルを形成しています。
GPT　-> 1.1億パラメータ
GPT-2 -> 15億パラメータ
GPT-3 -> 1,750億パラメータ
とバージョンアップしてきました。
2020年6月にGPT-3をインターネット経由で利用できるインタフェース（API）を限定公開してます。

今回のdavinci-003とは

InstructGPT に基づいて構築されており、強化学習と人間のフィードバックを使用して、言語モデルと人間の指示をより適切に調整します。人間が書いたデモンストレーションと高得点のモデルサンプルで教師付き微調整を使用して生成品質を向上させるdavinci-002とは異なり、davinci-003は人間のフィードバックによる真の強化学習 (RLHF) モデルです。
との事です。

RLHFとは

https://www.marktechpost.com/2022/02/05/openai-team-introduces-instructgpt-model-developed-with-reinforcement-learning-from-human-feedback-rlhf-to-make-models-safer-helpful-and-aligned/
記事がありました。
GPT-3は、自然言語処理(NLP)が優れていたけど、意図しない出力が出ることがあったけど、人間のフィードバックからの強化学習でInstructGPTモデルが出来たとの事です。

Explicit Intentions – following user instructions 
Implicit Intentions – Staying genuine and not being biased, poisonous, or otherwise hurtful.

こちらの通りInstructGPTモデルを入れる事で人間の指示に従い安全な物になったという事です。
更に、GPT-3の出力の毒性をInstructGPTモデルで緩和させているみたいです。
人間のフィードバックによりの通り、GPT-3に対して、人間がフィードバックを行い、強化学習させているという事ですね。これは、どのくらいの量のフィードバックが入ってるのかも気になりますが、調べてもあまり情報はありませんでした。

最後に

こちらのGPT-3は、APIという事もあり、誰でも自由にアプリが作れる事がとんでもない事です！！
既にあるチャットボットサービスなんかは、終わりですね。検索エンジンもインターフェイスが変わるでしょう。
様々なアプリが変わる革命的な事が起きそうな気がします。
AI化の時代の入り口に僕たちはいると思います。