オリジナルのGPTモデル
Generative Pre-trained Transformer (GPT )は、OpenAI による言語モデル のファミリーである。通常、大規模なテキストデータのコーパス で訓練され、人間的な文章を生成する。
Transformer アーキテクチャのデコーダー部分のみを使用し、Universal Language Model Fine-tuning(ULMFiT)と同じ言語モデルアプローチを採用している[ 1] 。テキスト生成 、翻訳 、文書分類 など諸々の自然言語処理に合わせてファインチューニング できる。名称に含まれる"pre-trained"(事前訓練)とは、大量のテキストコーパスによる最初の訓練プロセスを指し、モデルは、各節に続く単語を予測するよう学習する。これによりもたらされる強固な基盤によって、各処理固有の下流処理が限定的なデータ量であってもモデルが適切に動作する。
GPT-1
2018年6月11日、OpenAIは"Improving Language Understanding by Generative Pre-Training"というタイトルの論文をリリースし、その中でGPT(Generative Pre-trained Transformer )を導入した[ 2] 。
この時点では最高のパフォーマンスを行うニューラル自然言語処理モデルは、主に手動でラベル付けされた大量のデータからの教師あり学習 を採用していた。この教師あり学習への依存は、十分に注釈が付けられていないデータセットの使用を制限するだけでなく、非常に大規模なモデルの訓練に莫大な費用と時間がかかっていた[ 2] [ 3] 。多くの言語(スワヒリ語 やハイチ・クレオール語 など)は、コーパス構築に使用できるテキストが不足しているため、このようなモデルを使用して翻訳や解釈をすることが難しい[ 3] 。これに対して、GPTの「半教師あり」アプローチには2つの段階が含まれていた。2つの段階は、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成 「事前訓練」段階と、これらのパラメータがターゲットとするタスクに適合された教師あり識別 「ファインチューニング」段階である[ 2] 。
訓練には NVIDIA Quadro P600 を8枚30日使用し、実行効率33%のため、0.96ペタFLOPS ・日となった。[ 4]
シリーズ一覧
名称
用途
アーキテクチャ
パラメータ数
訓練データ
リリース日
GPT-1
汎用
12-level, 12-headedのTransformerデコーダ(エンコーダなし)、linear-softmaxによりフォローされる。
1億1700万
BookCorpus :[ 5] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト
000000002018-06-11-0000 2018年6月11日 [ 4]
GPT-2
汎用
GPT-1 + 正規化/初期化
15億
WebText (40GB)
000000002019-02-14-0000 2019年2月14日
GPT-3
汎用
GPT-2 + スパースアテンション
1750億[ 6]
570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText , English Wikipedia, および2つの書籍コーパス(Books1およびBooks2).
000000002020-06-11-0000 2020年6月11日 [ 7]
Codex
プログラミング
GPT-3をプログラミング用途に調整
000000002021-08-10-0000 2021年8月10日 [ 8]
InstructGPT
会話
GPT-3を人間のフィードバックによる指示に従うよう微調整[ 9]
2022年3月4日
GPT-3.5
汎用
非公開
非公開
非公開
000000002022-03-15-0000 2022年3月15日
ProtGPT2
タンパク質配列[ 10]
GPT-2 large(36層)と同様
7億3800万
UniRef50からのタンパク質配列(計4488万、検証のために10%を使用した後)
000000002022-07-27-0000 2022年7月27日
BioGPT
生物医学 のコンテンツ[ 11] [ 12]
GPT-2 medium(24層、16 heads)と同様
3億4700万
PubMed の空でない項目(計150万)
000000002022-09-24-0000 2022年9月24日
ChatGPT
会話
GPT-3.5 を使用し、教師あり学習とRLHF [ 13] の両方でファインチューニングされている(転移学習 のアプローチ)[ 14]
非公開
非公開
000000002022-11-30-0000 2022年11月30日
GPT-4
汎用、マルチモーダル[ 15]
テキスト予測とRLHFの両方で訓練されている。詳細非公開[ 16]
非公開
非公開
000000002023-03-14-0000 2023年3月14日
出典
^ Lewis Tunstall、Leandro von Werra、Thomas Wolf 著、中山光樹 訳『機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発』オライリー・ジャパン 、東京都 新宿区 四谷坂町 、2022年8月3日、9頁。ISBN 978-4-87311-995-3 。
^ a b c “Improving Language Understanding by Generative Pre-Training ”. OpenAI . pp. 12 (11 June 2018). 26 January 2021時点のオリジナルよりアーカイブ 。23 January 2021 閲覧。
^ a b Tsvetkov, Yulia (22 June 2017). “Opportunities and Challenges in Working with Low-Resource Languages ”. Carnegie Mellon University. 31 March 2020時点のオリジナルよりアーカイブ 。23 January 2021 閲覧。
^ a b “Improving language understanding with unsupervised learning ” (英語). openai.com . 2023年3月18日 閲覧。
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books . pp. 19–27. arXiv :1506.06724 . https://www.cv-foundation.org/openaccess/content_iccv_2015/html/Zhu_Aligning_Books_and_ICCV_2015_paper.html .
^ Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). “Training language models to follow instructions with human feedback” . arXiv:2203.02155 [cs] . https://arxiv.org/abs/2203.02155 23 March 2023 閲覧。 .
^ “Improving language understanding with unsupervised learning ” (英語). openai.com . 2023年3月18日 閲覧。
^ “OpenAI Codex ”. 5 May 2023 閲覧。
^ “Aligning language models to follow instructions ”. openai.com . 23 March 2023 閲覧。
^ Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). “ProtGPT2 is a deep unsupervised language model for protein design.” . Nature Communications Volume 13 (1): 4348. Bibcode : 2022NatCo..13.4348F . doi :10.1038/s41467-022-32007-7 . PMC 9329459 . PMID 35896542 . https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9329459/ .
^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). “BioGPT: generative pre-trained transformer for biomedical text generation and mining.” . Brief Bioinform 23 (6). doi :10.1093/bib/bbac409 . PMID 36156661 . https://www.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=pubmed&tool=sumsearch.org/cite&retmode=ref&cmd=prlinks&id=36156661 .
^ Matthias Bastian (2023年1月29日). “BioGPT is a Microsoft language model trained for biomedical tasks ”. The Decoder . 2023年3月18日 閲覧。
^ “Introducing ChatGPT ” (英語). openai.com . 2023年3月16日 閲覧。
^ Quinn, Joanne (2020). Dive into deep learning: tools for engagement . Thousand Oaks, California. p. 551. ISBN 9781544361376 . オリジナル のJanuary 10, 2023時点におけるアーカイブ。. https://web.archive.org/web/20230110131250/https://d2l.ai/chapter_computer-vision/fine-tuning.html#steps 10 January 2023 閲覧。
^ テキストと画像の両方を入力として受け付ける。
^ OpenAI (2023年). “GPT-4 Technical Report ”. 2023年3月18日 閲覧。