Transformerとは？機械学習の仕組みと発展モデルを紹介

2023.11.16(公開: 2023.11.16)

はじめまして、エンジニアスタイル編集部です！

コラムページでは、ITフリーランスに向けてお役立ち情報を発信します。Twitterではホットな案件を紹介してまいりますので、ぜひフォローをお願いいたします！
本記事が、皆様の参考になれば幸いです。

経験がまだ少ない方にもわかりやすく説明するために、初歩的な内容も記載しております。記事も長いので、実務経験豊富な方は、ぜひ目次から関心のある項目を選択してください。

エンジニアスタイルは、最高単価390万円、国内最大級のITフリーランス・副業案件検索サービスです。Transformerのフリーランス・副業案件一覧をご覧いただけますのであわせてご確認ください。

「Transformer」とは何か

AIや機械学習、ディープラーニング分野を勉強する方にとって「Transformer」モデルへの理解は重要です。Transformerは機械学習やディープラーニングの分野だけでなく、それを活用した実際のアプリケーションにも役立ちます。BERTやT5など、多くの有名なモデルがTransformerを採用しているため、これらのモデルの理解につながります。

この記事では、Transformerの概要やメリット、具体的な発展モデルについて紹介します。

Transformerの概要

「Transformer（トランスフォーマー）」は、2017年にGoogleの研究者によって提案されたニューラルネットワークモデルです。自然言語処理（NLP）や機械翻訳などのタスクにおいて非常に効果的なモデルとして知られています。

Transformerというモデルは、「Attention is All You Need」という論文で初めて公表されました。なお、「Attention is All You Need」は、2017年にGoogleの研究者によって発表された論文です。この論文の中核的なアイデアは、再帰性を持たず、従来のRNNやLSTMなどの従来のモデルに代わる新しいアーキテクチャを導入することでした。

「Attention is All You Need」の主要なポイントは、次の通りです。

自己注意機構（Self-Attention Mechanism）

Transformerでは、セルフアテンションと呼ばれる機構を用いて、各単語（トークン）が他の単語とどの程度関連しているかを計算します。この自己注意機構により、長距離の依存関係を捉えることが可能になりました。

エンコーダー・デコーダー構造

Transformerは「エンコーダー」と「デコーダー」という2つのメインコンポーネントから成り立っています。エンコーダーは入力を処理し、その情報をデコーダーに渡して出力を生成します。

位置符号化（Positional Encoding）

Transformerでは、単語の位置情報を学習するために位置符号化を使用します。位置符号化は通常、単語の埋め込みベクトルに対して位置情報を加えることで実現しています。

具体的には、各単語の埋め込みベクトルに、その単語の位置に応じた位置符号（positional encoding）を加算します。位置符号は、三角関数や正弦波関数を使用して生成され、位置による変化をモデルに伝える役割を果たします。位置符号化によって、単語の並び順をモデルに伝えられます。

絶対的な位置情報の欠如

Transformerは絶対的な位置情報を直接的に組み込まず、相対的な位置情報のみを利用しています。

「Attention is All You Need」の提案により、従来のNLPモデルに比べて長い文脈を効果的に扱えるようになり、機械翻訳やテキスト生成などのタスクにおいて画期的な成果を上げることができるようになりました。

Transformerは、従来のリカレントニューラルネットワーク（RNN）や畳み込みニューラルネットワーク（CNN）に代わるものとして注目を集めました。その特徴は、再帰性を持たず、文脈を理解するための注意機構を活用する点です。

Transformerは、エンコーダーとデコーダーという2つの主要なコンポーネントで構成されています。エンコーダーは入力シーケンスを処理し、デコーダーはエンコーダーの情報をもとに、出力シーケンスを生成します。

中心的なアイデアにあたるのが、自己注意（self-attention）と呼ばれるメカニズムを使用して、シーケンス内の要素間の関連性を捉える点です。各単語やトークンが他のすべての単語やトークンとの関連性を計算し、それに基づいて各単語の重要度を決定します。この方法により、長い文脈や依存関係を効率的に学習することが可能になりました。

Transformerの登場は、自然言語処理のさまざまなタスクにおいて革新的な進展をもたらし、特にGPTシリーズやBERTなど、進化したモデルの基盤となっています。

Transformerの構造

Transformerは、主にエンコーダー・デコーダーと2つの主要なコンポーネントから構成されています。

ここでは、Transformerの構造についてカテゴリ分けした上で説明します。

EncoderとDecoderに2分される

Encoder（エンコーダー）はテキストなどの入力データを抽象化し、セルフアテンション機構を使って入力テキストの各要素間の関連性を理解し、表現を生成します。

一方、Decoder（デコーダー）はエンコーダーからの情報を受け取り、それをもとに出力シーケンスを生成します。

Transformerがエンコーダーとデコーダーに2つの部分に分かれる主な理由とメリットは以下の通りです。

異なる役割への特化

エンコーダーは入力シーケンスを処理してシーケンスの表現を作成することで、入力情報を抽象化してキャプチャし、翻訳や要約などその後の処理に利用できるようにします。一方、

デコーダーはエンコーダーが生成した表現を受け取り、それを基に出力シーケンスを生成します。異なる役割に特化することで、各部分が最適化され、効率的で柔軟なモデルを構築できます。

独立した学習

先述の通りエンコーダーとデコーダーは異なる役割を果たしますが、それぞれが独立して学習されることで、異なるタスクやデータに適応させやすくなります。学習済みのエンコーダーやデコーダーを他のタスクに転移学習させることもでき、例えば大規模な言語モデルでエンコーダーを事前学習し、それを特定のタスクに適用することで、追加のデータを使わずに高い性能を実現できます。

柔軟性と再利用性

分割によって、エンコーダー部分を他のアプリケーションやタスクで、特徴量抽出器として再利用できます。例えば、翻訳の学習済みエンコーダーを、文章の意味の把握や要約に転用できます。

並列処理の可能性

エンコーダーとデコーダーは異なる機能を持つため、並列計算に適しています。並列計算は、CPUコアやGPU、クラスターなど複数の計算リソースを同時に活用するため、計算速度を大幅に向上させられます。つまり、並列計算に適した形は、モデルの訓練や推論するときの処理速度向上が可能です。

エンコーダーとデコーダーの分割によって、Transformerモデルは多くの自然言語処理タスクに適用され、柔軟性や高いパフォーマンスを発揮しています。

エンコーダの仕組み

エンコーダーは入力データを処理し、データの表現を生成する役割を担います。

エンコーダーの主要な仕組みは、以下の通りです。

入力エンベッディング（Input Embedding）

エンコーダーは単語やトークンなど、入力データの各要素を数値表現に変換します。

入力エンベッディングには、一般的に単語の埋め込み（Word Embeddings）が使用され、単語を密なベクトルで表現します。この方法により、モデルはテキストデータを処理できるようになります。

位置符号化（Positional Encoding）

Transformerは入力データの単語の並び順に関する情報を持たないため、位置情報を考慮するための位置符号化が行われます。位置符号化は、三角関数（サインとコサイン）を使った固定の位置エンコーディング行列を作成し、それを単語の埋め込みベクトルに加算することで実現されます。位置符号化行列は、各位置の埋め込み表現に対して固有の位置エンコーディングを提供することで、単語の位置がモデルに伝わり、文脈を考慮できます。

セルフアテンション（Self-Attention）

エンコーダーは、セルフアテンションメカニズムを用いて、入力データ内の各単語間の関連性を計算します。セルフアテンションによって、各単語は他の単語との関連性を同時に計算して重要度を決定することで、長い文脈や依存関係をモデルに伝達します。

残差接続（Residual Connections）

エンベッディング・セルフアテンション・フィードフォワードネットワークなど、各サブレイヤーの出力に元の入力を加算することで、勾配消失問題を緩和します。残差接続により、情報の伝達がスムーズになります。各サブレイヤーの出力を正規化して、モデルのトレーニングを安定化させます。

Multi-head Attention層

Transformerには、アーキテクチャ内のセルフアテンション機構を強化したMulti-head Attentionが存在します。

モデルが入力データの部分ごとにパラメータを付け、特定の関連性や重要度を推定する手法「Attentionメカニズム」では、単一のアテンションヘッドを使用して、単一のアテンション分布を計算します。一方、Multi-head Attentionは複数のアテンションヘッドを同時に使用することで、異なる情報をキャプチャする方法です。なお、各アテンションヘッドは独立して計算され、並列で処理されることで、複数の情報源からの情報を同時に統合できます。

要するにMulti-head Attentionは、モデルが異なる位置や特徴間の依存関係をキャプチャし、多くの自然言語処理タスクで高い性能を発揮します。例えば翻訳ツールの場合、単語間の翻訳対応関係を特定し、文章の文脈を理解するのに役立ちます。

Feed-Forward Neural Network層（FFNN）

TransformerのFeed-Forward Neural Network（FFNN）は、Transformerアーキテクチャ内の各エンコーダーとデコーダーに存在する重要な部分を指します。Feed-Forward Neural Networkは、入力データをより高次元の表現に変換するために使用され、モデル内で非線形な変換を行います。

なお、TransformerのFeed-Forward Neural Networkに関する詳細は以下の通りです。

位置ごとのフィードフォワードネットワーク

Transformer内のエンコーダーとデコーダーの各層には、位置ごとのフィードフォワードネットワーク（Position-wise Feed-Forward Network）が含まれています。各エンコーダーとデコーダーの層で、このフィードフォワードネットワークは適用され、入力データをより高次元の表現に変換します。

重みとバイアス

フィードフォワードネットワーク内の各全結合層には、重み行列とバイアスベクトルが含まれており、これらのパラメータは訓練中に調整されます。

非線形変換

各全結合層の後には通常、ReLU等の線形活性化関数が適用され、ネットワークの非線形な関数をモデル化でき、複雑な特徴を学習できます。

「Transformer」を理解する上で知っておくべきこと

Transformerを理解するための予備知識として、以下の分野について把握しておくことをおすすめします。

ディープラーニング（深層学習）について
NLPについて
RNN, CNN
Attention

TransformerはNLPなどの分野で非常に重要なモデルであるため、上記の知識があれば理解しやすくなります。

ディープラーニング（深層学習）について

ディープラーニングは機械学習の一分野であり、多層のニューラルネットワークを使用してデータから複雑なパターンや特徴を自動的に学習する手法です。多くの中間層からなる深層ニューラルネットワークを使用することで、非線形な関数近似が可能になり、複雑なデータパターンを捉えられます。

なお、Transformerはディープラーニングの一部として開発されたモデルで、深層学習の概念と技術を活用しています。ディープラーニングの基本的な要素を理解することで、その構造や動作原理を把握しやすくなります。

また、Transformerはデータから抽象的な表現を学習するための自己注意メカニズムを使用します。ディープラーニングにおける表現学習と特徴抽出の概念は、Transformerがどのように機能するかを理解するために役立ちます。

NLPについて

NLP（自然言語処理）は、コンピューターが人間の言語を理解し、処理するための分野です。NLP分野では、テキストや音声データを解釈して意味を理解し、情報を抽出するための技術やアルゴリズムが開発されています。

なお、Transformerは主にテキストデータを処理するために設計されています。NLPの基本的な概念や前処理手法を知っていると、Transformerがどのようにテキストデータを処理し、理解するかをより深く理解できます。また、Transformerは単語やトークンをベクトル表現に変換しますが、NLPの知識があると単語の埋め込みや、意味表現に関する概念を理解するのに役立ちます。

さらにTransformerは翻訳や文章生成などにも使用されます。NLPの基本的な概念を理解することで、生成タスクをどのように処理するかを理解できます。

要するに、TransformerはNLP分野で広く利用されており、その理解にはNLPの基礎的な概念や手法の知識が不可欠です。NLPの知識がTransformerの内部メカニズムを理解する上で重要な役割を果たします。

RNN, CNN

RNN（Recurrent Neural Network）とCNN（Convolutional Neural Network）は、ディープラーニングにおける主要なモデルです。それぞれが異なるデータ処理の手法を持っており、Transformerを理解するためにこれらの知識が必要とされます。

RNNは時系列データやシーケンスデータに適したモデルで、過去の情報を保持しながら新しい情報を処理します。各ステップで同じ重みを再利用し、ループ構造を持ちます。RNNは過去の情報を保持しているため、時間的な文脈を理解するのに適しています。TransformerはRNNの課題である長期依存関係を扱うための手法であり、その差異を理解するためにRNNの仕組みを知ることが役立ちます。

また、CNNは主に画像認識などに使用され、特徴の抽出を行う「畳み込み層」と、特徴を圧縮する「プーリング層」から成ります。CNNは画像の空間的な関係性を捉えることが得意です。Transformerは畳み込み層や自己注意メカニズムを組み合わせたものであるため、CNNの畳み込み層が特徴を捉え、それをTransformerの自己注意メカニズムが処理するイメージを持つと、理解しやすくなります。

つまり、RNNとCNNの知識があると、異なるデータ処理手法や特徴抽出方法を理解するために役立つうえ、Transformerが他のモデルとどのように異なるのかを把握できます。

Attention

Attentionは、ニューラルネットワークにおいて重要な概念の一つで、異なる部分の重要度を割り当てるために使用されます。

Attentionは異なる要素や特徴量に対して重みを割り当てるメカニズムです。この重みは、特定のタスクにおいてどの要素が重要であるかを示します。また、Attentionは、シーケンスや系列データを処理する際に特に役立ち、特定の位置や要素に重点を置くことができます。

TransformerはAttentionメカニズムを中心に構築されており、その理解にはAttentionの概念を知ることが必要です。Transformerの中核はSelf-Attentionです。この概念を理解するためには、Attentionがどのように動作し、特定の要素や位置の重要度をどのように決定するかを理解することが重要です。

また、Attentionは異なる要素の間の関連性を捉えていますが、Transformerの自己注意機構は、入力の各要素間の依存関係を捉えるため、Attentionの原理を理解することで、Transformerが異なる要素間の関係性をどのように学習するかを把握できます。

さらにTransformerはAttentionを中心に構築されたモデルであり、これにより長期的な依存関係を捉えることができます。そのため、Attentionの理解はTransformerが従来のモデルとどのように異なるのかを理解するための鍵となります。

つまり、Attentionの概念を理解することで、Transformerがデータの異なる部分の関係性を捉え、その特性をもつことがなぜ重要なのかがより明確になります。

Transformerを使用するメリット

Transformerを使用すると、以下のメリットがあります。

並列処理ができる
長期記憶ができる

これらのメリットにより、TransformerはNLPを含む多くのデータ処理タスクにおいて革新的なモデルとして広く採用されています。

並列処理ができる

Transformerは並列処理が可能で、計算の高速化や効率的なリソース利用に大きなメリットをもたらします。

Transformerが並列処理ができる理由の1つは、その構造自体にあります。自己注意メカニズム（Self-Attention）はシーケンス内の要素を同時に処理できるため、異なる位置の要素間の計算が独立しています。

通常のRNNなどではシーケンス内の各要素は順番に処理されますが、Transformerでは要素間の計算が独立しているため、複数の要素を同時に処理することで計算効率が向上します。また、大規模なモデルや複雑なタスクでも、並列処理によりトレーニングや推論の高速化が可能です。

さらに並列処理ができるとリソースをより効率的に利用できるため、複数の計算リソースを同時に使用して、全体的なモデルのトレーニングや推論にかかる時間を短縮できます。

Transformerの並列処理能力は、特に大規模なモデルやデータセットに対して効果を発揮します。処理速度の向上や、リソースの効率的な活用が可能です。

長期記憶ができる

Transformerは依存関係を長期的に保存する能力があります。長期記憶は文脈をより正確に理解し、適切な意味を与えることで、自然な文章を作成でき、対話的に意味のある応答を可能にします。

具体的なTransformerの発展モデルとは？

Transformerアーキテクチャをベースにした有名モデルには、以下の6点が挙げられます。

BERT
Reformer
Conformer
T5
DeFormer
PaLM

上記の発展モデルは、元のTransformerアーキテクチャをベースにして様々な改良や拡張が加えられたものです。

ここでは、各モデルの特徴について説明します。

BERT

BERT（Bidirectional Encoder Representations from Transformers）は、Transformerアーキテクチャをベースにしており、大規模なコーパスからプリトレーニングされた深層学習モデルです。自然言語処理（NLP）において重要なプリトレーニングモデルであり、2018年にGoogleによって提案されました。

名称の中の「Bidirectional（双方向）」が示すように、BERTは文脈を左から右・右から左の両方向から学習することで、文脈をより正確に理解し、単語の意味や文の意味の一貫性を把握できます。

また、BERTは大規模なテキストコーパスからプリトレーニングされることで、一般的な言語理解の知識をモデルに組み込むことができます。プリトレーニング段階では特定のタスクに依存しないため、ファインチューニングによってさまざまなNLPタスクへの適用が可能です。

BERTは、文の埋め込み表現を効果的に学習し、さまざまなNLPタスクで高い性能を発揮するため、NLPコミュニティで大きな注目を集め、多くの派生モデルや応用が開発されています。

Reformer

Reformerは、Googleが提案したTransformerベースのニューラルネットワークモデルの一つです。Transformerの基本的な考え方を受け継ぎつつ、効率的な計算方法を取り入れることで、長いシーケンスや大規模なモデルの学習に向いています。

従来のTransformerでは、全てのトークンの間の関連性を学習するために二次計算量が必要でしたが、ReformerではLocality-Sensitive Hashing（LSH）などのテクニックを用いてSelf-Attentionを効率化し、長いシーケンスを扱う際の計算量を削減しました。

また、可逆な層を導入してメモリ使用量を削減することで、逆伝播時にメモリを節約し、大規模なモデルのトレーニングが可能です。

Conformer

Conformer（コンフォーマー）は、音声認識などの音声処理タスクに適した深層学習モデルの一つです。Conformerは、Transformerアーキテクチャをベースにした上で音声認識や音声合成、自然言語処理などのタスクに改良を加え、高い性能を発揮しています。

Conformerは畳み込みニューラルネットワーク（CNN）の要素を導入し、音声信号を特徴抽出することで、局所的な特徴の抽出が改善され、音声情報を効果的に捉えられます。Transformerと同様にSelf-Attentionを使用しますが、多層のSelf-Attentionを導入することで長い音声シーケンスに対しても、適切な保存が可能です。

また、Conformerは位置エンコーディングを使用して、音声シーケンス内のトークンの位置情報をモデルに提供しているため、音声の時間的なパターンを考慮することができます。

Conformerは、音声認識や音声合成のタスクにおいて高い性能を発揮し、実用的な音声処理システムに多数採用されています。

T5

T5（Text-to-Text Transfer Transformer）は、Googleが提案したTransformerベースのモデルで、テキストからテキストへの変換を行うことを目的としています。T5は、さまざまな自然言語処理タスクを統一的に扱えるよう設計されており、単一のアーキテクチャを使用して多様なタスクに適用できます。

T5は「テキストからテキスト」への統一的なアプローチを採用しており、入力と出力がテキストで表される様々なタスクを統一的に扱います。例えば文章生成や文書の要約、翻訳、質問応答などの多様なタスクを同じ枠組みで取り扱えます。条件付きでテキストを生成する能力も持ち合わせており、特定の質問に回答する文章生成も可能です。

T5はさまざまな自然言語処理タスクにおいて高い性能を持っている多目的かつ柔軟なモデルで、幅広い自然言語処理タスクに適用されています。

DeFormer

DeFormerとは、Transformerベースのモデルを高速に実行できるよう、分解の要素を取り入れたモデルです。

Transformerモデルには多くのレイヤーやヘッド、パラメータがあります。長い文脈を考慮するために全ての単語にAttentionをかけると、長い文の場合にモデルの学習や推論に時間がかかります。結果として推論時の処理が複雑化し、Q&A形式のタスクにおいては速度が遅くなることがあります。

そこでDeFormerでは、下位層を分解して推論することで使用メモリの削減やモデルの高速化が可能になりました。

PaLM

PaLM（Pathways language Model）は2022年にGoogleが発表したTransformerベースの大規模言語モデルです。

標準的なTransformerモデルを元に、複数のTPUポッドにわたる高効率のトレーニングを可能にする新しいMLシステム「Pathways」を使用しています。なお、Pathwaysでは2種類のTPUポッドを使用して並行学習しています。

さらにPaLMはGoogleが自社開発した深層学習用プロセッサー「TPU V4」を6144個搭載したコンピューター上でトレーニングを実行しています。なお、PaLMのパラメーター数は5,400億個、トークン数は7,800億個に及びます。

なお、2023年5月には上位モデルであるPaLM2が登場しています。PaLM2では、さらに多言語や推論、コーディング機能を向上させています。

まとめ

今回の記事では、Transformerの仕組みや理解するために必要な知識、発展モデルについて紹介しました。Transformerは非常に柔軟で効果的なモデルであり、深層学習の分野において大きな進歩をもたらしています。

また、自然言語処理だけでなく、画像処理や音声処理などの他の領域にもTransformerが適用され始めています。将来的にはこれらの領域での適用がさらに拡大し、新しい応用が生まれる可能性があります。

Transformerは深層学習の世界に大きな影響を与えており、その柔軟性と性能から、今後も進化し続けることが予想されます。新たなアイデアや技術の組み合わせにより、Transformerの構造や機能はさらに向上を望めます。

SNSシェア: X

facebook

hatebu

LINE

pocket
CATEGORY: 学習
TAGS: Transformer

この記事を書いた人

CHIHARU ／ライター

1992年生まれ、北海道出身。トレンドスポットとグルメ情報が大好きなフリーライター。衣・食・住、暮らしに関する執筆をメインに活動している。最近のマイブームは代々木上原のカフェ巡り。

詳しいプロフィールはこちら

この記事を監修した人

草島亜久斗／監修者

大学在学中、FinTech領域、恋愛系マッチングサービス運営会社でインターンを実施。その後、人材会社でのインターンを経て、インターン先の人材会社にマーケティング、メディア事業の採用枠として新卒入社し、オウンドメディアの立ち上げ業務に携わる。独立後、フリーランスとしてマーケティング、SEO、メディア運営業務を行っている。

詳しいプロフィールはこちら