1. TOP
  2. エンスタマガジン
  3. 学習
  4. LLM(大規模言語モデル)のデータセットまとめ

LLM(大規模言語モデル)のデータセットまとめ


はじめまして、エンジニアスタイル編集部です!

コラムページでは、ITフリーランスに向けてお役立ち情報を発信します。Twitterではホットな案件を紹介してまいりますので、ぜひフォローをお願いいたします!
本記事が、皆様の参考になれば幸いです。

経験がまだ少ない方にもわかりやすく説明するために、初歩的な内容も記載しております。記事も長いので、実務経験豊富な方は、ぜひ目次から関心のある項目を選択してください。

エンジニアスタイルは、最高単価390万円、国内最大級のITフリーランス・副業案件検索サービスです。LLM(大規模言語モデル)のフリーランス・副業案件一覧をご覧いただけますのであわせてご確認ください。

はじめに

「LLM(大規模言語モデル)はどのように活用するの?」、「商用利用または研究用のデータセットはあるの?」という疑問をお持ちではないでしょうか。

LLMとは、膨大なデータを元に言語のパターンを学習するモデルで、データセットの質や量によってモデルの性能が変わってきます。

本記事では、LLMの概要から、主なデータセットの活用方法、そのソースまで詳しく解説します。

読めば、LLMをより効果的に活用するヒントや、最適なデータセットを見つける一助となるでしょう。

<この記事を読むとわかること>

  • LLM(大規模言語モデル)の基本的な概念とその重要性
  • データセットの具体的な活用方法とその例
  • 商用や研究で使える主なデータセットのソースとその特徴
  • LLMを最大限に活用するためのヒントや考え方

LLM(大規模言語モデル)とは何か

ChatGPTに代表される生成AIが注目を集めるにつれて、LLM(大規模言語モデル)という言葉も多く耳にするようになりました。

しかし、LLM(大規模言語モデル)について詳しく説明を求められると、意外に説明できない人も多いのではないでしょうか。

ここでは、LLMを正しく理解するために必要な「言語モデル」と「データセット」について見ていきましょう。

そもそも言語モデルとは何か

言語モデルは、単語や文章がどのように続くのが自然かをコンピュータに理解させるための技術です。

例えば、私たちが「おはよう」とメッセージを打ち始めたら、スマートフォンが「ございます」と自動で提案する機能がこれにあたります。

これは、コンピュータがたくさんの「おはよう」という言葉の後に続く単語を学習して、「ございます」という言葉が自然に続くことを学んだ結果です。

このように、言語モデルを使用すれば生成AIのようなコンピュータに、人間と同じような応答をさせることが可能になります。

LLMにおいてデータセットはなぜ重要なのか

「大規模」という言葉が示す通り、LLMは膨大な量のテキストデータから言語を学びます。

この学びを得るための教材がデータセットです。

人間が新しい言語を学ぶときには、教科書や実際の会話例などさまざまな教材を使うのと同じように、LLMも多様なテキストデータを必要とします。

データセットが重要なのは、言語モデルが世界に存在する様々な表現や言い回しを理解するためです。

良質で多様なデータセットがあればあるほど、モデルはより正確で自然な言語を生成することができるようになります。

データセットには、ニュース記事からソーシャルメディアの投稿、専門的な文書や日常の会話に至るまで、あらゆる種類のテキストが含まれていることが理想的です。

これによって、モデルは幅広い状況や話題に対応できるようになります。

データセットの活用方法

大規模言語モデルが人間のように言語を扱うためには、二段階の学習過程を経ます。

これらは「事前学習」と「ファインチューニング」と呼ばれ、どちらも重要な役割を果たします。

事前学習に活用されるパターン

事前学習は、言語モデルが世界について学ぶ初等教育のようなものです。

ここでは、インターネット上の記事、本、辞書、ウィキペディアのテキストなど、様々な種類のデータセットを使用して、幅広い知識と言語の使い方を学びます。

この段階での目的は、文の構造、単語の意味、文脈における言葉の使い方など、言語の基本的な理解を身につけることです。

例えば、モデルが「リンゴが木から落ちる」という文を見たときに、これが物理的な出来事を表していると理解するようになります。

事前学習では、非常に大量のデータが使われるため、モデルは多種多様なテキストに触れることができ、世界についての広範な知識を得ることが可能になります。

ファインチューニングに活用されるパターン

ファインチューニングは、専門学校や大学のようなもので、もっと特定の知識を深めていく段階です。

ファインチューニングでは、事前学習を終えたモデルが、特定のタスクや目的に合わせてさらに訓練されます。

これは、医学の専門知識を持つドクターや、特定のジャンルに詳しいライターのような専門性をモデルに持たせる過程です。

例えば、医療関連の質問に答えるためのデータセット、顧客の感情を分析するためのレビュー、または特定の言語間での翻訳を行うための文章ペアなど、特定の用途に特化したデータセットが用いられます。

ファインチューニングを通じて、モデルはそのタスクに最も適した言葉選びや応答の仕方を学びます。

主なデータセットのソースの種類

データセットと一口に言っても、私たちの世界にはありとあらゆる種類の情報が無限大に存在します。

LLMは、このような膨大な情報をどのように取得しているのでしょうか。

ここでは、データセットがどのようなデータを基に学習しているのかを理解するために、主なデータセットのソースの種類についてご紹介します。

事前学習に活用されるデータセットの種類

大規模言語モデルを訓練する際には、様々な情報源から得られるテキストデータが利用されます。

以下に挙げるのは、事前学習でよく使われるデータセットのソースの例です。

CommonCrawl

CommonCrawlはインターネット上のウェブページを定期的に収集してアーカイブするプロジェクトです。

このアーカイブには、ニュースサイト、ブログ、フォーラム、電子商取引サイトなど、多岐にわたるコンテンツが含まれています。

これにより、言語モデルは現実世界の多様なテキストを学ぶことができ、俗語や新しい言葉の使用方法も把握することができます。

書籍

書籍には、フィクション、ノンフィクション、教科書、マニュアルなど、幅広いジャンルが含まれており、それぞれが独自の文体と用語を持っています。

言語モデルはこれらの書籍から、文学的な表現や専門知識、複雑な物語の構造などを学びます。

Wikipedia

Wikipediaは、世界中の様々なトピックについての情報が集められた無料のオンライン百科事典です。

記事は編集者によって常に更新されており、ファクトチェックされた客観的な情報源として価値があります。

言語モデルはWikipediaから正確な情報を提供するスキームや、様々なトピックについての基礎知識を学びます。

コードデータ

プログラミング言語で書かれたコードデータは、GitHubのようなプラットフォームで広く利用されています。

コードは、一種の言語として機能します。言語モデルはこのコードデータを分析することで、プログラムがどのように構築され、どのように機能するかを理解するためのパターンを学習します。

ファインチューニングに活用されるパターン

ファインチューニングは、事前学習された言語モデルを特定のタスクや目的に合わせて洗練させるプロセスです。

以下は、それぞれの目的に応じたデータセットの例です。

質問応答タスク用データ

質問応答(QA)タスクは、モデルに対して人間が質問をし、それに対する適切な答えを返す能力を訓練します。

データセットには、実際の質問と、それに対する正確な回答がペアになっています。

このデータを用いることで、モデルは情報を理解し、具体的な質問に対して正確な情報を抽出して回答する能力を高めます。

感情分析タスク用データ

感情分析は、テキストの中の感情的なトーンや態度を識別するタスクです。

例えば、商品レビューやSNSの投稿などのテキストには、人間の感情が反映されています。

感情分析タスク用データセットには、テキストとそのテキストに対する感情のラベル(ポジティブ、ネガティブ、中立など)が含まれています。

言語モデルはこれらのデータを用いて、文脈を理解し、言葉の背後にある感情を読み取る方法を学びます。

機械翻訳タスク用データ

機械翻訳タスクでは、一つの言語で書かれた文を別の言語に翻訳する能力が訓練されます。

このタスク用のデータセットには、元の言語の文とそれに対応する翻訳文がペアになっているのが一般的です。

モデルはこれらのペアを通じて、文の意味を維持しつつ、異なる言語間で正確に翻訳する方法を学習します。

人間のフィードバックデータ

人間のフィードバックデータは、人間の評価者が言語モデルの応答をレビューし、フィードバックをしたものなので、先述した3種類とは少し毛色が違います。

フィードバックは、モデルの応答がどれほど自然で、有用で、正確であるかを評価するのに役立ちます。

言語モデルは、この人間の評価に基づいて、より人間らしい対話を行うように訓練されます。

ベースデータセットのまとめ

大規模言語モデル(LLM)が言葉を理解し、さまざまなタスクを行えるようになるためには、広範囲にわたるデータで学習する必要があります。

ここでいう「ベースデータセット」とは、この学習過程で使われる大量のテキストデータの集まりのことを指します。

以下では、主なベースデータセットの一部をわかりやすく解説します。

The Pile

The Pileは825 GiBのオープンソースの言語モデリングデータセットで、22の小さな高品質のデータセットを組み合わせて作られています。

特に大きなモデルにとって、データソースの多様性はモデルの一般的なクロスドメイン知識やダウンストリームの一般化能力を向上させることが最近の研究で判明しています。

Pileで訓練されたモデルは、伝統的な言語モデリングベンチマークにおいても、Pile BPBにおいても顕著な改善を示しています。

そのため、Pile BPBを使用してモデルを評価するためには、多岐にわたるドメインを理解する能力が求められます。

RedPajama

RedPajamaは、商用利用が可能な完全にオープンソースのデータセットを作成することを目的としており、5テラバイトのデータセットにより構築されています。

MPT、Open Llama、Open Alpacaなどのモデルの訓練に使用されており、3億と7億のパラメータモデルもリリースしています。

これにより、RedPajamaは大手テック企業と競合する性能を持つとされています。

The Stack

The Stackは、6TBのコードデータを持つデータセットです。

GitHubアーカイブからのデータを基にして、ライセンスフィルタリングや近似重複排除を通じて69TBのデータが生成されています。

データセットにはさまざまなプログラミング言語のデータが含まれており、GPT-2モデルを使用した評価によれば、PythonのサブセットでCodexと同等の性能を持っていることが確認されています。

ちなみに、このデータセットを平均的なプログラマーがゼロから作るとすると、約7万5000年掛かると試算されています。

つまり、それほど膨大な量のデータを含むデータセットということです。

コレクションデータセットのまとめ

ここでいう「コレクションデータセット」とは、有志によって収集されたデータセットを一覧で活用できるオープンソースのことです。

LLMはまだまだ研究段階な部分が多く、一般の研究論文や技術者が開発したデータセットを使用してLLMに必要な情報を与えることも多いです。

ここでは、その中でもよく目にする3つをご紹介します。

Alpaca-CoT

Alpaca-CoTは、質問応答や文章生成タスクを目的とした日本語のデータセットです。

特定のトピックに基づいて質問とその回答がペアになっており、AIモデルの訓練や評価に使用されます。

Alpaca-CoTはその名前が示す通り、アルパカのように頼りになるデータセットとして設計されています。

Masahiro Mizukami.github.io 日本語コーパス

Masahiro Mizukamiの日本語コーパスは、日本語の文章やフレーズを収集したデータセットです。

ウェブ上の様々な情報源から収集されたデータが含まれており、日本語の自然言語処理タスクにおいて非常に価値のあるリソースとなっています。

このコーパスは、多様なトピックや文体が網羅されているため、幅広いアプリケーションでの使用が期待できます。

awesome-instruction-tuning(ChatGPT|LLaMA)-dataset

awesome-instruction-tuningは、ChatGPTやLLaMAのようなモデルを対象とした指示に基づくチューニングのためのデータセットです。

ユーザーからの指示や要求を正確に理解し、それに応じて適切なレスポンスを生成する能力を向上させることを目的としています。

このデータセットは、様々な指示やシナリオが含まれており、モデルの指示理解能力の向上に使用するのが良いでしょう。

商用可なInstructionデータセット

Instructionデータセットとは、AIや機械学習モデルを特定の指示に基づいて行動させるためのデータセットです。

一般的に、言語モデルに与えられる指示と、それに対する適切なレスポンスがペアで含まれています。

このデータセットを使用することで、言語モデルは指示にどう反応するかを学習します。

以下では、その中でも商用可能なInstructionデータセットをご紹介します。

databricks-dolly-15k

databricks-dolly-15k」は、Databricks社の従業員が生成した15,000のプロンプトとレスポンスのペアを含むオープンソースのInstructionデータセットです。

このデータセットは、大規模言語モデルを指示に従ってチューニングすることを目的として設計されており、特にChatGPTのような対話型モデルの性能向上を目指しています。

内容には、InstructGPTの論文で触れられている行動カテゴリの一部が含まれています。

また、このデータセットはCreative Commons Attribution-ShareAlike 3.0 Unported License(CC BY-SA 3.0)のもとで提供されており、商用利用も許可されています。

dialogsum

DialogSum」は、日常生活のシナリオ、例えば学校やビジネス、レジャーに関連する13,460件の対話とそれに伴う手動での要約およびトピックを含む大規模な対話要約データセットです。

このデータセットは、機械学習モデルの対話要約能力の向上を目的としており、ACLによって2021年に認定されました。

非商用の目的で使用する際には、CC BY-NC-SA 4.0のライセンスに基づき利用、共有、改変が許可されていますが、商用利用は一部制限されているので注意してください。

AITuber Question Dataset

AITuber Question Dataset」とは、VTuber(仮想YouTuber)に特化した質問セットで、200の質問と200の話題を含むデータセットです。

このデータセットは、「あいちゅーばーわーるど」というコミュニティのメンバーによって作成され、AIを利用したVTuberのコンテンツ制作を目的としています。

使用方法としては、データセット内のquestion.txtを指示データとして活用し、AIの応答を生成するためにファインチューニングが行われます。

MITライセンスの下で提供されており、商用を含めた幅広い利用が許可されていますが、使用時には著作権表示とライセンス文の表示が必要です。

character conversation dataset

character conversation dataset」とは、同人ノベルゲームのテキスト部分をJSONL形式で集約したデータセットであり、キャラクターの会話を中心にしたデータセットです。

大規模言語モデルにキャラクター性を持たせるためのファインチューニングに使用することを主目的としていますが、他の応用も考えられます。

公開終了した同人ノベルゲームからのシナリオをもとに、話者とその発話を抜粋して集められており、内容は1〜2時間程度のプレイ時間のものが中心です。

ただし、キャラクター名は元のゲームとは異なる可能性があります。

Apache License 2.0の下で提供されており、商用を含めた様々な用途での利用が許可されています。

hh-rlhf

hh-rlhf」はAnthropicが開発したデータセットで、AIアシスタントの有益性と無害性に関する人間の評価を集めることを目的としています。

AIアシスタントと人間の対話、無害性の評価スコア、モデルタイプ、試みの成功度などの情報が記録されています。

112,000のトレーニングサンプルと12,500のテストサンプルを含み、MITライセンスのもとで商用利用を含む様々な用途に利用可能です。

Rapid GPT-4

Rapid GPT-4」はGPT-4を用いた無料のアプリを通じてデータを収集するプロジェクトで、Huggingface Spacesにて提供されています。

このアプリではユーザーが「Instruction」として命令文を入力することで「Output」が得られます。

収集されるデータは、ユーザーの同意を得た上で、クリーンなデータセットの作成に活用されるようです。

このデータセットの目的は、特定のドメインでの高性能モデルの基盤として使用することであり、将来的なLLMの開発や商用可能な日本語モデルの公開に役立てることが考えられています。

OASST1

OASST1」はOpenAssistant Conversationsプロジェクトの一環として作成された多言語データセットです。

161,443件のメッセージと461,292件の品質評価を含む10,000以上の完全にアノテートされた会話ツリーが35の異なる言語で収録されています。

「OpenAssistant Conversations — Democratizing Large Language Model Alignment」という論文で紹介されたことから認識が広まりました。

Apache 2.0ライセンスのもとで公開されているため、商用を含む様々な用途での利用が可能です。

CoTangent

CoTangent」は、日本語のCoT(Chain of Thought)を対象とした高品質でクリーンなデータセットであり、100セットから成り立っています。

2つのファイル形式、すなわち”CoTangent_ja.json”と”CoTangent_separated_ja.json”で構成され、前者はCoT部分とoutput部分が繋がっている連続した形式、後者はそれらが分離されている形式で表示されます。

Hugging Faceのデータセットコレクションとして公開されており、Apache License 2.0に基づいて、改変、再配布、そして商用を含むあらゆる用途での利用が認められています。

LMSYS-Chat-1M

LMSYS-Chat-1M」は、実際の会話から成る100万件を超える大規模なデータセットで、25種類の先進的な大規模言語モデルとの会話が収録されています。

会話データは主に、VicunaデモやChatbot Arenaのウェブサイトを通じて210,000以上の異なるIPアドレスから集められました。

AIの安全性、コンテンツモデレーション、指示ベースのモデルトレーニング、LLMの評価方法の向上などの研究目的で使用されることが推奨されています。

利用には特定の条件への同意が必要で、これに従うことで研究や商業目的を含む様々な用途での使用が許可されています。

simple-zundamon

simple-zundamon」データセットは、YpuTubeの解説動画などでお馴染みのキャラクター「ずんだもん」のキャラクター設定を収録したシンプルなデータセットです。

YouTubeの解説動画やその他の情報源から収集されたデータに基づいて構成されています。

YouTubeの解説動画を「ずんだもん」を通して行う場合に、このデータセットを使えば動画のクオリティを上げられる可能性が高まります。

ただし、このデータセットを利用する際には、関連するライセンス条件の確認と遵守が必要です。

研究用のデータセットのまとめ

上記に紹介したデータセットは、主に商用利用を想定したデータセットです。

以下では、もう少し上級者向けに研究用に使用されるデータセットをいくつかご紹介いたします。

ただし、あくまで研究目的に使用する場合のみ利用可能なデータセットですので、商用利用をするのはお控えください。

Yahoo! 知恵袋データ(第3版)

Yahoo! 知恵袋データ(第3版)」は、国立情報学研究所がLINEヤフー株式会社から提供を受け、研究者に向けて公開しているデータセットです。

このデータセットは、日本最大の知識検索サービス「Yahoo!知恵袋」から、解決済みの質問と回答を収集したものであり、質問・回答のID、カテゴリ、タイトル、本文、投稿・解決の日時、ベストアンサーフラグ、画像付きフラグ、投稿デバイスなどのデータ項目が含まれています。

提供されるデータは年度ごとに更新され、データの収録期間は提供時期から3〜5年前の3年間です。

データセット内には、この期間内に投稿され、解決した質問の10%をランダムサンプリングしたものと、それに対する全ての回答が含まれています。

楽天データセット

楽天データセット」とは、楽天グループ株式会社が国立情報学研究所を介して研究者に提供しているものです。

楽天市場の商品データや商品レビュー、ショップレビュー、楽天トラベルの施設データやレビューデータ、楽天GORAのゴルフ施設データとレビューデータ、そして楽天レシピのレシピ情報や画像、Pickupレシピ、デイリシャスニュースなどが含まれています。

他にも、筑波大学から提供された楽天トラベルのレビューデータの評価極性情報や、カテゴリラベル付き商品画像データセット、文字領域アノテーション画像、楽天不動産の間取り図と壁ラベルなどのアノテーション付きのデータも構成されています。

非常に大量のデータセットが含まれているので、広範な研究用途で利用が可能です。

ニコニコデータセット

ニコニコデータセット」は国立情報学研究所が(株)ドワンゴから受け取り、研究者に提供しているものです。

このデータセットには「ニコニコ動画」の2007年から2021年までの約2,000万件の動画のメタデータと41億件のコメントデータが含まれていますが、動画データそのものやユーザIDは含まれていません。

また、ニコニコ大百科の2014年2月上旬までの記事データも提供されており、これには記事のヘッダ、本文、および関連する掲示板のデータが含まれていますが、ユーザーページやユーザIDは除外されています。

リクルートデータセット

リクルートデータセット」は、国立情報学研究所が株式会社リクルートから受け取り、研究者向けに提供しているものです。

このデータセットは、2012年1月から2014年1月までにホットペッパービューティーに掲載された情報をまとめたもので、店舗の基本情報、店舗のブログ内容、スタイリストのプロフィール、利用できるクーポン、提供されるメニュー、セットメニュー、そして顧客の口コミデータなどが含まれています。

各データはTSV形式で提供され、特定のIDを用いて異なるデータ間の関連付けが可能となっています。

クックパッドデータセット

クックパッドデータセット」は、クックパッド株式会社が国立情報学研究所を介して研究者に提供しているものです。

クックパッドに掲載されている172万品のレシピやそれに関連する献立データを収録しています。

具体的には、2014年9月30日までに公開されたレシピのタイトル、概要、手順、つくれぽ、カテゴリなどの情報や、献立のタイトル、含まれるレシピ、主菜や副菜の区分などの献立に関する情報などで構成されています。

データは7z形式で圧縮されたMySQLのバックアップファイルとして提供され、展開後のサイズは約5.5GBです。

LIFULL HOME’Sデータセット

LIFULL HOME’Sデータセット」は国立情報学研究所が株式会社LIFULLから提供を受け、研究者に提供しているデータセットです。

このデータセットは不動産・住宅情報サイトLIFULL HOME’Sのデータを収録しており、2015年9月時点の賃貸物件情報やその物件に関する画像データ、高精細度の間取り図画像データ、そして2015年7月から2017年6月までの賃貸・売買物件の月次データが含まれています。

データはTSV形式やJPEG形式で提供され、一部のデータにはフリーテキストの説明や関連するブログ記事への参照も付与されているので、利用する際はご注意ください。

ダイエット口コミデータセット

ダイエット口コミデータセット」は、ダイエットカフェ株式会社が国立情報学研究所を介して研究者へ提供しているデータセットです。

このデータセットは、ダイエットカフェ株式会社が運営する「ダイエットカフェ」という口コミサイトの2008年8月3日から2019年10月3日までの投稿データを収録しています。

期間内に投稿された約8,000のダイエット商品に関する約16万件の口コミデータが収められており、個人情報は含まれていません。

また、データには商品情報や口コミ内容、評価、投稿者の性別や年齢などの情報が記載されています。

データ形式はCSV形式で、サイズは約60MBとなっています。

弁護士ドットコムデータセット

弁護士ドットコムデータセット」は、弁護士ドットコム株式会社が国立情報学研究所を介して研究者に提供しているデータセットで、同社が運営するオンライン法律相談サービス「みんなの法律相談」の2017年1月から2019年9月までの投稿データを収録しています。

約25万件の質問とそれに対する弁護士の回答のテキストデータが含まれており、個人情報は含まれていません。

質問のカテゴリーや回答への「弁護士が同意」の人数、質問者の「ありがとう」「ベストアンサー」の評価が主に記録されています。

データはCSV形式となっており、サイズは約700MBです。

ただし、このデータセットは最新の法律には対応していないため、利用する際には注意が必要です。

JASTメディカルデータセット

JASTメディカルデータセット」は、日本システム技術株式会社が国立情報学研究所を介して研究者に提供するデータセットで、同社が保有する700万人超のレセプトデータを傷病別に集計したデータセットです。

性別、年代、医療機関都道府県などの情報を元に、傷病情報ICD-10コード別の患者数、レセプト件数、医療費を月次で集計した3年分のデータが含まれています。

もちろん、個人情報は含まれていません。また、主傷病に基づき医療費が集計され、治療中の傷病に即したデータも得られます。

データセットはCSV形式で、3年分のデータサイズは約300MBです。2022年1月に提供が開始され、以降3カ月ごとにデータが追加される予定となっています。

まとめ

本記事では、LLM(大規模言語モデル)の基本的な概念やその重要性、データセットの活用方法、商用や研究における主要なデータセットソースを紹介しました。

LLMは言語のパターンを学習するモデルであり、その質や性能は使用するデータセットに大きく影響されます。

LLMは現代のAI技術の中心となっており、その進化と応用範囲は今後も拡大が期待されます。

そのため、データセットの選定やカスタマイズが、更なる精度向上や新しい用途開拓の鍵となるでしょう。

この記事を通して、読者の皆様がLLMやデータセットの深い理解を得ることができ、実際の業務や研究に役立てる知識として活用していただけることを願っています。

SNSシェア
CATEGORY
学習
新規会員登録エージェントとの初面談1社につきAmazonギフト券3,000円分全員にプレゼント!

あわせて読みたい関連記事


おすすめ&新着求人・案件


各種SNSで情報を
発信中フリーランスで働くエンジニアに役立つ情報を発信しています。
フリーランス求人・案件の選び方や注意点、単価を上げるコツなどをエンジニアスタイルの編集部が発信しています。
フォロー・友達に追加していただき最新の情報をGETしてください。