機械学習にはどれくらいの学習データが必要か?

機械学習にはどれくらいの学習データが必要か?
ダニエル・スミス | 2018年11月16日

高品質な学習データとは、各業界をリードするアルゴリズムと、流れから取り残されるアルゴリズムの違いです。人工知能(AI)から最高の性能を引き出すのには、どれだけの学習データが必要なのかを問うのはまったく理にかなっています。

とはいえ、この質問はデータサイエンティストを激怒させかねません。これは構築中のアルゴリズムの種類からビジネス上の位置付けまで幅広い要素に影響されるため、思ったよりもずっと複雑で答えにくい問題だからです。機械学習プロジェクトにどれほどの学習データが必要なのか割り出す方法を検討する前に、この問題の厄介な点をいくつか見てみましょう。

必要なデータ量を見積もるのが難しいのはなぜ?

データポイントの目標数を確定するのにひと苦労するのは、学習過程の目標が原因です。以前の記事でAI学習の仕組みについて説明しましたが、AI学習の目標はデータそのものではなく、データのパターンや関連性を理解したアルゴリズムを構築することです。データを収集する際は、集めたデータの量によってアルゴリズムはデータ間やデータと結果間の関連性について学習します。

これは一見とても簡単に予測できそうに思われガチ。しかし、以前の記事で説明したように、機械学習プロジェクトの目標は多種多様なので、学習データの種類も広範なものとなります。よって、プロジェクトごとに独自の様々な要素が重なり合い、前もってデータの必要量を算出するのが非常に難しくなるのです。これには以下の一部またはすべてが含まれる可能性があります。

  • アルゴリズムの複雑性: アルゴリズムがタスクを実行するために考慮すべき各パラメーターは、AI学習に必要なデータ量を増加させます。例えば、ある車の型式を特定するように要求されたアルゴリズムが持っているのは、主に車の外形に関する少数のパラメーターです。その車の値段を判定しなければならないアルゴリズムは、車の型式や状態だけでなく、経済的要素や社会要素等、さらに全体像を理解しなければなりません。この複雑度の高さによって、二つ目のアルゴリズムには一つ目よりはるかに多くのデータが必要となります。

 

  • AI学習法: アルゴリズムは多数の連携パラメーターを理解することが求められるため、その結果もたらされる複雑さによってアルゴリズムの学習方法が変わってきます。従来の機械学習アルゴリズムでは構造化された学習を使用しますので、追加のデータがわずかな関心領域しか持たない点にすぐに到達します。一方、深層学習アルゴリズムは独自のパラメーターを見つけ出し、構造なしに向上する方法を学びます。つまり、このアルゴリズうにはより多くのデータが必要となるというだけでなく、より長い学習カーブも必要となり、そこでは追加データがプラスの影響をもたらすのです。このように、使用する学習方法によってアルゴリズムに役立つAI学習データの量は大きく違ってくるのです。

 

  • ラベル付けの必要性: 実施するタスクにより、データポイントには様々な方法で注釈が付けられます。このためデータが生成するラベル数や、ラベルを生成するのに要する労力は大きく変動します。例えば、感情分析用の一千文の入力データがあるなら、それがポジティブなのかネガティブなのかをラベル付けするため、一文につき一つのラベルを作成すればよいだけです。しかし、この一千文に固有表現抽出の注釈を付けるなら、1文につき五つの単語をラベル付けしなければならないかもしれません。同じ未加工のインプットデータでも、あるタスクで生成されるラベルの量は他の五倍になるわけです。ですから、データを作成する方法によって、プロジェクトに必要なデータ量やその調達コストが変わってくるのです。

 

  • エラー耐性: ビジネスにおけるアルゴリズムの役割もデータ量に影響します。天気を予測するアルゴリズムなら20%のエラー率は許容範囲ですが、心臓発作のリスク患者を検出するアルゴリズムの場合はそうではありません。境界条件を改善すればこのリスクは低減されます。アルゴリズムが非常にリスク回避的であるか、ビジネスの成功に不可欠なものであるなら、完璧な性能への要求に応えるため、必要なデータ量は増加します。

 

  • インプットの多様性: 我々の暮らしている複雑な社会では、アルゴリズムにさまざまなインプットを与えることが可能です。例えば、チャットボットは改まった文体やくだけた文体、文法的に誤ったものまで、さまざまな言語で書かれた文を理解できなければなりません。アルゴリズムのインプットが高度に制御されるのでなければ、この予測不可能な環境でアルゴリズム関数を支援するのにより多くのデータが必要となります。

最終的にはプロジェクトリーダーがこれらの要素を調整して独自の目標を見つけなければなりません。以上を念頭において、データの必要量を判定する方法をいくつかみてみましょう。

必要な学習データ量の計算方法は?

任意のアルゴリズムが必要とする正確なデータポイントのな数を決定するのはほとんど不可能です。幸いなことに、プロジェクトの分析に基づいた一般的評価から始めるのでも十分です。以下二つはこれを始める一般的な方法です:

  • 十の法則: 一般的でかなり議論されてきた経験則は、アルゴリズムには自由度の十倍のデータが必要となることが多いということです。自由度はアルゴリズムのアウトプットに影響するパラメーターであり、あるデータポイントの属性でもあり、より簡単に言うとデータセットのカラムでもあります。十の法則はこのような合成パラメーターがアルゴリズムのインプットにもたらすばらつきを補償することを目的としています。これは複雑なアルゴリズムについては答えようのない別の問題についての議論を見直すだけでほとんど役に立ちません。しかし、この法則によって即座に提示される見積もりは、プロジェクトを動かすのには十分なものです。

 

  • 学習カーブ: すでにいくらかのデータがあるものの、もう少し多くのエビデンスに基づいて決定を下したい場合は、データセットの規模に基づいてアルゴリズムの能力を評価することを検討してみてもよいかもしれません。グラフに結果を作図することで、データセットの規模とアルゴリズムのスキルの関連性を割り出せますし、それ以上データを与えるとリターンが減少するという点を特定することもできるはずです。これは、多少のロジスティック回帰の問題をもたらし、多大な労力を要する方法ですが、単なる推測するよりもより信頼性の高い結果を提示するものです。

多くの場合、最善なのは今あるデータでアルゴリズムの取り組みを開始して、必要と思われた時にさらにデータを追加することです。プロジェクトの成果がある程度見えるようになれば必要なデータ量もいっそう明らかになるでしょう。それでも具体的な数値を知ってから取り組みを開始したいという方のために、Gengoがインターネット上で探し出したプロジェクトのデータセットの推定規模を以下にいくつか挙げておきます。これらの具体例は、あなたのプロジェクトで目指すべき数値のヒントを与えてくれるのではないでしょうか。

ProjectTaskAmount of data
FaceNet顔検出と顔認識45万サンプル
MIT CSAIL画像アノテーション18万5千件の画像、6万2千件の注釈付き画像、 65万件のラベル付き物体
SproutTwitterの感情分析数万件のツイート
‘Twitter Sentiment Analysis: The Good, the Bad and the OMG!’Twitterの感情分析調査全60万データポイントの三コーパスからのセレクション
“Analysis and Classification of Arabic Newspapers” Facebook Pages using Text Mining Techniques’アラビア語フェイスブックページ時の感情分析と分類6万2千投稿、9千コメント
‘Improved Text Language Identification for the South African Languages’テキスト言語識別一言語につき3千件の学習サンプルと千件の試験サンプル
TransPerfect機会翻訳400万単語
‘Building Chatbots from Forum Data: Model Selection Using Question Answering Metrics’チャットボット学習20万の質問と対になる200万の回答
Online Learning Library自然言語処理研究1万5千学習ポイント、100万以上の機能
AI学習データの量と質、どっちが大事なのか

AI学習データの限界はアルゴリズムの世界の限界です。ただし、これはデータの必要量に関する話のすべてにおいて、データの量だけでなくデータの質にも適用されるということを忘れないでください。アルゴリズムにとって百万件の乱雑なデータポイントは、百件の欠点がなく詳細なデータがアルゴリズムが目標に狙いを定めるのに役立つのに比べてはるかに劣ります。何を構築する場合でも、使用するデータが強固な基盤となり成功の可能性を高めるのだということをお忘れなく。

十年にわたるクラウドソーシングプラットフォーム構築の経験を持つGengoは、量と質を完全に融合します。22,000人のプロフェッショナルな人材は、広範な使用例でデータを作成し、注釈を付け、改善するのに必要なあらゆるスキルを持っています。障壁を取り除き、アルゴリズムがレベルを上げるのを助けるのにGengoは最適の選択肢です。今すぐ営業部門に連絡し、Gengoがあなたのデータを次のレベルに上げられることをお確かめください。

※本記事は Gengo AIの英語版ブログに掲載された記事を翻訳したものです。

著者紹介
ダニエル・スミス

Gengoでコンテンツマーケティング担当。イギリス出身で、2013年に初めて日本に移住。趣味は観光、フォトグラフィー、そして音楽を聴くこと。

トップへ戻る