機械学習とは何ですか?
機械学習は、アルゴリズムが大規模なデータ セットを使用して分析、分類、予測を行うことを可能にする、ますます一般的なコンピューター テクノロジです。 機械学習は、関連テクノロジーに比べて複雑さや強力さは劣りますが、多くの用途があり、世界中の多くの大企業で採用されています。
機械学習 (ML) とは何ですか?
機械学習は、人間の脳が学習するのと同じ方法でコンピューターが学習できるように設計されています。 ML は、大規模なデータセットとアルゴリズム (モデル) を使用して、データを分析および分類したり、予測を行ったりします。 機械学習モデルを使用すればするほど、より多くのデータを処理し、タスクをより適切に実行できるようになります。 モデルはそれ自体で改善することができ、人間によって更新することもできます。
ディープラーニングのような同様のテクノロジーとは異なり、機械学習では ニューラルネットワーク. ML は次のような開発に関連していますが、 人工知能)、それらのテクノロジーほど高度でも強力でもありません。
機械学習は 1960 年代からさまざまな形で存在し、ますます広く使用されるようになりました。 金融サービス企業の約 70% は、何らかの尺度で何らかの形式の ML を使用しています。
機械学習の定義
機械学習は 2 つの要素から始まります。 アルゴリズム そしてデータセット。 このアルゴリズムは、ML モデルに何をすべきかを指示します (画像の分析、パターンの検出、予測の実行)。 データセットは、次の場合とそうでない場合があります。 機密扱い またはアルゴリズムを支援するためにラベルが付けられています。 次に、アルゴリズムはデータを処理して出力を生成します。
アルゴリズムが処理するデータが多ければ多いほど、アルゴリズムの精度は向上します。 通常、モデルは組み込みロジックに基づいて改善を行いますが、人間がアルゴリズムを更新したり、出力品質を向上させるためにその他の変更を加えたりすることもできます。
これが「学ぶ」ということなのです。 人間は基本的な概念やスキルを学び、反復と推定を通じて向上します。 それが ML の目標でもあります。 従来のコンピューター プログラムは、特定の機能を実行するように設計されていますが、それらの機能は比較的限定されており、プログラマーが変更した場合にのみ変更できます。 ML では、より多くのデータとタスクの経験に基づいてモデル自体が変更されるように設計されています。
たとえば、画像検出アルゴリズムは、赤い髪の人物が含まれる写真を分析する場合があります。 モデルを初めて使用するとき、その出力の精度は 2 回目よりも低くなりますが、3 回目ではより正確になります。 この改善は、モデルが人間と木や牛を区別したり、赤毛と金髪を区別したりするためのより良い技術を開発したために起こります。
4 種類の機械学習
各カテゴリにはサブタイプがありますが、機械学習の主なタイプは次の 4 つです。
- 監視された ML: これは、ラベル付けされた構造化データと、最も人間的な介入を使用して、モデルの作成者が求めるパターンを見つけます。 これは、自動化でき、簡単に定義して理解できるルールがあり、利用可能なデータが大量にある比較的単純なタスクに使用するのが最適です。
- 教師なし ML: 教師あり ML とは異なり、ラベル付きデータや構造化データは利用できません。 代わりに、モデルはパターンを検出し、モデルの作成者が探していないものを含むデータに基づいて結論を導き出します。 これは、パターンの検出と分類 (行動に基づいた顧客のグループ化など) に使用され、それらのパターンに基づいてアクションを実行します。
-
半教師ありML: 最初にラベル付きデータを使用してモデルをトレーニングし、次にラベルなしデータをモデルに処理させることで、上記の 2 つのタイプを組み合わせます。 半教師あり ML は、十分なラベル付きデータがない場合、またはそのデータの生成が非現実的である場合に役立ちます。
- 強化: このタイプの ML は報酬または肯定的なフィードバックに基づいており、正解/不正解を簡単に定義できるシステムや、特定の状況で最適なアクションが存在するシステムに最適です。 チェスのようなゲームをプレイする ML モデルは、多くの場合、強化モデルです。
機械学習の一般的な用途
多くの人が経験した機械学習アプリケーションには、次のような一般的な用途が含まれます。
- 推奨アルゴリズム: ML モデルのパターン検出および分類機能 コンテンツや製品を推奨するアルゴリズムの中心です。
- 音声認識: ML は、テキスト読み上げソフトウェアおよび自然言語処理アプリケーションに使用されます。
- チャットボット: 販売や顧客サービスに使用されるチャットボット、特に比較的単純な意思決定ツリーのチャットボットは、多くの場合 ML に基づいています。
- コンピュータビジョン: 自動運転車のような複雑なものでも、写真の分析などの単純なものでも、コンピューターに画像を「見て」理解する能力を与えるには、機械学習が必要です。
-
不正行為の検出とスパム対策: パターン検出は、金融サービス会社が不正取引の可能性を検出するのに役立ち、電子メール アカウントが受信トレイからスパムを削除できるようになります。
機械学習の懸念領域
ML は強力で広く使用されていますが、次のような問題で批判にもさらされています。
- プライバシー: ML モデルには大量のデータが必要なため、ML が機密の個人データを処理する可能性があります。 場合によっては、そのデータの使用が個人によって承認されていない、または完全に理解されていない可能性があります。 その結果、ML は機密情報を使用または開示する可能性があります。
- 透明性の欠如: 彼らの学習能力により、モデルを結論や推奨に導く各ステップを理解するのは非常に困難であり、場合によっては不可能です。 この制限により、住宅が法律 (公正な住宅法や融資法など) に違反していないことを確認するための規制が非常に困難になります。
- 偏見と差別: モデル作成者の一部またはモデルのトレーニングに使用されるデータのバイアス (意識的または無意識的) は、モデルの学習方法とその出力に影響を与えます。 したがって、バイアスの修正に特別な注意を払わない限り、ML モデルは意図せずバイアスを強化してしまう可能性があります。 良い例は、顔認識システムが、トレーニングに使用されたデータとモデルの作成者がどの人種に属しているかに基づいて、特定の肌の色調で他の色調よりも正確であることです。 これは、たとえば法執行において重大な問題を引き起こす可能性があります。
よくある質問
-
機械学習における過学習とは何ですか?
過学習は、機械学習プログラムの出力におけるエラーです。 これは通常、出力がトレーニング データに非常によく似ている (適合している) ことを意味します。 アルゴリズムが本来あるべき推論や外挿を行っていないため、使用可能なデータを生成していません 結果。
-
機械学習における相互検証とは何ですか?
相互検証は、機械学習モデルをテストする方法です。 開発者は通常、過剰適合に対処するためにこれを使用します。 相互検証の 1 つのバージョンには、元のデータ セットをより小さなチャンクに分割することが含まれます。 一部は抑制されますが、その他はモデル全体を実行します。 次に、「コントロール」グループと「テスト」グループを比較して、アルゴリズムがどのように実行されるかを比較します。