教師なし学習とは何ですか?

July 29, 2023
にスマートでコネクテッドライフ Aiと科学

教師なし学習は一種の機械学習ラベルのないデータのセット内のパターンを識別するために使用されます。この記事では、その概要とそのアプリケーションについて説明します。人工知能 (AI).

ラップトップと AI を使用してコーディングを学習している人。
マスコット/ゲッティイメージズ

教師なし機械学習はどのように機能するのでしょうか?

教師なし学習アルゴリズム人間の指導や監督なしで、大規模な未分類のデータセットからパターンを見つけることができます。データポイントを膨大なセット内でグループ化できるため、人間のデータサイエンティストよりも迅速かつ効率的に洞察を引き出すことができます。

アルゴリズムに非構造化データが入力されると、学習プロセスは完全に自動化されます。理想的には、これらのアルゴリズムは、データポイント (または入力) 間の新しい関係を確立するときに、リアルタイムの分類が向上します。

たとえば、さまざまな形状の画像が与えられた教師なし学習アルゴリズムは、サイズと色に従って各形状の並べ替えを開始する可能性があります。次に、辺の数に基づいて形状を分類することで、アルゴリズムをより具体的にすることができます。

教師なし学習の応用

教師なし学習は、次のような AI の多くの分野で役に立ちます。

サイバーセキュリティ: サイバー攻撃を事前に検出し、阻止します。
コンピュータビジョン: 画像、ビデオ、現実世界のオブジェクトを認識します。
不正行為の検出: 疑わしい文書または金融取引にフラグを立てます。
健康管理：病気の診断と治療薬の開発。
マーケティング: 顧客の好みに基づいて広告をターゲットに設定します。
ニュースの集約: トピック、地域、興味に基づいてニュース記事を並べ替えます。
品質保証：設備や製品の異常や外れ値を特定します。

監視あり vs. 教師なし学習

教師なし学習はよく一緒に使用されます。教師あり学習、人間によってラベル付けされたトレーニングデータに依存します。教師あり学習では、人間が並べ替え基準とアルゴリズムの出力を決定します。これにより、大規模なデータセットから抽出したい情報の種類をより細かく制御できるようになります。ただし、教師あり学習には、より多くの人的時間と専門知識が必要です。

教師なしアプローチは、大量の未整理のデータがある場合に適しています。教師なし学習では、誰も何も分析したりラベルを付けたりする必要はありません。したがって、教師なし学習は必要な人的労力が少ないため、教師あり学習よりもコストが低くなります。

半教師あり学習アルゴリズムは、初期トレーニングセット内のラベル付きデータとラベルなしデータを比較することにより、両方のアプローチを組み合わせます。

監視あり vs. 教師なし学習: 違いは何ですか?

教師なし学習の限界

教師なし学習の結果は予測不可能であり、場合によっては役に立たない場合もあります。アルゴリズムが具体的すぎると、作成されるカテゴリが多すぎて、人間が出力から有意義な洞察を引き出すことが困難になる可能性があります。逆に、アルゴリズムが一般的すぎると、カテゴリが少なすぎます。

すべてのデータにはラベルが付けられていないため、精度を検証するのが難しく、教師なし学習アルゴリズムがどのように正確に決定を下すかを判断するのが難しい場合があります。教師なし学習はより多くのコンピューティング能力と時間がかかりますが、人間の関与が必要ないため、それでも教師あり学習よりも安価です。

教師なし学習アルゴリズムの種類

教師なし学習アルゴリズムの多くは、オブジェクトの類似点と相違点に基づいてオブジェクトをグループ化するクラスター分析 (クラスター化) に基づいています。教師なし学習アルゴリズムが使用する方法には、次のようなものがあります。

排他的クラスタリング: 各データポイントは 1 つのクラスターまたはグループにのみ属することができます (たとえば、 K 平均法クラスタリング).
重複するクラスタリング: データポイントは、異なるレベルの関連性を持つ複数のクラスターの一部になることができます。
凝集クラスタリング: データポイントはグループに分割され、1 つの単一クラスターにマージされます。
確率的クラスタリング: データポイントは確率分布に基づいてグループ化されます。
アプリオリアルゴリズム: 頻繁に発生するデータポイントは、予測と推奨を行うために使用されます。
次元削減: 余分なデータが削除され、データセットがより管理しやすいサイズに縮小されます。
自動エンコーディング:A ニューラルネットワーク同じデータを異なる方法で圧縮して表現するために使用されます。

教師あり学習とは何ですか?

よくある質問

K クラスタリングとは何ですか?

K クラスタリング (K-means クラスタリングとも呼ばれます) は、類似性に基づいてデータが編成され、クラスタが互いにどのように異なるかにも基づいて構成されます。 K はクラスターの数を表すために使用されます。
階層的クラスタリングとは何ですか?

情報に関する情報を収集する方法です。したがって、データが収集されると、類似したグループに分類され、最後にセクションとサブセクションに編成されます。私たちの中でより財政責任のある人々の中には、支出を避難所、住居、交通機関に集中させることですでにこれを行っている人もいます。しかし、さらにクラスタリングすると、交通機関がさらに大量交通機関や自動車などにクラスタリングされる可能性があることがわかります。そして、車の下には、メンテナンス、燃料、掃除などもあるかもしれません。コンピューターはこれをはるかに大規模なスケールとさまざまなデータセットで実行しますが、通常は午前 10 時 30 分までに消費するカフェラテの量については考慮しません。