強化学習とは何ですか?

July 30, 2023
にスマートでコネクテッドライフ Aiと科学

強化学習は一種の機械学習賞罰に基づいて。この記事では、その定義、機能、および主な用途について説明します。

強化学習の定義

人工知能 (AI) プログラムは常に機械学習を使用して速度と効率を向上させます。強化学習では、AI は望ましいアクションに対して報酬を与え、望ましくないアクションに対して罰を与えます。

強化学習は、制御された環境でのみ実行できます。プログラマーは特定の行動に正と負の値 (または「ポイント」) を割り当てます。AI は環境を自由に探索して報酬を求め、罰を回避できます。

理想的には、AI は長期的な利益を優先して短期的な利益を遅らせます。 1 分でポイントを獲得したり、2 分で 10 ポイントを獲得したりすると、満足感が得られず、より高いものを目指すことになります。価値。同時に、ポイントを失う原因となる懲罰的な行動を避けることも学びます。

機械学習に関する本を読んでいる描かれたロボット — アンドリー・シャイプ/ゲッティイメージズ

強化学習の例

強化学習に基づく AI の実世界への応用はある程度制限されていますが、この方法は実験室での実験で有望であることが示されています。

たとえば、強化学習により、ビデオゲームをプレイできるように AI が訓練されました。 AI は試行錯誤を通じてゲームの目標を達成する方法を学習します。たとえば、次のようなゲームでは、 スーパーマリオブラザーズ。, AI は、敵や障害物を避けながら各レベルの最後に到達するための最適な方法を決定します。数十の AI プログラムが特定のゲームに勝つことに成功しており、ムゼロこのプログラムは、本来プレイするように設計されていなかったビデオゲームさえもマスターしました。

強化学習は、長期的に最良の成果を達成するためにビジネスリソースを割り当てるエンタープライズリソース管理 (ERM) ソフトウェアをトレーニングするために使用されてきました。強化学習アルゴリズムロボットが歩いたり、その他の身体的作業を行うように訓練するためにも使用されています。強化学習は、統計、シミュレーション、エンジニアリング、製造、医学研究でも期待されています。

強化学習の限界

強化学習アルゴリズムの主な制限は、閉じた環境に依存していることです。たとえば、ロボットは強化学習を使用して、すべてが静止している部屋を移動できます。ただし、環境は常に変化しているため、強化学習は、動き回る人々でいっぱいの廊下をナビゲートするのには役立ちません。ロボットは、周囲の状況を明確に把握することなく、ただ目的もなく物にぶつかってしまいます。

この学習は試行錯誤に依存しているため、より多くの時間とリソースを消費する可能性があります。プラスの面としては、強化学習では人間による監視があまり必要ありません。

制限があるため、強化学習は他の種類の機械学習と組み合わせて使用されることがよくあります。自動運転車たとえば、強化学習アルゴリズムを教師あり学習などの他の機械学習手法と組み合わせて使用すると、衝突することなく道路を移動できます。

強化学習アルゴリズムの種類

強化学習アルゴリズムは、モデルベースとモデルフリーの 2 つの大きなカテゴリに分類できます。モデルベースのアルゴリズムは、潜在的なアクションの報酬を予測するために環境のモデルを開発します。モデルフリーの強化学習では、AI エージェントは試行錯誤を通じて直接学習します。

モデルベースのアルゴリズムは、シミュレーションや、同じアクションを繰り返し繰り返すことが目的の組立ラインなどの静的環境に最適です。モデルベースの強化学習アルゴリズムの例には、値の反復とポリシーが含まれます。 AI エージェントが厳密な公式 (または「ポリシー」) に従って最適なコースを決定する反復。アクションの。

モデルフリーのアルゴリズムは、より動的な現実世界の状況に役立ちます。モデルフリー強化学習の例は、Deep Q-Network (DQN) アルゴリズムです。ニューラルネットワーク過去の行動と結果に基づいて結果を予測する。 DQN の用途は、株式市場の予測から大規模な建物内の空気の質の調整まで多岐にわたります。

逆強化学習と呼ばれる強化学習のバリエーションがあり、AI エージェントが人間の行動を観察して学習します。

よくある質問

Qラーニングとは何ですか？

Q ラーニングは、モデルフリーアルゴリズムの別の用語です。この特定の種類の強化学習では、環境についての予測を行うために環境のモデルは必要ありません。さまざまな状態のアクションを「学習」することを目的としています。
強化学習におけるポリシーとは何ですか?

「ポリシー」とは、強化学習システムが問題を解決するために使用する計画です。持っている情報と達成しようとしているソリューションに基づいて、いつ何を行うかを定義します。