NvidiaのInstantNeRFは、写真を数秒で3Dシーンに変えることができます

March 30, 2022
にニュースソフトウェアとアプリ

Nvidiaは最近、2D写真をわずか数秒で3Dシーンに変換する技術を披露しました。
この方法では、コンピューターの能力を使用して、現実の世界での光の振る舞いを概算します。
メタバースは、3Dシーンが任意のカメラの視点から表示できるため、役立つ領域の1つです。

人工知能（AI）を搭載した新技術により、2D写真をわずか数秒で3Dシーンに変えることができます。

Nvidia 最近実証されたインスタントNeRFと呼ばれる写真手法。計算能力を使用して、実世界での光の振る舞いを概算します。古い写真をビデオゲームのシーンに変換したり、ロボットや自動運転車を訓練して実世界のオブジェクトのサイズや形状を理解したりすることができます。

「3Dイメージングは新しい変革の世界をもたらします」オレン・デビ、Nvidiaプラットフォームで3Dアルゴリズムを実行するコンピュータービジョン企業であるVisionary.aiのCEOは、電子メールのインタビューでLifewireに語った。「3Dを使用すると、シーンの現実世界の奥行きを模倣し、画像をより生き生きとリアルに見せることができます。 3Dが非常に一般的であるAR/VRや産業用カメラに加えて、ユーザーが知らないうちにほとんどすべてのスマートフォンで使用されているのを目にしています。」

寸法の追加

最初のインスタント写真、 75年前にポラロイドカメラで撮影、2D画像で3Dの世界をすばやくキャプチャすることを目的としています。現在、AIの研究者は反対のことに取り組んでいます。つまり、静止画像のコレクションを数秒でデジタル3Dシーンに変換します。

逆レンダリングとして知られるこのプロセスでは、AIを使用して、実世界での光の動作を概算します。研究者が異なる場所で撮影された少数の2D画像から3Dシーンを再構築できるようにします角度。 Nvidiaは、このタスクをほぼ瞬時に達成するアプローチを開発したと主張しています。

Nvidiaは、このアプローチをと呼ばれる新しいテクノロジーで使用しました神経放射輝度フィールド、またはNeRF。同社によれば、Instant NeRFと呼ばれるこの結果は、これまでで最速のNeRF技術です。モデルは、数十枚の静止画をトレーニングするのにわずか数秒しかかからず、結果の3Dシーンを数十ミリ秒以内にレンダリングできます。

「ポリゴンメッシュのような従来の3D表現がベクター画像に似ている場合、NeRFはビットマップ画像に似ています。オブジェクトから、またはシーン内で光が放射される方法をキャプチャします」と、Nvidiaのグラフィックス研究担当副社長であるDavidLuebke氏は述べています。でニュースリリース. 「その意味で、Instant NeRFはデジタルカメラと同じくらい3Dにとって重要であり、JPEG圧縮は2D写真にとって重要であり、3Dキャプチャと共有の速度、使いやすさ、到達範囲を大幅に向上させます。」

NeRFにデータを供給するためにデータを収集するには、ニューラルネットワークが、シーンの周囲の複数の位置から撮影された数十枚の画像と、それらの各ショットのカメラ位置をキャプチャする必要があります。

NeRFは、3D空間の任意のポイントから任意の方向に放射する光の色を予測することにより、シーンを再構築するための小さなニューラルネットワークをトレーニングします。

3Dの魅力

メタバースは、3Dシーンが任意のカメラの視点から表示できるため、3Dシーンが役立つ領域の1つです。ブラッド・クイントン、拡張現実（AR）用のPerceptusプラットフォームの創設者は、電子メールのインタビューでLifewireに語りました。実生活で部屋の中を歩き、その中身をさまざまな角度から見ることができるように、再構築された3Dシーンを使用すると、仮想的に空間内を移動して、任意の場所から表示できます。視点。

スマートフォンを使って街で写真を撮っている人。 — ViktorCap/ゲッティイメージズ

「これは、仮想現実で使用するための環境を作成するのに特に役立ちます」とクイントン氏は述べています。

のようなプログラム Appleのオブジェクトキャプチャ写真測量と呼ばれる手法を使用して、一連の2D画像から仮想3Dオブジェクトを作成します。 3Dモデルは、仮想現実とARアプリケーションで広く使用されるとQuinton氏は予測しました。たとえば、一部のAIは、 PerceptusARプラットフォーム、3Dモデルを使用して、リアルタイムのARアプリケーションを可能にする現実世界の理解を作成します。

デビ氏によると、3D画像を使用すると、シーンの実際の奥行きを模倣し、画像をより生き生きとリアルに見せることもできます。ボケ効果（別名ポートレートモードまたはシネマティックモード）を作成するには、3D深度マッピングが必要です。この手法は、ほぼすべてのスマートフォンで使用されています。

「これはすでに映画を撮影するプロの映像作家の標準であり、これはすべての消費者の標準になりつつある」とデビ氏は付け加えた。