人間と同じように機械を訓練して学習させる
MIT ニュース オフィスの Web サイトでダウンロードできる画像は、クリエイティブ コモンズ表示、非営利、改変禁止ライセンスに基づいて、非営利団体、報道機関、および一般の人々に提供されています。 提供された画像は、サイズに合わせてトリミングする以外に変更することはできません。 画像を複製する場合はクレジットラインを使用する必要があります。 以下に提供されていない場合は、画像のクレジットを「MIT」に記載してください。
前の画像 次の画像
公園のベンチに座って、誰かが散歩しているのを眺めているところを想像してみてください。 人が歩くにつれてシーンは常に変化しますが、人間の脳は時間の経過とともにその動的な視覚情報をより安定した表現に変換することができます。 知覚矯正として知られるこの能力は、歩行者の軌跡を予測するのに役立ちます。
人間とは異なり、コンピューター ビジョン モデルは通常、知覚の直線性を示さないため、非常に予測不可能な方法で視覚情報を表現することを学習します。 しかし、機械学習モデルにこの機能があれば、物体や人がどのように移動するかをより正確に推定できるようになるかもしれません。
MIT の研究者らは、特定のトレーニング方法により、コンピューター ビジョン モデルが人間と同様に、より知覚的に直線的な表現を学習できることを発見しました。 トレーニングには、機械学習モデルに何百万もの例を示してタスクを学習させることが含まれます。
研究者らは、敵対的トレーニングと呼ばれる手法を使用してコンピュータ ビジョン モデルをトレーニングすると、画像に追加された小さなエラーに対する反応が鈍くなり、モデルの知覚の直線性が向上することを発見しました。
研究チームはまた、知覚の直線性が、モデルをトレーニングして実行するタスクによって影響を受けることも発見しました。 画像の分類などの抽象的なタスクを実行するようにトレーニングされたモデルは、画像内のすべてのピクセルをカテゴリに割り当てるなど、より詳細なタスクを実行するようにトレーニングされたモデルよりも、より知覚的に単純な表現を学習します。
たとえば、モデル内のノードには「犬」を表す内部アクティベーションがあり、これによりモデルが犬の画像を見たときに犬を検出できるようになります。 知覚的に直線的な表現は、画像に小さな変化がある場合でも、より安定した「犬」表現を保持します。 これにより、より堅牢になります。
研究者らは、コンピューター ビジョンにおける知覚の直線性をより深く理解することで、より正確な予測を行うモデルの開発に役立つ洞察を明らかにしたいと考えています。 たとえば、この特性により、コンピューター ビジョン モデルを使用して歩行者、自転車、その他の車両の軌道を予測する自動運転車両の安全性が向上する可能性があります。
「ここで得られるメッセージの 1 つは、人間の視覚などの生物学的システムからインスピレーションを得ることは、特定の物事がなぜそのように機能するのかについての洞察を得ることができると同時に、ニューラル ネットワークを改善するためのアイデアを刺激することもできるということです」と Vasha DuTell 氏は言います。 、MIT のポスドクであり、コンピューター ビジョンにおける知覚の直線性を調査した論文の共著者です。
DuTell の論文には、電気工学およびコンピュータ サイエンス学科 (EECS) の大学院生で筆頭著者の Anne Harrington も参加しています。 アユシュ・テワリ、ポスドク。 マーク・ハミルトン、大学院生。 サイモン・ステント氏、ウーブン・プラネット社リサーチマネージャー。 ルース・ローゼンホルツ氏、脳・認知科学部門の主任研究員であり、コンピューターサイエンス・人工知能研究所(CSAIL)のメンバー。 および主著者である William T. Freeman 氏は、電気工学およびコンピュータ サイエンスのトーマスおよびゲルト パーキンス教授であり、CSAIL のメンバーです。 この研究は、学習表現に関する国際会議で発表されています。
矯正の勉強中
人間の知覚の直線性に関するニューヨーク大学の研究チームによる 2019 年の論文を読んだ後、DuTell 氏、Harrington 氏らはその特性がコンピュータ ビジョン モデルにも役立つのではないかと考えました。
彼らは、さまざまなタイプのコンピューター ビジョン モデルが学習した視覚表現をまっすぐにするかどうかを判断することに着手しました。 彼らは各モデルにビデオのフレームを供給し、学習プロセスのさまざまな段階でその表現を調べました。
モデルの表現がビデオのフレーム全体で予測可能な方法で変化する場合、そのモデルは矯正されています。 最終的には、その出力表現は入力表現よりも安定するはずです。
「表現は非常に曲線的に始まる線として考えることができます。直線化するモデルはビデオからその曲線を取り出し、処理ステップを通じてそれを真っ直ぐにすることができます」と DuTell 氏は説明します。
彼らがテストしたほとんどのモデルはまっすぐになりませんでした。 そうした少数の人々のうち、最も効果的に姿勢を正した人々は、敵対的トレーニングとして知られる手法を使用して分類タスクのトレーニングを受けていました。
敵対的トレーニングでは、各ピクセルをわずかに変更することで画像を微妙に変更します。 人間には違いに気付かないかもしれませんが、こうした小さな変更が機械をだまして画像を誤って分類してしまう可能性があります。 敵対的トレーニングによりモデルがより堅牢になるため、これらの操作によってだまされなくなります。
敵対的トレーニングでは、モデルが画像のわずかな変化に反応しにくくなるように学習するため、時間の経過とともにより予測可能な表現を学習するのに役立ちます、とハリントン氏は説明します。
「敵対的トレーニングがモデルをより人間に近づけるのに役立つかもしれないという考えはすでに人々にありましたが、それがこれまでテストされていなかった別の特性に引き継がれるのを見るのは興味深いことでした」と彼女は言います。
しかし、研究者らは、敵対的にトレーニングされたモデルは、画像全体をカテゴリに分類するなどの広範なタスクについてトレーニングされた場合にのみ、まっすぐになることを学習することを発見しました。 画像内のすべてのピクセルを特定のクラスとしてラベル付けするセグメンテーションを課せられたモデルは、敵対的にトレーニングされた場合でもまっすぐになりませんでした。
一貫した分類
研究者らは、ビデオを見せてこれらの画像分類モデルをテストしました。 彼らは、より知覚的にストレートな表現を学習したモデルは、ビデオ内のオブジェクトをより一貫して正しく分類する傾向があることを発見しました。
「私にとって、これらの敵対的にトレーニングされたモデルは、ビデオを見たこともなく、時間データでトレーニングされたこともなく、それでもある程度の矯正を示しているのは驚くべきことです」と DuTell 氏は言います。
研究者らは、敵対的トレーニングプロセスの何がコンピュータビジョンモデルをまっすぐにするのか正確にはわかっていないが、その結果は、より強力なトレーニングスキームがモデルをよりまっすぐにすることを示唆している、と彼女は説明する。
この研究を発展させて、研究者らは学んだことを利用して、モデルにこの特性を明示的に与える新しいトレーニング スキームを作成したいと考えています。 彼らはまた、敵対的トレーニングをさらに深く掘り下げて、なぜこのプロセスがモデルの矯正に役立つのかを理解したいと考えています。
「生物学的な観点から見ると、敵対的トレーニングは必ずしも意味があるわけではありません。それは人間が世界を理解する方法ではありません。なぜこのトレーニングプロセスがモデルがより人間らしく振る舞うのに役立つように見えるのかについては、まだ多くの疑問があります」とハリントン氏は言う。
「ディープ ニューラル ネットワークによって学習された表現を理解することは、堅牢性や一般化などの特性を向上させるために重要です」と、ダナ ファーバーがん研究所およびハーバード大学医学部の助教授であるビル ロッター氏は述べていますが、この研究には関与していません。 「Harrington らは、自然ビデオを処理するときにコンピューター ビジョン モデルの表現が時間の経過とともにどのように変化するかについて広範な評価を実行し、これらの軌跡の曲率がモデルのアーキテクチャ、トレーニングのプロパティ、およびタスクに応じて大きく異なることを示しました。これらの発見は、改良されたモデルを開発し、生物学的な視覚処理についての洞察も提供します。」
「この論文は、自然ビデオの傾き補正は、人間の視覚システムによって示されるかなりユニークな特性であることを確認しています。これは、敵対的に訓練されたネットワークのみがそれを表示します。これは、人間の知覚の別の特徴である自然か人工かにかかわらず、さまざまな画像変換に対するロバスト性との興味深い関連性を提供します」 」とディープマインド社の研究員であるオリヴィエ・エナフ氏は言うが、彼はこの研究には関与していない。 「敵対的に訓練されたシーン セグメンテーション モデルでさえ入力をまっすぐにしないということは、将来の研究に重要な疑問を引き起こします。人間はコンピュータ ビジョン モデルと同じ方法で自然のシーンを解析するのでしょうか? 動いているオブジェクトの軌道を、そのオブジェクトの動きに敏感でありながら表現し予測するにはどうすればよいでしょうか?この論文は、矯正仮説を視覚的行動の他の側面と結びつけることで、より統一された知覚理論の基礎を築きます。」
この研究は、トヨタ研究所、MIT CSAIL METEOR Fellowship、米国科学財団、米国空軍研究所、米国空軍人工知能加速器から資金の一部を受けています。
前の項目 次の項目
矯正の研究 一貫した分類