GoogleがAIに描画を教える場合、それはそれが考えるのに役立ちますか?
人間が最初に岩に人物をスケッチしたとき、人間は大きな認知の飛躍を遂げました。現在、コンピューターは同じことをすることを学んでいます。

Googleマゼンタ
誰かがあなたに豚とトラックを描くように言ったと想像してみてください。多分あなたはこれをスケッチするでしょう:
簡単です。しかし、次に、あなたが豚のトラックを描くように頼まれたと想像してください。人間であるあなたは、2つのオブジェクトの顕著な特徴を組み合わせる方法を直感的に理解し、次のようなものを思い付くでしょう。
小さな波状の豚の尻尾、キャブの窓のわずかな丸みに注意してください。これは目を思い出させます。車輪がひづめのようになったか、あるいは豚の脚が車輪のようになっています。あなたがそれを描いたとしたら、人間の仲間である私は、これを迅速な豚のトラックの創造的な解釈として主観的に評価します。
最近まで、この種の概念的なねじれを取り除くことができたのは人間だけでしたが、それ以上はできませんでした。この豚のトラックは、実際にはと呼ばれる魅力的な人工知能システムの出力です SketchRNN 、AIがアートを作成できるかどうかを確認するためのGoogleの新しい取り組みの一環です。それは呼ばれています プロジェクトマゼンタ 、そしてそれはダグ・エックによって率いられています。
先週、マゼンタが収容されているマウンテンビューにあるGoogleBrainチームのオフィスでEckを訪問しました。 Eckは賢く、カジュアルで、自尊心があります。彼は博士号を取得しました。 2000年にインディアナ大学でコンピューターサイエンスの博士号を取得し、その間、音楽と機械学習に取り組んできました。最初はモントリオール大学(人工知能の温床)の教授として、次にGoogleでGoogleで働いていました。マゼンタに取り組むためにグーグルブレインに向かう前の音楽。
アートを作成するためのAIツールを作成するというエックの意欲は、暴言として始まりましたが、数サイクルの思考の後、「もちろん、これを行う必要があります。これは非常に重要です」と彼は言いました。
SketchRNNの要点は、彼とGoogleの共同編集者であるDavidHaです。 書いた は、絵を描く方法を学ぶだけでなく、人間と同じように抽象的な概念を一般化することです。彼らは豚をスケッチできる機械を作りたくないのです。彼らは、トラックのように納屋に属していないプロンプトが表示された場合でも、豚を認識して出力できる機械を作りたいと考えています。
暗黙の議論は、人間が描くとき、彼らは世界の抽象化を行うということです。彼らは、特定の動物ではなく、ブタの一般化された概念をスケッチします。つまり、私たちの脳が豚を蓄える方法と私たちが豚を描く方法の間には関係があります。豚を描く方法を学び、おそらくあなたは豚を合成する人間の能力について何かを学びます。
ソフトウェアの仕組みは次のとおりです。 Googleは、というゲームを作成しました。 早く、描いて! 人々が遊んでいると、豚や雨、消防車やヨガのポーズ、庭やフクロウなど、あらゆる種類のものの人間の絵の大規模なデータベースが生成されました。
スケッチするとき、私たちは豊かでカラフルで騒々しい世界を(デジタル)ペンのほんの数回の動きに圧縮します。 SketchRNNの基礎となるデータセットは、これらの単純なストロークです。猫、ヨガ、雨などの各クラスの描画は、Googleのオープンソースを使用して特定の種類のニューラルネットワークをトレーニングするために使用できます TensorFlow ソフトウェアライブラリ。これは、機械ができるときのように、非常に多くのニュース記事に影響を与えた写真ベースの作品とは異なります。 ゴッホのスタイルで写真をレンダリングする または オリジナルのDeepDream 、または任意の形状を描画し、それを塗りつぶす キャットネス 。
これらのプロジェクトはすべて、主観的に、人間にとっては不気味だと感じています。それらは、現実世界の人間の知覚に似ているが、正確には似ていない画像を作成するため、興味深いものです。
ただし、SketchRNNの出力は、まったく不気味ではありません。彼らはとても正しいと感じている、とエックは私に言った。 「とても人間的」とは言いたくないのですが、これらのピクセル生成のものがそうではないように、彼らはとても正しいと感じています。
これは、マゼンタチームの中心的な洞察です。人間は…世界をピクセルのグリッドとして理解するのではなく、私たちが見ているものを表現するための抽象的な概念を開発します。 EckとHaは、彼らの論文でその研究について論じている 。幼い頃から、鉛筆やクレヨンで紙に描くことで、見たものを伝える能力を身につけています。
そして、人間がそれを行うことができれば、グーグルは機械がそれを行うことができることを望んでいます。昨年、GoogleのCEOであるSundar Pichaiは、同社を人工知能ファーストと宣言しました。 AIは、Googleにとって、世界の情報を整理し、世界中の人々がアクセスできて使えるようにするという当初の使命の自然な延長です。変更されたのは、情報が人工知能用に整理され、人々がアクセスして役立つようになったことです。マゼンタは、特定の人間の領域を整理して理解しようとするGoogleのより野蛮な試みの1つです。
機械学習は、Googleが採用したツールの最も広い用語です。 MLは、しばしば省略されるように、通常はラベル付けされたデータをフィードしてトレーニングすることにより、さまざまなタスクの実行方法を自分自身に教えるようにコンピューターをプログラミングする方法です。機械学習を行う一般的な方法の1つは、脳の接続システムを非常に大まかにモデル化したニューラルネットワークを使用することです。さまざまなノード(人工ニューロン)は、一部の入力に応答するが他の入力には応答しない異なる重みで相互に接続されています。
近年、複数の層を持つニューラルネットワークは、特に翻訳や画像認識/操作において、困難な問題を解決するのに非常に成功していることが証明されています。グーグルは持っています コアサービスの多くを再構築しました これらの新しいアーキテクチャについて。私たち自身の脳の既知の機能を模倣して、これらのネットワークは、入力(たとえば画像)のさまざまなパターンを認識する相互接続されたレイヤーを持っています。低レベルの層には、明暗の単純なピクセルレベルのパターンに応答するニューロンが含まれている場合があります。 A 高レベルのレイヤー 犬の顔や車や蝶に反応する可能性があります。
これらの種類のアーキテクチャとメカニズムを使用してネットワークを構築すると、 不当に効果的 。非常に困難な計算の問題は、モデルのトレーニングを調整してから、しばらくの間計算するためにいくつかのグラフィックス処理ユニットを残すことの問題になります。ギデオンルイスクラウスが ニューヨークタイムズ 、Google翻訳は10年以上にわたって構築された複雑なシステムでした。その後、同社は9か月でディープラーニングシステムを使用して再構築しました。 A.I.システムは、古いシステムがその生涯にわたって獲得した総利益にほぼ等しい一晩の改善を示しました。 ルイスクラウスは書いた 。
このため、ニューラルネットワークの用途と種類が爆発的に増加しています。 SketchRNNの場合、彼らは リカレントニューラルネットワーク 、入力のシーケンスを処理します。彼らは、人々がさまざまなものを描くために作ったペンストロークの進行についてネットワークを訓練しました。
トレーニングを説明する最も簡単な方法は、一種のエンコーディングです。データ(スケッチ)が供給され、ネットワークは処理対象の一般的なルールを考え出そうとします。これらの一般化はデータのモデルであり、ネットワーク内のニューロンの傾向を説明する数学に保存されます。
その構成は、潜在空間またはZ(zed)と呼ばれ、豚のようなもの、トラックのようなもの、またはヨガのようなものが保持されます。 AIの人々が言うように、システムにトレーニングされたものを描画するように依頼することで、それをサンプリングします。SketchRNNは、ブタ、トラック、またはヨガのポーズを吐き出します。それが描くのはそれが学んだことです。
SketchRNNは何を学ぶことができますか?以下は、新しい消防車を生成する消防車で訓練されたネットワークです。モデルの内部には、温度と呼ばれる変数があります。これにより、研究者は出力のランダム性を上下にクランクできます。次の画像では、青い画像の方が温度が低く、赤い画像の方が高温になっています。
または、フクロウを見たいと思うかもしれません。
そして、すべての最も良い例、ヨガのポーズ:
さて、これらは人間の絵のようですが、それ自体は人間によって描かれたものではありません。それらは、人間がそのようなものをどのようにスケッチするかを再構築したものです。それらのいくつかは非常に優れており、他はそれほど優れていませんが、AIでPictionaryをプレイしている場合、それらはすべてほとんど意味があります。
SketchRNNは、人間の図面の形式で入力を受け入れるようにも構築されています。あなたは何かを送り込み、それはそれを理解しようとします。猫のデータでトレーニングされたモデルを使用して、3つ目の猫の絵にロブした場合はどうなりますか?
分かりますか?右側のモデルからのさまざまな出力(ここでも異なる温度を示しています)では、第三の目を取り除きます!どうして?モデルは、猫の耳が三角形、ひげが2つ、顔が丸みを帯びており、目が2つしかないことを学習したためです。
もちろん、モデルは、耳が実際に何であるか、猫のひげが動くかどうか、顔が何であるか、または光子が特殊な細胞のタンパク質ロドプシンの形状を変えるため、私たちの目が画像を脳に伝達できるかどうかを知りません。網膜。これらのスケッチが参照している世界については何も知りません。
友人にあなたの結婚式を司式させる
しかし、それは人間が猫や豚、ヨガやヨットをどのように表現しているかについて何かを知っています。
ヨットの図面を作成し始めると、その図面から得られる可能性のある他の何百ものヨットのモデルがモデルに入力されると、GoogleのEckは私に語った。そして、モデルがこのすべてのトレーニングデータからプラトニックヨットを引き出したので、それらはすべて私たちにとって理にかなっています。それは特定の帆船の問題ではなく、帆船の良さの問題です。
彼がそれを言うとすぐに、彼は彼の瞬間的な高尚さを後悔しているようでした。私は哲学者たちにそのために私を押しつぶしてもらうつもりだと彼は言った。しかし、手に負えないものとして、それは理にかなっています。 (( アトランティック の常駐哲学者イアン・ボゴストは、哲学的に言えば、これは純粋な内在的唯物論であると私に言いました。)
人工知能運動の一部であるという興奮は、少なくともその中の人々にとって、そして他の多くの人々にとっても、これまでに考えられた中で最もエキサイティングな技術プロジェクトです。
つまり、雨の絵でネットワークを訓練します。次に、ふわふわの雲のスケッチを入力すると、次のようになります。
モデルに送信した雲から雨が降ります。これは、多くの人が最初に雲を描き、次に雲から降りてくることで雨を降らせるためです。したがって、ニューラルネットワークが雲を見ると、その形の底から雨が降ります。 (興味深いことに、データは一連のストロークであるため、雨から始めた場合、モデルは雲を生成しません。)
lロンハバード精神病
楽しい作業ですが、人間の考え方をリバースエンジニアリングする長いプロジェクトでは、これは巧妙なサイドプロジェクトですか、それともパズルの主要な部分ですか。
Eckがスケッチについて魅力的だと思うのは、スケッチに多くの情報が含まれていることです。あなたはスマイリーフェイスを描きますが、それはほんの数ストロークで、顔のピクセルごとの写真表現とはまったく似ていないストロークだと彼は言いました。それでも、3歳の人なら誰でも、顔は顔であり、それが幸せか悲しいかを知ることができます。 Eckは、これを一種の圧縮、SketchRNNがデコードし、自由に再エンコードできるエンコードと見なしています。
スコットマクラウドの有名な(ある種のオタクの中で)漫画の力の事例と同じです。
私はSketchRNNの作業を非常に支持しており、それは本当に素晴らしいと、AI研究普及の中心的なノードとなったOpenAIの研究者であるAndrejKarpathy氏は述べています。しかし、彼はまた、彼らがモデルにストロークの重要性についていくつかの非常に強い仮定をしていることを指摘しました。これは、人工知能を開発する企業全体にとってはあまり役に立たないことを意味します。
私たちが開発する生成モデルは通常、データセットの詳細にできるだけとらわれないように努めており、画像、音声、テキストなど、どのようなデータをスローしても機能するはずだと彼は言いました。画像を除いて、これらはいずれもストロークで構成されていません。
私はまた、人々が強い仮定をし、それらをモデルにエンコードし、それぞれの特定のドメインでより印象的な結果を得ることで完全に大丈夫だと彼は付け加えました。
EckとHaは、あらゆるゲームのルールを理解してプレイできるAIよりも、チェスをプレイするAIに近いものを構築しています。 Karpathyにとって、彼らの現在の仕事の範囲は限られているようです。
しかし、線画が人間の考え方の基本であると考える理由はいくつかあります。スケッチの力に興味を持ったのはGoogle社員だけではありません。 2012年、ジョージア工科大学のJames Haysは、ベルリン工科大学のMathiasEitzおよびMarcAlexaと協力して スケッチのデータセットと機械学習システムを作成する それらを識別するため。
彼らにとって、スケッチは普遍的なコミュニケーションの一形態を表しており、標準的な認知機能を持つすべての人間が実行でき、実行したことです。先史時代から、人々はスケッチのようなペトログリフや洞窟壁画で視覚世界を表現してきました、と彼らは書いています。このような絵文字は、言語の出現より数万年前から存在しており、今日では、スケッチされたオブジェクトを描画して認識する機能が普及しています。
彼らは、トロント大学の神経科学者Dirk Waltherによる全米科学アカデミーの議事録の論文を指摘しており、単純で抽象的なスケッチが実際の刺激と同様の方法で私たちの脳を活性化することを示唆しています。 Waltherと彼の共著者は、線画を仮定しています 私たちの自然界の本質を捉える 、たとえピクセルごとであっても、猫の線画は猫の絵のようには見えません。
脳内のニューロンがニューラルネットワークが模倣する層状階層内で機能する場合(スラッシュ似顔絵)、スケッチは、オブジェクトの簡略化された概念を格納する層を把握する1つの方法である可能性があります。これは、Waltherが述べた本質です。つまり、過去10万年のある時期に、私たちの祖先が現代の形に丸められたときに人間が考え始めた新鮮な方法について、彼らは私たちに何か重要なことを教えてくれるかもしれません。洞窟の壁やナプキンの裏にあるスケッチは、馬から馬へ、日常の経験から抽象的な象徴的な思考へ、そしてそれとともに現代の人間へのジャンプの文字通りの描写かもしれません。
現代の生活のほとんどは、言語、お金、数学、そして最終的にはコンピューティング自体など、その移行から流れています。したがって、スケッチが重要な人工知能の作成に重要な役割を果たすことになった場合、それは適切です。
ラスコーの絵(ウィキメディアコモンズ)
しかしもちろん、人間にとって、スケッチは本物の描写です。抽象4行表現とモノそのものの関係は簡単に理解できます。コンセプトは私たちにとって何かを意味します。 SketchRNNの場合、スケッチは一連のペンストロークであり、時間の経過とともに形が形成されます。機械の仕事は、私たちの絵に描かれているものの本質を取り入れ、それを使って世界をそのまま理解しようとすることです。
SketchRNNチームは、さまざまな方向で調査を行っています。彼らは、人間のフィードバックを介して描画を上手にしようとするシステムを構築するかもしれません。複数の種類のスケッチでモデルをトレーニングできます。たとえば、スケッチで豚を認識するように訓練されたモデルが、フォトリアリスティックな画像に一般化できるかどうかを確認する方法を見つけるかもしれません。彼らのモデルが、たとえば猫の伝統的な写真で訓練された他のモデルに接続されるのを見てみたいです。これにより、カリフォルニア大学バークレー校が作成したニューラルネットワークでスケッチに色を付けて猫の絵を描くことができます。 猫の質感を知っている 。
注:これは私が作成し、彼らが説明しているプロセスを経た猫の絵です。
しかし、彼ら自身、SketchRNNが最初のステップであり、学ぶべきことがたくさんあることを認めています。これらのスケッチデコードマシンが自分自身の一部であると感じる人間の生活の弧は長いです。芸術の人間の歴史は、技術的な時代とはほぼ逆に起こっています。
ヨーロッパの洞窟壁画をカバーする際に The ニューヨーカー 、ジュディス・サーマンは、旧石器時代の芸術は25千年の間ほとんど変わらず、革新や反乱はほとんどなかったと書いています。彼女はそれが記録された歴史の4倍の長さであると述べています。
芸術は非常に満足のいくものであり、その幅広い文化は安定していたに違いない、と学者はサーマンに語った。
コンピューター、特に新しい人工知能技術は、人間が得意とするものについての長年の概念を不安定にしています。人間は機械に落ちました 90年代のチェッカー 。次にチェス。最近行く。
しかし、AIにおける最近の研究の力は、最先端技術が進歩している速度によるものではありません(ただし、それは非常に速く動いています)。エックにとって、それは彼らが人間の考え方、ひいては私たちが誰であるかというまさに基盤を追い求めて努力しているということです。アートの本当に核となる部分は、私たちが互いにコミュニケーションしている基本的な人間性です、とエックは私に言いました。
ディープラーニングの企業全体を取り入れて、人間の生活の根底にあるメカニズムに取り組んでいるすべてのさまざまな人々-私たちがどのように見るか、どのように動くか、どのように話すか、どのように顔を認識するか、どのように単語を物語に構造化するか、どのように音楽を演奏するか—そしてそれは特定の人間ではなく人間性の輪郭に少し似ています。
現在、それは低解像度、似顔絵、実際の思考の棒人間ですが、スケッチから収集された知性を認識することは難しくありません。