Deep Learning (ディープラーニング)

巨大な計算能力により、機械は物体を認識し、スピーチをリアルタイムで翻訳することができるようになった。 人工知能がついに知的になりつつある。

Ray KurzweilがGoogleのCEO、Larry Pageと昨年7月に会ったとき、彼は仕事を探していなかった。 機械インテリジェンスの未来主義者になった尊敬された発明家であるKurzweilは、今後の著書How to Create Mindについて議論したかったのです。 彼は、初期の草案を読んでいたページに、真に知的なコンピュータを作る方法についてのアイデアを製品化する会社を始めたいと語った。それは言語を理解し、それ自体で推論と決定を下すことができるものである。

このような努力は、まさしくGoogle規模のデータとコンピューティングパワーを必要とするものであることがすぐに明らかになりました。「私は、あなたにある程度のアクセスができるようにしようとした」と、ページはKurzweilに語った。「しかし、独立系企業の場合、これを行うことは非常に困難なことです。」

そこで、Pageは、自分の会社以外の場所に就職したことのないKurzweilがGoogleに加わることを提案した。Kurzweilは決心するまでにそれほど時間はかからなかった。彼は1月にGoogleのエンジニアリングディレクターとして働き始めた。「これは文字通り人工知能に焦点を当てた50年の集大成です。」

Kurzweilは、Googleのコンピューティングリソースだけでなく、Deep Learningと呼ばれるAIブランチでの驚異的な進歩によっても惹きつけられました。 ディープ・ラーニング・ソフトウェアは、思考が起こる脳のしわに80%である新皮質におけるニューロンの層における活動を模倣しようと試みます。 ソフトウェアは、実際の意味で、音、画像、およびその他のデータのデジタル表現のパターンを認識することを学びます。

ソフトウェアが人工的な「ニューラルネットワーク」で新皮質の大規模なニューロンをシミュレートできるという基本的な考え方は何十年もの経緯を経ており、画期的なものとして多くの失望をもたらしています。 しかし、コンピュータ科学者は、数式の改良とますます強力なコンピュータのために、これまで以上に多くの仮想ニューロン層をモデル化できるようになりました。

この深度が深くなるにつれて、彼らはスピーチと画像認識において顕著な進歩を遂げています。 昨年6月、YouTubeの動画から1,000万の画像が表示されていたGoogleのDeep Learningシステムでは、猫などのオブジェクトを識別する際の画像認識作業の約2倍の効果が確認されました。

Googleはこの技術を使用して、最新のAndroidモバイルソフトウェアで音声認識のエラー率を削減しました。 マイクロソフトのチーフ・リサーチ・バイス・リック・ラシッド(Rick Rashid)は、10月に中国語講義で出席者に怒りを訴え、音声テキストを英語テキストに転記し、誤り率7%で中国語テキストに翻訳し、 マンダリンでそれらを発声する自分の声。 同月、3人の大学院生と2人の教授からなるチームが、新薬につながる可能性のある分子を同定するためにメルクが開催したコンテストで優勝しました。 このグループは、標的に結合する可能性が最も高い分子をゼロにするためにDeep Learningを利用しました。

特にGoogleは、Deep Learningと関連するAIの才能のマグネットとなっています。 3月に同社はMerckのコンテストで優勝したチームの一員であったトロント大学のコンピュータサイエンス教授であるGeoffrey Hinton氏が共同設立したスタートアップを購入しました。 大学とGoogleの間で時間を分割するHinton氏は、画像認識、検索、自然言語理解などの「実際の問題にこの分野のアイデアを適用し、それらを実際の問題に適用する」と述べているという。

このすべては、インテリジェントマシンが最終的にSFのページから脱出することを期待しているAI研究者には通常は慎重である。 実際に、機械インテリジェンスは、通信とコンピューティングから医薬、製造、輸送に至るまですべてを変革し始めています。 IBMの危機! – Winning Watsonコンピュータでは、いくつかのDeep Learning技術を使用しており、医師がより良い意思決定を行うように訓練されています。 マイクロソフトでは、Windows PhoneとBingの音声検索で詳細な学習を展開しています。

スピーチや画像認識以外のアプリケーションへの徹底的な学習を進めるには、処理能力の進歩はもちろんのこと、概念やソフトウェアのブレークスルーが必要になります。 おそらく何十年も前から、何十年も自分自身のために考えることができるということに同意する機械は、おそらく見られないでしょう。 しかし、今のところ、マイクロソフトリサーチUSAのピーターリー氏は、「Deep Learningは人工知能の大きな課題のうちのいくつかを再燃させている」と述べている。

脳の構築

これらの課題に対する多くの競合するアプローチがありました。 1つは、コンピュータに、世界についての情報とルールを提供することでした。これは、プログラマが、エッジやサウンドなどの属性に精通したソフトウェアを苦労して書くことを要求していました。それには時間がかかりましたが、まだシステムがあいまいなデータを扱うことができませんでした。特定の言葉を使用して質問をする電話メニューシステムなど、細かく制御されたアプリケーションに限定されていました。

AI研究の黎明期1950年代に開発されたニューラルネットワークは、脳の働きをシミュレートしようとしたために有望視されたが、大幅に単純化された形であった。プログラムは仮想ニューロンのセットをマッピングし、それらの間の接続にランダムな数値または「重み」を割り当てます。これらの重みは、画像内のエッジまたは陰影のようなデジタル化された特徴、または話した音節の音の音素内のある周波数の特定のエネルギーレベルに対応する、各シミュレートされたニューロンが0と1の間の数学的出力にどのように応答するかを決定します。

プログラマーは、ニューラルネットワークを訓練して、ネットワークを、それらの物体を含む画像のデジタル化されたバージョンまたはそれらの音素を含む音波を用いてブリッジングすることによって、物体または音素を検出する。 ネットワークが特定のパターンを正確に認識しなかった場合、アルゴリズムによって重みが調整されます。 この訓練の最終的な目標は、人間が知っている、例えば音素「d」や犬の画像として、音声やパターンのパターンをネットワークが一貫して認識できるようにすることでした。 これは、他の人が犬と呼ぶ毛皮の多い吠え声の動物の頭の形や行動などの詳細に気づくことによって、犬が何であるかを子供が知るのと同じです。

しかし、初期のニューラルネットワークでは、非常に限られた数のニューロンだけを一度にシミュレートできるため、複雑さの高いパターンは認識できませんでした。 彼らは1970年代を通じて衰弱した。

1980年代半ば、Hintonらは、ソフトウェアニューロンの多くの層をよりよく使用する、いわゆる「深い」モデルを持つニューラルネットワークへの関心の復活を呼び起こしました。 しかし、技術は依然として人間の関与が重かった。プログラマはデータをネットワークに送る前にラベルを付けなければならなかった。 また、複雑な音声や画像認識には、利用可能なよりも多くのコンピュータパワーが必要でした。

しかし、最後に、ヒントンや他の研究者たちはここ10年間でいくつかの基本的な概念的なブレークスルーを作りました。 2006年に、ヒントンはニューロンの個々の層を教えるより効率的な方法を開発しました。 最初のレイヤーは、イメージ内のエッジや音声の最小単位などのプリミティブなフィーチャを学習します。 これは、デジタル化されたピクセルまたは音波の組み合わせを見つけることによって、偶然に起こるよりも頻繁に発生します。 そのレイヤーがこれらのフィーチャーを正確に認識すると、次のレイヤーに送られ、コーナーやスピーチサウンドのようなより複雑なフィーチャーを認識するように訓練されます。 このプロセスは、システムが音素または物体を確実に認識するまで、連続する層で繰り返される。

猫のように。 昨年6月、Googleはまだ10億以上の接続を持つ最大のニューラルネットワークの1つを実証しました。 スタンフォードのコンピュータサイエンス教授Andrew NgとGoogle Fellow Jeff Deanが率いるチームが、無作為に選んだ1千万のYouTube動画からシステム画像を見せました。 ソフトウェアモデルの1つのシミュレートされたニューロンは、猫の画像に固定されています。 他は、人間の顔、黄色の花、および他のオブジェクトに焦点を合わせました。 そして、Deep Learningの力のおかげで、人間はそれを定義したりラベル付けしたりしたことがなくても、これらの個別のオブジェクトを識別しました。

しかし、AIの専門家を驚かせたのは、画像認識の改善の大きさでした。 このシステムは、YouTubeの画像のオブジェクトとテーマを16%の時間で正しく分類しました。 それは印象的ではないかもしれませんが、以前の方法よりも70%優れていました。 また、Dean氏によれば、22,000のカテゴリーがあります。 例えばスケート魚の2つの類似した品種の間で区別するために必要なオブジェクトの一部に正しくスロットを入れる。 それはほとんどの人間にとってさえも挑戦的だったでしょう。 システムが画像を1,000のより一般的なカテゴリに分類するように求められたとき、精度率は50%を超えて飛躍した。

ビッグデータ

実験で仮想ニューロンの多くの層を訓練するには、Googleが検索エンジンやその他のサービスのために開発したコンピューティングインフラストラクチャの1万6000台のコンピュータプロセッサが必要でした。 AIの最近の進歩の少なくとも80%は、より多くのコンピュータ能力の利用可能性に起因すると考えられています。機械学習スタートアップVicariousの共同設立者であるDileep George氏は言います。

しかし、Googleのデータセンターの大きさよりも、それ以上のものがある。 ディープ・ラーニングはまた、多くのマシン間でコンピューティング・タスクを分割することにより、はるかに迅速に行うことができます。 Dean氏はGoogleでの14年間のキャリアの初期に開発を手助けしたテクノロジーです。 また、深層学習ニューラルネットワークのトレーニングも大幅にスピードアップされ、Googleが大規模なネットワークを実行し、より多くのデータをそれらに提供できるようになります。

すでに、Deep Learningはスマートフォンの音声検索を改善しています。 昨年まで、GoogleのAndroidソフトウェアは多くの言葉を誤解した方法を使用していました。 しかし、昨年7月、Androidの新しいリリースに向けて、Dean氏と彼のチームは、スピーチシステムの一部をDeep Learningに基づくものに置き換えました。

ニューロンの複数のレイヤーがサウンドのさまざまなバリエーションに対してより正確なトレーニングを可能にするため、システムは、特に地下鉄プラットフォームのような騒々しい環境で、サウンドのスクラップをより確実に認識することができます。

実際に何が起きたのかを理解する可能性が高いので、それが返す結果は正確である可能性が高いです。 ほぼ一晩で、エラーの数が最大25%減少しました。その結果、多くの査読者が、Appleの有名なSiri音声アシスタントよりも賢くAndroidの音声検索をより魅力的だと考えています。

すべての進歩について、誰もがDeep Learningが人工知能を人間の知能に匹敵するものに動かすことができるとは考えていません。いくつかの批評家は、Deep LearningとAIは一般に、ブルートフォースコンピューティングに有利なほど脳の生物学を無視していると言います。

そのような批判者の1人は、Palm Computingの創設者Jeff Hawkinsであり、最新のベンチャーであるNumentaは、生物学的にインスピレーションを受けているがDeep Learningをしていない機械学習システムを開発しています。 Numentaのシステムは、エネルギー消費パターンと、風車などの機械が故障しそうになる可能性を予測するのに役立ちます。

脳がどのように機能し、インテリジェントな機械を構築するためのガイドを提供するのかについての2004年の本であるOn Intelligenceの著者、Hawkinsは、Deep Learningは時間の概念を説明していないと述べる。

脳は知覚データの流れを処理し、人間の学習はパターンのシーケンスを思い出す能力に依存しています:あなたが何か面白いことをしている猫のビデオを見るとき、それはGoogleのような一連の静止画像ではなく、その実験で使用されています。 「Googleの姿勢は、多くのデータがすべてを補うものだ」とHawkinsは言う。

しかし、それがすべてを補うわけではないとすれば、Googleのような企業がこれらの問題で投げるコンピューティングリソースは却下することはできません。 脳自体が今日のニューラルネットワークよりもはるかに複雑であるため、彼らは深遠な学習の主唱者にとって重要です。 ヒントン氏は、「アイデアを実現するためには、多くの計算リソースが必要です。

次に起こることは?

Googleは将来のアプリケーションについては未発表だが、見通しは興味深い。 明らかに、画像検索がうまくいくと、YouTubeに役立つはずです。 Dean氏は、ディープ・ラーニング・モデルでは、英語の音素データを使用して、他の言語の音声を認識するためのシステムをより迅速に学習できると述べています。 より洗練された画像認識が、Googleの自家用車をさらに改善する可能性もあります。 次に、検索とその広告を引き受ける広告があります。 どちらの方も、人々が実際に探しているものを認識することで、より優れていて迅速な技術から、多大な改善を見出すことができます。

これは長い間、インテリジェントマシンのビジョンを持っていた65歳のKurzweilの興味を引くものです。 高校時代、彼はコンピュータにさまざまな古典的なスタイルのオリジナル音楽を作成させるソフトウェアを書いた。彼は1965年にテレビ番組「I’ve Got a Secret」に出演した。 それ以来、彼の発明にはいくつかの最初のものが含まれています – 印刷物読み上げ機、印刷されたテキストを任意のフォントでスキャンしてデジタル化するソフトウェア、オーケストラ楽器の音を再現できる音楽シンセサイザー、 大規模な語彙を用いたスピーチ認識システム。

今日、彼はあなたの電話会話を聞き取り、あなたの電子メールを読んだり、あなたのすべての動きを追跡する “サイバネティックな友人”を構想しています。聞いてください。これはGoogleの即時の目標ではないが、同社の初期の段階では、2001年に知覚的なコンピュータHALに相当するものを作ろうとしていた、という共同設立者のSergey Brinと一致する:A Space Odyssey(2001年宇宙の旅)、ひとつの違いは人を殺さないこと。

今のところ、Kurzweilはコンピュータが自然言語で理解し、話すことを助けることを目指しています。 「私の任務は、有用なことを行うためにコンピュータに自然言語を十分に理解させることです。質問に答えるためには、より良い検索の仕事があります。本質的に、彼はJeopardyを理解する能力に憧れているIBMのWatsonのより柔軟なバージョンを作りたいと考えています! 「泡立つようなパイのトッピングによって長くて、厄介なスピーチ」と奇妙な質問をしました。(ワトソンの正解:「メレンゲの蜂蜜とは?」)

KurzweilはDeep Learningだけに焦点を当てていませんが、音声認識に対する彼のアプローチは、脳の働きについての同様の理論に基づいていると言います。 彼は、通常はコンピュータを動かすあいまいさを含む単語、フレーズ、センテンスの実際の意味をモデル化したいと考えています。 「私は言語の意味的意味を表現するためのグラフィカルな方法を考えています」と彼は言います。

文の構文をグラフ化するためのより包括的な方法が必要になります。 Googleはすでにこの種の分析を使って翻訳の文法を改善しています。 自然言語の理解はまた、コンピュータが人間の考えることを常識的な意味として把握する必要があります。 そのために、Kurzweilは、約7億件のトピック、場所、人などのGoogleのカタログとそれらの間の何十億という関係のナレッジグラフを活用します。 昨年、リンクだけでなく、検索者に質問に対する回答を提供する方法として導入されました。

最後に、KurzweilはDeep Learningアルゴリズムを適用して、コンピュータが「ソフト境界と言語のあいまいさ」に対処できるようにする計画です。 「自然言語の理解は、検索以外の目的では終わらない。 「それは私が終わると思うプロジェクトではない」

Kurzweilのビジョンは現実にはまだまだ数年ですが、Deep Learningは、音声や画像認識以外のアプリケーションをより短期間で促進する可能性があります。 1つは、創薬があります。 HintonのグループによるMerckのコンテストでの驚きの勝利は、それが影響を与えると予想していた分野でのDeep Learningの有用性を明らかに示しました。

それだけではありません。 マイクロソフト社のピーターリー氏によると、産業検査やロボットガイダンスなどのアプリケーションでイメージングを使用するマシンビジョン技術の深層学習の潜在的な使用に関する早期の研究が有望視されています。 彼はまた、深い神経ネットワークが医療問題を予測するために使用できる個人センサを想定しています。 また、都市全体のセンサーは、例えば交通渋滞の発生場所を予測できるディープ・ラーニング・システムに役立つ可能性があります。

人間の脳をモデリングするほど深刻なことを試みる分野では、1つの手法ですべての課題を解決できないことは避けられません。 しかし、今のところ、これは人工知能の道をリードしています。 ディーンは、「Deep Learning」は、「世界について学ぶための非常に強力なメタファーです」と述べています。

参照:

Robert D. Hof

https://www.technologyreview.com/s/513696/deep-learning/