サイバーセキュリティにおける機械学習についての5つの神話

機械学習は、人間活動のすべての領域に長く浸透してきました。 スピーチ、ジェスチャー、筆跡、画像の認識において重要な役割を果たすだけでなく、機械学習がなければ、現代医学、銀行業務、バイオインフォマティクス、あらゆるタイプの品質管理を想像することは困難です。 学習や一般化が可能なマシンがなければ、天気予報さえ作ることはできません。

私は、サイバーセキュリティの分野にいて、いくつかの機械学習についての誤解について警告し、または払拭したいと考えています。

神話№1:情報セキュリティにおける機械学習は「目新しさ」

なんらかの理由で、サイバーセキュリティにおける人工知能の議論は、最近大荒れとなっている。 あなたが長期的にこのテーマに触れていなければ、あなたはそれが新しいものだと思うかもしれません。

背景を少し説明:最初の機械学習アルゴリズムの1つ、人工ニューラルネットワークは、1950年代に発明されました。 興味深いことに、当時、アルゴリズムはすぐに「強力な」人工知能の作成につながると考えられました。 それは、プログラムされたものに加えて、自分自身を理解し、他のタスクを解決することができる知性です。 それで、いわゆる弱いAIがあります。 60年後、真のAIの作成には数年を要し、今日は何が言及されているのかをもっとよく理解しています。 人工知能は実際に機械学習であるからです。

サイバーセキュリティに関しては、機械学習は新しいものではありません。 このクラスのアルゴリズムは、10〜12年前に最初に実装されました。

当時、新しいマルウェアの量は2年ごとに倍増していました。ウイルスアナライザの単純な自動化では不十分であることが明らかになった後、質的な飛躍が必要でした。 その跳躍はウイルスコレクション内のファイルを処理する形で行われ、検査対象のファイルと類似のファイルを検索することができました。 ファイルが悪意のあるものであったかどうかについての最終的な判定は人間によって出されたが、この機能はほぼすぐにロボットに転送されました。

言い換えれば、サイバーセキュリティにおける機械学習については何も新しいことはありません。

神話№2:サイバーセキュリティにおける機械学習は簡単です – すべては既に考えられています

機械学習が使われるいくつかの分野では、既成のアルゴリズムがいくつか存在することは事実です。

これらの球には、顔や感情の認識、または犬と猫の区別が含まれます。

これらの多くの場合、誰かが多くの考えをし、必要な兆候を特定し、適切な数学的ツールを選択し、必要なコンピューティングリソースを脇に置いて、すべての調査結果を公に利用できるようにしました。 現在、すべてのスクールキッドでこれらのアルゴリズムを使用できます。

機械学習は、チョコレートチップの数およびクッキーの半径によってクッキーの品質を決定する

これはマルウェア検出のためのアルゴリズムもすでに存在しているという誤った印象を与えます。 そうではありません。

カスペルスキー・ラボでは、10年以上に渡って多くの技術を開発し、特許を取得しています。 私たちは引き続き研究を行い、新しいアイデアを思いついていきます。なぜなら、それが次の神話がどこに来るのかということです。

神話№3:機械学習 – 一度やって忘れる

マルウェアの検出と顔の認識には概念上の違いがあります。 顔は顔のままです – その点で何も変わることはありません。 マシンラーニングが使用される大部分の領域では、目的は時間とともに変化するのではなく、マルウェアの場合は常に変化しています。 サイバー犯罪者はモチベーションの高い人々(金銭、スパイ、テロなど)であるからです。 彼らの知性は人工的ではない。 訓練されたモデルから逃れるために悪意のあるプログラムに積極的に対処し、意図的に変更しています。

そういうわけで、モデルは常に教えられなければならず、時には最初から再学習さえしなければならない。 明らかに、マルウェアを急速に変更することで、アンチウイルスデータベースのないモデルに基づくセキュリティソリューションは無用です。 サイバー犯罪者は、必要なときに創造的に考えることができます。

神話№4:セキュリティソフトウェアをクライアント側で学習させることができます

たとえば、クライアントのファイルを処理するとします。 それらのほとんどはきれいになりますが、一部は悪質なものになります。 後者は突然変異していますが、モデルは学習します。

ただし、平均的なクライアントのコンピュータを通過するマルウェアサンプルの数は、ウイルス対策ラボシステムによって収集されたマルウェアサンプルの数よりはるかに少ないため、このようには機能しません。 学習のためのサンプルがないので、一般化はありません。 ウイルス作成者(以前の神話を参照)の「創造性」の要因で検出が失敗すると、モデルはマルウェアをクリーンなファイルとして認識し、「間違ったことを学ぶ」でしょう。

神話№5:他の検出方法を使わずに、機械学習モデルのみに基づくセキュリティソリューションを開発することは可能です

なぜ、異なるテクノロジに基づいたマルチレベル保護を使用するのでしょうか? なぜ、そのバスケットがとてもスマートで高度なものであれば、あなたの全部の卵を一つのバスケットに入れないのでしょうか? 1つのアルゴリズムですべてを解決できます。正しいですか?

ほとんどのマルウェアは、1つの悪意のあるプログラムの多数の変更からなるファミリに属しています。 たとえば、Trojan-Ransom.Win32.Shadeは3万人の暗号者の家族です。 モデルは多数のサンプルで教えることができ、将来の脅威を検出する能力を得ることができます(特定の制限内で、Myth№3参照)。 このような状況では、機械学習はうまく機能します。

しかし、ファミリはちょうど少数のサンプルで構成されている場合もありますし、1つの場合もあります。 おそらく、作者は、彼の「脳みそ」がその行動のために直ちに検出された後、セキュリティソフトウェアとの戦いに行きたくないかもしれない。 代わりに、彼は、セキュリティソフトウェアがインストールされていない人または行動検出のない人(すなわち、すべての卵を1つのバスケットに入れた人)を攻撃することに決めました。

このような「ミニファミリー」はモデルを教えるためには使用できません.1つか2つの例だけでは一般化(機械学習の本質)は不可能です。 このような状況では、ハッシュ、マスクなどに基づいて時間をかけてテストされた方法を使用して脅威を検出する方がはるかに効果的です。

別の例は標的型攻撃です。 これらの攻撃の背後にある作者は、ますます新しいサンプルを作り出すつもりはない。 1人の犠牲者に対して1つのサンプルが作成されます。このサンプルは、この目的のために特別に設計されたソリューション(Kaspersky Anti-Targeted Attack Platformなど)でない限り、保護ソリューションによって検出されないことを確認できます。 もう一度、ハッシュベースの検出がより効果的です。

結論

さまざまな状況で異なるツールを使用する必要があります。 マルチレベルの保護は単一のレベルより効果的です。より効果的なツールは「ファッションから外れている」という理由だけで無視してはいけません。

最後に、ロボコップの問題

そして一つの最後のこと。 これは神話よりも警告です。 研究者は現在、複雑なモデルが間違っていることにもっと注意を払っています。人間の論理の観点から、彼らが取る決定は説明できないこともあります。

機械学習は信頼できる。 しかし、重要なシステム(航空機や自動車、薬、制御サービスなどのオートパイロット)は、通常、非常に厳しい品質基準を持っています。 ソフトウェアプログラムの正式な検証が使用され、機械学習では、思考プロセスと責任の一部が機械に委譲されます。 そのため、モデルの品質管理は、高い評価を得ている専門家によって実施される必要があります。

参照:

Five myths about machine learning in cybersecurity

1 Trackback / Pingback

  1. 機械学習 V.S. スパム – サイバーセキュリティ インデックス

コメントをお寄せください

ご登録いただいたメールアドレスは公開されません。


*