機械学習 V.S. スパム

機械学習の方法は、セキュリティソリューションの開発者が銀色の弾丸として、あるいは巨大な範囲の脅威からユーザーを守る、魔法のようにあらゆるものに対応できる技術として提示されることがよくあります。

しかし、これらの主張はどのように証明されましたか? これらの技術がどこでどのように厳密に使用されているかについての説明が提供されていない限り、これらの主張はマーケティングの策略にすぎません。

機械学習技術は、長年にわたりカスペルスキー製品のセキュリティ製品の実用的なコンポーネントとなっています。カスペルスキー・ラボは、機械学習がすべての脅威に対抗できる優れた技術であると見なされるべきではないと考えています。 もちろん、機械学習は非常に効果的な保護ツールですが、多くの中でただ1つのツールです。 私の同僚のアレクシー・マラノフも、サイバーセキュリティにおける「機械学習についての神話」についての記事を書いています。

カスペルスキー・ラボでは、特に興味深い迷惑メール検出の課題に取り組む際に、さまざまな分野で機械学習を利用しています。 この特定の作業は、想像するよりもはるかに困難です。 スパムフィルタの仕事は、望ましくない内容のすべてのメッセージを検出してフィルタリングするだけでなく、すべての正当なメッセージが確実に受信者に配信されるようにする必要があります。 言い換えれば、タイプIのエラー、またはいわゆるフォールスポジティブを最小限に抑える必要があります。

忘れてはならない別の側面は、スパム検出システムが迅速に対応する必要があるということです。 それはかなり瞬時に動作する必要があります。 そうしないと、電子メールトラフィックの通常の交換が妨げられます。

3つのコーナーはスピード、偽陽性の欠如、スパム検出の品質を表しています。 これら3つのうちのどれでも妥協することはできません。 たとえば、極端な場合、スパムを手動でフィルタリングすることができます。これは100%の有効性を提供しますが、スピードは最小限に抑えられます。

別の極端なケースでは、非常に厳しいルールが課される可能性があるので、電子メールメッセージはまったく通過しません。受信者には迷惑メールや正当なメッセージはありません。 さらに別のアプローチは、既知のスパムのみをフィルタリングすることです。 その場合、一部のスパムメッセージは依然として受信者に届きます。

三角の内部で適切なバランスを見つけるために、私たちは機械学習技術を使用しています。その一部は、分類プログラムがすべての電子メールメッセージに対して迅速でエラーのない判定を行うアルゴリズムです。

このアルゴリズムはどのように構築されていますか?明らかに、入力としてデータが必要です。しかしながら、データが分類器に供給される前に、「ノイズ」を浄化しなければならず、これは解決される必要があるさらに別の問題である。

スパムフィルタリングの最大の課題は、異なる人が、有効なメッセージと迷惑メールを判断する基準が異なることです。 1人のユーザーが販売促進メッセージを完全なスパムと見なしているかもしれないが、別のユーザーは潜在的に有用であると考えているかもしれません。

この種のメッセージは雑音を生成し、したがって、高品質の機械学習アルゴリズムを構築するプロセスを複雑にする。統計の言語を使用すると、データセット内にいわゆるアウトライアー値、すなわち残りのデータとは劇的に異なる値が存在することがある。

この問題に対処するために、我々は、この目的のためにカスタマイズされたIsolation Forestアルゴリズムに基づいて、自動的に異常値フィルタリングを実装しました。当然ながら、これは雑音データの一部のみを削除しますが、すでに私たちのアルゴリズムの方がはるかに簡単になりました。

その後、実際には「クリーン」なデータが得られます。 次のタスクは、データを、分類器が理解することができるフォーマット、すなわち識別子のセットまたは特徴に変換することである。 Googleのクラシファイアで使用される主な機能の3つは次のとおりです。

テキスト機能 – スパムメッセージで頻繁に発生するテキストの断片。 前処理後、これらはかなり安定した機能として使用できます。

エキスパート機能 – 当社データベースで長年蓄積された専門知識に基づく機能。 それらは、ドメイン、ヘッダーの頻度などに関連している可能性があります。

生の特徴 – おそらく最も理解しにくい。 我々は未加工の形でメッセージの一部を使用して、まだ考慮していない特徴を識別する。メッセージテキストは単語埋め込みを使用して変換されるか、またはバッグオブワードモデルに還元される(すなわち、 文法や語順は考慮されません)、その後、特徴を自律的に識別する分類子に渡されます。

これらのすべての機能とその組み合わせは、最終段階である分類器の起動に役立ちます。

我々が最終的に見たいのは、最小限の偽陽性を生成し、速く働き、スパムを排除するという主要目的を達成するシステムです。 これを行うために、私たちはクラシファイアの複合体を構築し、それは各機能のセットごとにユニークです。

たとえば、機械学習アルゴリズムの構成を順次構築するグラジエントブースティングでは、エキスパートフィーチャの最適な結果が実証されました。各学習アルゴリズムは、以前のすべてのアルゴリズムの欠点を補うことを目的としています。

当然、ブースティングは、数値的およびカテゴリの特徴を含む広範な問題を解決する上で良好な結果を示しています。 その結果、すべての分類子の判定が統合され、システムによって最終的な判定が行われます。

我々の技術はまた、過剰トレーニング、すなわち、アルゴリズムがトレーニングデータサンプルではうまくいくが、テストサンプルでは効果がない状況などの潜在的な問題も考慮する。

このような問題が発生しないようにするために、分類アルゴリズムのパラメータは、ランダム検索アルゴリズムの助けを借りて自動的に選択されます。

これは、マシン学習を使用して迷惑メール対策を行う方法の概要です。 この方法がどれほど効果的かを確認するには、独立したテストの結果を見ることが最善です。

参照:

Machine learning versus spam

Be the first to comment

コメントをお寄せください

ご登録いただいたメールアドレスは公開されません。


*