セキュリティ情報

2018/03/20

知っておいて損なし: ここまでできる最新の情報流出対策(2)
– データの体系に合わせた検出アルゴリズムで的確な検出を実現 –

多くの企業では、複数のクラウドサービスやオンプレミスのシステムを活用するなど、複雑なICT環境を構築している。クラウドとオンプレミスが混在するハイブリッドクラウドの環境下では、機密情報漏洩対策にも柔軟さが求められるが、そうした状況の中で、再び最新の「DLP(Data Loss Prevention)」技術に注目が集まっている。

最新の「DLP」では、情報漏洩対策をどのように行っているのか、実はあまり知られていない。そこで、前回に引き続き「最新のDLPが持つ検出ロジック」について説明する。10年以上の実績を持つシマンテック社のDLP製品を例に挙げ、前回の「検出ロジック1」に続いて、検出ロジック2から順番に解説していこう。

● 検出ロジック2:データベース照合

「機密データ」として最初に連想されるのは、「データベース」やExcelなどの「表計算ファイル」ではないだろうか。

実際、ビッグデータ解析などのソースとしても活用されるこうしたデータベースには、個人情報や売上情報、給与情報など、大量の機密情報が格納されている。さらにデータベースに格納されたデータは、様々なアプリケーションで利用されるため、読み出された後に形を変え、分散していくおそれがある。

こうした事情から、改正個人情報保護法では、いわゆる「データベース提供罪」が定められ、不正に個人情報を販売することが禁止された。

企業では、データベース上の個人情報が不正に利用されないよう配慮が必要だ。データベースに保存されたデータが、形を変えて持ち出されようとしてもそれらを検出し、漏洩を未然に防ぐ必要がある。

対策としては、まずデータベースを定期的にスキャンし、各テーブルを構成するデータの組み合わせを認識(インデックス化)しておく。(図1)

顧客情報、社員情報を記憶して監視


図1:顧客情報、社員情報を記憶して監視

そしてウェブプロキシやメールサーバとDLPを連携させることにより、メールや表計算ファイルなどから「個人」を特定できるデータが検出された際には、それらのデータ転送をブロックすることで情報漏洩を防いでいる。

● 検出ロジック3:ファイル照合

ドキュメントファイルや画像データ、ソースコードなど、データベース化が難しいいわゆる「非構造化データ」は、該当ファイルに対応するハッシュ値(フィンガープリント)を監視する方式が一般的と言えるだろう。

ハッシュ値で検出する場合、「ゆらぎ範囲指定」がポイントとなる。完全に一致した場合に限らず、「ゆらぎ値」を90%などに設定しておくことで、オリジナルファイルから部分的に変更されたファイルも検出できるようになる。(図2)

重要ファイルそのものを記憶して監視


図2:重要ファイルそのものを記憶して監視

● 検出ロジック4:OCR

これまではテキストデータの話をしてきたが、「画像データ」に機密情報を含む文字列やデータが含まれている場合は、どのように検出すれば良いだろうか。

シマンテックのDLPでは2つの解決方法を持っており、その一つがOCRだ。
OCR機能は画像データに対してスキャンを行い、テキスト文を抽出した上で、「検出ロジック1(コンテンツ表現)」(前回記事参照)や「検出ロジック2(データベース照合)」により機密性をチェックすることができる。
例えば、免許証やパスポートのコピーなど、個人情報が記載された画像やPDFファイルを対象にすることで、より厳格な検出が可能になる。(図3)

OCRによるイメージデータに含まれる機密情報の検出


図3:OCRによるイメージデータに含まれる機密情報の検出

● 検出ロジック5:フォーム認識

一方、手書きの文字などOCRでは読み取り精度が低くなってしまうような画像データではどうだろうか。
例えば口座振替依頼用紙などは原本の管理と別に、スキャンしたイメージデータを保管するという運用をしているところも多いが、個人情報自体は手書きによる文字が多いため、OCRでの読み取りでは対応しきれないケースも出てくる。

こうした要件には、最新検出ロジックのひとつである「フォーム認識」で対処できる。機密性の高い文書の中でも、定型の様式を持つものがあれば、白紙のフォーマットをあらかじめ読み込ませておき、そのフォームに何らかの文字が存在しているかを検知する。
これにより上記の口座振替依頼用紙の例のように、同じフォームで大量の個別データの画像イメージを持つ組織では、精度の低い手書き文字の検知よりも効率的に機密情報の漏洩に対する防止策となりうる。(図4)

機密情報を含む定型様式を記憶させて何らかのデータが載ったフォームを画像として検出


図4:機密情報を含む定型様式を記憶させて何らかのデータが載ったフォームを画像として検出

前回から今回にかけて5種類の検出ロジックを紹介したが、最新のDLPではそれぞれのデータ特性や形式に合わせ、適切な検出が可能なロジックが用意されている。
また最新のコンプライアンス基準やデータガバナンスに対応したテンプレート活用すれば、導入時の検出ポリシーを設定する負荷を大幅に軽減できる。

改正個人情報保護法やGDPR(一般データ保護規:General Data Protection Regulation)など、クラウドを活用するにあたり、データの可視化および自動検出が求められる時代を迎えた。DLPはもはや必要不可欠な存在となってきている。

DLPも進化を遂げている。今こそ古いイメージから脱却し、あらためてDLPの実用性について再評価すべき時ではないだろうか。

セキュリティ情報トップへ戻る

シマンテック セールスインフォメーション(法人のお客様向け)

※2014年2月17日よりお問い合わせ番号が下記のものに変更となりましたのでご注意ください。

電話でのお問い合わせ
03-4540-6226
受付時間:10:00~12:00、13:00~17:00
月曜日~金曜日(土・日・祝日を除く)
WEBからのお問い合わせ
お問い合わせフォーム
セキュリティの緊急事態発生時は
インシデントレスポンスサービス
Email : incidentresponse@symantec.com
0066-33-813-303(フリーダイヤル 9:00-17:30* )
*時間外は留守電もしくは英語対応になります。
お問い合わせの前に
お問い合わせが集中しお電話がつながりにくくなる場合がございますが、水曜日、金曜日は比較的お電話がつながりやすい傾向にあります。
なお平日の10:00~11:00及び15:00~17:00の時間帯はお待たせする可能性がございます。また月末月初やGW/夏休み前後、年末にはお問い合わせが集中することが予想されます。