Perimetrix

Шаг 1. Классификация данных в организации

Классификация данных является одним из важнейших шагов на пути создания эффективной системы защиты от утечек. Это подтверждают и результаты исследования «Инсайдерские угрозы в России», в ходе которого компания Perimetrix опросила специалистов по информационным технологиям и информационной безопасности 472 организаций. 77% респондентов исследования считают, что классификация способствует повышению эффективности защиты от утечек.

file/products/perimetrix/steps/perimetrix-steps-1-01.jpg

Кроме того, классификация важна не только для безопасности, но и с точки зрения бизнес-процессов, поскольку позволяет упорядочить места хранения данных.

Тем не менее, на практике слишком мало организаций проводят классификацию. Виной тому — сопутствующие процессу трудности. В упоминавшемся выше исследовании «Инсайдерские угрозы в России» респонденты выделили следующие основные сложности. Трудно поддерживать актуальность по прошествии времени (52%), сложен сам процесс классификации (23%), высокая стоимость (19%). В результате, если организации и проводят классификацию, то делают это достаточно редко, и актуальность таких сведений вызывает сомнения.

file/products/perimetrix/steps/perimetrix-steps-1-02.jpg

В соответствии с предлагаемой в этой статье многомерной моделью, любые данные характеризуются множеством категорий, разнесенных по разнородным измерениям. Так, финансовый отчет фирмы «Пример» из города Уфа может быть описан категориями, принадлежащими следующим измерениям: «Функциональность», «Секретность», «География».

file/products/perimetrix/steps/perimetrix-steps-1-03.jpg

Представим, что измерение «Функциональность» имеет набор равнозначных категорий, например, «IT», «Финансы», «Развитие», «Кадры». Очевидно, рассматриваемый отчет относится к финансовым документам.

Измерение «секретность» может быть иерархическим, т.е. «Публичные документы» — «Для внутреннего использования» — «Строго конфиденциально». Пусть финансовый отчет имеет категорию «для внутреннего использования».

Измерение «География» — древовидное, т.е. родительский уровень «Россия» имеет несколько ветвей-регионов, в том числе и «Самара», «Томск», «Уфа», «Волгоград».

В результате финансовый отчет описывается трехмерной моделью категорий, состоящей из измерений «Финансы», «Для внутреннего использования», «Уфа». Подобным образом, любой документ в системе, в соответствии со своим содержанием, может быть описан исключительно точно. Так же как это сделал бы обычный человек, а не машина. На рис. 3 представлен некий документ и его возможная классификация в модели категорий Perimetrix. Совокупный набор категорий различных измерений называется уровнем.

Классификация данных подразумевает выявление уровней конфиденциальности в соответствии с многомерной моделью категорий, принимаемой в организации. Требуется провести первичную классификацию данных, актуальность которой затем необходимо будет поддерживать. Кроме того, классифицировать придется новые и входящие документы, еще не содержащие уровней конфиденциальности.

ПЕРВИЧНАЯ КЛАССИФИКАЦИЯ И ЕЕ МЕТОДЫ

Первичная классификация данных проводится для всех документов в корпоративной сети, а также для входящих и новых документов.

КЛАССИФИКАЦИЯ ВРУЧНУЮ

Ручная классификация является наиболее точным, но и самым трудоемким способом. Ручная классификация подразумевает, что администратор системы самостоятельно проводит исследование сетевых ресурсов и вручную задает уровни конфиденциальности для отдельных файлов. При этом администратор руководствуется названием документа, местом его хранения, другими атрибутами и, конечно же, содержанием.

 file/products/perimetrix/steps/perimetrix-steps-1-04.jpg

АВТОМАТИЗИРОВАННАЯ КЛАССИФИКАЦИЯ

Несмотря на то, что только осведомленный человек может наиболее точно отнести документ к определенному уровню (или уровням) конфиденциальности, в корпоративной среде такой метод малоприменим. Даже небольшие компании, существующие не более года, имеют десятки тысяч рабочих документов и их черновиков. Если же говорить о крупных компаниях с богатой историей, количество документов может быть на порядки выше. При этом действительно важные с точки зрения бизнеса документы нередко хранятся вместе с личными файлами сотрудников. Очевидно, что просмотреть все содержимое серверов и рабочих станций пользователей в разумные сроки не представляется возможным даже для группы администраторов. Поэтому целесообразно реализовать ряд методов, позволяющих автоматизировать труд администраторов по классификации данных.

  • В отсутствие полноценной классификации, в корпоративной среде, тем не менее, обычно существуют правила хранения документов и разграничение доступа персонала к сетевым ресурсам. Например, бухгалтерские документы положено хранить на сетевом диске M:, причем отчетность из региональных филиалов находится на этом диске в директориях с соответствующими именами. Далее, на сетевом диске N: могут храниться файлы пользователей, не относящиеся деятельности компании. А на сервере с адресом 192.168.1.20 хранятся исключительно персональные данные клиентов организации. 
    Основываясь на данном разделении, можно предположить, что документы из определенных источников (адресов, директорий и т.д.) имеют одинаковые уровни конфиденциальности, указываемые человеком. Таким образом производится автоматизация классификации данных, исходя из мест хранения. Данный способ достаточно просто реализовать, классификация производится очень быстро, однако точность определения уровней является весьма низкой.
  • Другой способ автоматизации (по формальным признакам) не налагает ограничений на расположение классифицируемых файлов, и использует различные признаки и атрибуты документов. Например, предположить о сущности документа можно по его автору или заданной маске имени файла. Однако и этот способ не предусматривает просмотр реального содержимого, а потому является крайне неточным. Хотя следующие два метода также являются вероятностными, они учитывают именно содержимое документов и, обычно, показывают лучшие результаты.
  • Использование морфологического анализа актуально для документов с текстовым содержанием. С помощью лингвистических методов система пытается определить смысловую сущность документа. В тексте ищутся заданные слова и сочетания, указывающие на принадлежность к уровням конфиденциальности. 
    Данный метод требует скрупулезной предварительной работы. Необходимо выделить ключевые слова, а также указать их значимость для каждой из категорий данных. Кроме того, точность распознавания находится не на самом высоком уровне.
  • Анализ по цифровым отпечаткам предполагает сравнение документов из корпоративной сети с эталонными документами, уже отнесенными к различным уровням конфиденциальности. Каждый файл разбивается на некоторое количество частей, для каждой из которых вычисляется контрольная сумма. Совпадений контрольных сумм частей проверяемых документов с контрольными суммами частей эталонных документов говорит о близком содержании документов.
    Цифровые отпечатки могут сниматься как с самих файлов в бинарном преставлении, так и с текста, если текст возможно выбрать из файла (например, из файлов MS Word).

Важно отметить, что и при автоматизации процесса классификации решающее слово остается за человеком, администратором системы. Именно он определяет, согласиться ли с выбором системы или провести дополнительное изучение документа. Что касается способов, то лучше всего использовать сочетание методов. Например, сначала отправить документ на анализ по цифровым отпечаткам, а затем, если уровень не найден, на морфологический анализ. Классифицировать документы по формальным признакам и местам хранения рекомендуется при проведении экспресс-классификации, а также в том случае, если корпоративные политики управления данными удовлетворяют условиям реализации методов.

 

DatAnywhere: Облачное хранение на корпоративных серверах

Правовое образование в области информационной безопасности

eng | pda