Classificação de Dados: Proteção por Sensibilidade

Implemente classificação de dados: níveis (público, interno, confidencial, restrito), controles por nível e ciclo de vida.

Classificação de Dados

Classificação de dados é processo sistemático de categorizar informações organizacionais baseado em sensibilidade, criticidade para negócio, requisitos regulatórios e impacto potencial de divulgação não autorizada ou perda - sem classificação clara, organizações tratam todos os dados igualmente (desperdiçando recursos aplicando controles máximos em dados triviais ou falhando em proteger adequadamente dados altamente sensíveis), enfrentam dificuldades em priorizar investimentos de segurança, e lutam para cumprir regulações como LGPD, GDPR e PCI-DSS que exigem identificação e proteção diferenciada de dados pessoais e sensíveis. Framework típico de classificação usa 4-5 níveis hierárquicos: Público (informação já divulgada publicamente ou aprovada para disclosure, sem impacto se vazada, exemplos incluem press releases, marketing materials, website public content), Interno/Uso Interno (informação para uso dentro da organização, não destinada a público externo mas disclosure limitado não causaria dano significativo, como políticas internas, org charts, procedimentos operacionais), Confidencial (informação sensível cuja divulgação não autorizada pode causar prejuízo financeiro ou reputacional moderado à organização, requer proteção através de access controls e encryption at rest, exemplos incluem planos estratégicos, dados financeiros pré-release, informações de clientes não-públicas, código-fonte proprietário), Restrito/Altamente Confidencial (informação extremamente sensível cuja exposição causaria dano severo, requer máximo nível de proteção com encryption at rest e in transit, MFA para acesso, audit logging completo, exemplos incluem propriedade intelectual crítica, dados pessoais sensíveis sob LGPD, informações de cartão de crédito sob PCI-DSS, dados de saúde sob HIPAA, segredos comerciais, chaves criptográficas, credenciais privilegiadas). Cada nível de classificação tem controles mandatórios associados definindo como dados devem ser armazenados (storage requirements), transmitidos (encryption standards), acessados (authentication e authorization requirements), retidos (retention periods), e destruídos (secure deletion methods) ao final de vida útil.

Processo de Classificação e Ownership

Classificação efetiva requer estabelecer ownership claro de dados onde data owner (tipicamente business unit manager ou process owner) é responsável por determinar classificação apropriada baseada em business context, impacto potencial de disclosure, e requisitos regulatórios aplicáveis - TI pode providenciar guidance e tooling mas decisão final cabe ao owner que entende business value e sensitivity dos dados. Processo inicia com data discovery e inventory identificando onde dados residem (file shares, databases, SharePoint, cloud storage, employee laptops), que tipos de dados existem (PII, financial, health, IP), quem os cria e usa, e fluxos de dados através de sistemas. Data owner então classifica baseado em classification schema da organização, aplicando labels/tags que podem ser metadata tags (automated), visual markings (headers/footers em documents), ou filesystem attributes. Classificação deve considerar: Aggregation risk onde combination de múltiplos dados Low sensitivity pode criar High sensitivity dataset (lista de nomes é Public mas nome + CPF + endereço + renda é Confidential), Regulatory requirements que podem force minimum classification (dados sob LGPD automaticamente são Confidencial minimum mesmo se business considera Low risk), Contractual obligations como NDAs que podem elevar classification de dados de terceiros, e Temporal aspects onde classification pode mudar ao longo do tempo (dados financeiros são Restrito antes de earnings release, tornam-se Public após disclosure). Reclassification deve ser permitida quando business circumstances mudam, mas downgrade de classification level requer approval e justification documentation para audit trail.

Controles Técnicos por Nível de Classificação

Cada nível de classificação deve ter controles técnicos mandatórios claramente definidos e enforced via policies e tecnologia. Para dados Públicos: sem requisitos especiais de segurança, podem ser armazenados em qualquer location, transmitidos via email não criptografado, accessible sem authentication. Para dados Internos: acesso restrito a employees e authorized contractors via network access controls, armazenamento em corporate file shares ou approved cloud storage com access logging, transmissão via corporate email (TLS in transit), no encryption at rest required mas backup regular mandatório. Para dados Confidenciais: access control baseado em role e need-to-know via IAM system, encryption at rest usando AES-256 para databases e file storage, encryption in transit via TLS 1.2 plus para transmissões externas, MFA para remote access, audit logging de todos os access e modifications com retention de logs por 1 ano minimum, DLP (Data Loss Prevention) policies para prevenir email ou upload não autorizado, sharing externo requer encryption e password protection, backup encrypted com testes regulares de restore, e retention period específico seguido de secure deletion. Para dados Restritos: same controls de Confidencial plus hardware security modules (HSM) para key management, network segmentation isolando sistemas com dados Restritos, MFA mandatório para all access incluindo interno, enhanced monitoring com real-time alerting de anomalies, sharing externo proibido ou extremely limited com legal approval, encryption keys managed separadamente de encrypted data, background checks para personnel com acesso, e physical security controls para hardware armazenando dados. Enforcement de controles usa combination de technology (automated encryption, DLP, access controls), policy (acceptable use policies, classification guidelines), e training (awareness de employees sobre proper handling).

Labeling, Tagging e Automated Enforcement

Manual classification onde usuário seleciona classification label para cada documento é error-prone, inconsistente e não escalável - automation é essencial para effective data classification em organizações modernas com terabytes de dados criados diariamente. Content-based classification usa pattern matching, regular expressions e machine learning para automatically classify dados baseado em content: detecta credit card numbers (validando via Luhn algorithm), CPF/CNPJ patterns, email addresses, health record numbers, e keywords indicativos de sensitive information, classificando documentos contendo esses patterns como Confidencial ou superior. Context-based classification considera metadata como author (documentos criados por CFO automaticamente Confidencial), location (tudo em folder "Board Materials" é Confidencial), e application (registros em HR database são Confidencial pois contêm PII). User-based classification prompts usuários para selecionar classification quando salvam documento ou enviam email, com intelligent defaults baseados em context e mandatory review antes de downgrade. Technologies: Microsoft Information Protection (MIP) integra com Office 365 aplicando labels que persist com documento (embedded metadata), Azure Information Protection extends para on-prem file shares e cloud storage, Symantec DLP e Forcepoint DLP fazem content inspection e classification, Google Cloud DLP API automatically detects e classifies sensitive data em GCP, e Varonis e Netwrix fazem classification de file shares legados via scanning. Labels devem trigger automated controls: documento labeled Confidencial automatically encrypts quando saved, emails com Confidential attachments require confirmation antes de enviar externamente, e upload de Restricted data para não-approved cloud storage é blocked. Metadata tagging permite search e discovery de dados por classification facilitando compliance reporting (quantos documentos Confidenciais temos, onde estão), data minimization (delete Confidenciais após retention period), e incident response (se bucket S3 vaza, quickly identify impact baseado em classification dos dados).

Ciclo de Vida e Retenção de Dados

Dados têm lifecycle desde criação até eventual destruição, e classification informa controles apropriados em cada estágio desse lifecycle. Creation: classificação deve ser determinada no momento de criação (via user prompt, automatic detection, ou inherited de template/source), com controls aplicados immediately. Storage: dados devem residir em approved storage locations baseados em classification (Restrito apenas em on-prem data center com physical security, Confidencial permite approved cloud providers com encryption, Interno pode usar qualquer corporate storage), com encryption, backup, e access controls matching classification level. Use/Processing: access durante uso requer authentication/authorization apropriada, logging de quem acessou quando, e DLP prevention de unauthorized sharing ou exfiltration. Sharing: external sharing policies baseadas em classification (Público freely shareable, Interno apenas via secure methods com NDAs, Confidencial extremely restricted com legal approval, Restrito nunca ou apenas via secure data rooms), e internal sharing via need-to-know principle. Archival: dados não ativamente usados mas retidos por compliance ou business needs movem para lower-cost archive storage mantendo mesmas security controls, com retention schedule definido por classification e regulatory requirements (LGPD, SOX, tax laws). Destruction: ao final de retention period ou quando business need ends, secure deletion methods baseadas em classification (Público simple delete, Confidencial overwrite com random data ou crypto-shredding via key destruction, Restrito physical destruction de media via certified shredder com certificate of destruction). Implement automated retention policies no SharePoint, Google Drive, e file shares que automatically delete ou archive dados após retention period expires, com legal hold capability para suspend deletion durante litigation.