Cloud Data Loss Prevention (Cloud DLP) fait désormais partie de la protection des données sensibles. Le nom de l'API reste le même: API Cloud Data Loss Prevention (DLP). Pour en savoir plus sur les services qui constituent Sensitive Data Protection, consultez la section Présentation de Sensitive Data Protection.

Cette page a été traduite par l'API Cloud Translation.

Types de fichiers et modes d'analyse compatibles

Types de fichiers

Le tableau suivant présente les types de fichiers compatibles avec Sensitive Data Protection, leurs limites d'analyse, les modes d'analyse et la compatibilité avec les transformations.

La protection des données sensibles s'appuie sur les extensions de fichier et les types de contenus multimédias (MIME) pour identifier les types de fichiers à analyser et les modes d'analyse à appliquer. Par exemple, la protection des données sensibles analyse un fichier .txt en mode texte brut, même si le fichier est structuré en tant que fichier CSV, qui est normalement analysé en mode d'analyse structurée.

Type de fichier	Extensions de fichier	Limites	Mode d'analyse	Compatibilité avec la transformation
`Apache Avro`	avro	Limites Avro	Analyse structurée
`Comma- or tab-separated values`	CSV/TSV Remarque : Pour analyser un fichier CSV ou TSV en mode d'analyse structurée, assurez-vous que le délimiteur du fichier correspond à son extension. Autrement dit, un fichier `.csv` doit être délimité par des virgules et un fichier `.tsv` doit être délimité par des tabulations.		Analyse structurée	Supprimer l'identification dans un contenu
`PDF`	pdf	Limites PDF	Analyse intelligente des documents
`Text`	asc, brf, c, cc, cpp, cxx, c++, cs, css, dart, eml, go, h, hh, hpp, hxx, h++, hs, html, htm, shtml, shtm, xhtml, lhs, ini, java, js, json, jsonl, ocaml, md, mkd, markdown, m, ml, mli, pl, pm, php, phtml, pht, py, pyw, rb, rbw, rs, rc, scala, sh, sql, tex, txt, text, vcard, vcs, wml, xml, xsl, xsd, yml, yaml.		Texte brut	Supprimer l'identification dans un contenu
`Microsoft Word`	docx, dotx, docm, dotm	Limites Word	Analyse intelligente des documents
`Microsoft Excel`	xlsx, xlsm, xltx, xltm	Limites d'Excel	Analyse intelligente des documents
`Microsoft Powerpoint`	pptx, pptm, potx, potm	Limites de PowerPoint	Analyse intelligente des documents
`Image`	bmp, gif, jpg, jpeg, jpe, png		Reconnaissance optique de caractères	Masquage
`Binary`	Types de fichiers non reconnus et images ne pouvant pas être analysées à l'aide de la reconnaissance optique des caractères (OCR).		Binaire

Clusters de fichiers

Le tableau suivant présente les groupes de fichiers compatibles avec la protection des données sensibles lors de la création de profils de données sensibles. Un profil de données du magasin de fichiers fournit des scores de sensibilité et de risque liés aux données pour chaque collection de fichiers similaires.

Les fichiers peuvent être déplacés entre les clusters de fichiers à mesure que la protection des données sensibles prend en charge d'autres types de fichiers. À mesure que la prise en charge de l'analyse s'étend, le service de découverte peut commencer à analyser des fichiers qui ne l'étaient pas auparavant. Vous êtes facturé comme décrit dans les tarifs de la détection.

Type de fichier	Extensions de fichier	Limites	Mode d'analyse
`Text`	asc, eml, html, htm, ini, json, jsonL, log, md, mkd, markdown, plist, sql, shtml, shtm, tex, txt, text, vcard, vcs, xsl, xsd		Texte brut
`Source Code`	bat, brf, c, cc, cpp, cxx, c++, cs, css, dart, go, h, hh, hpp, hxx, hs,lhs,, java, js,, ocaml, m, ml,, pl, php, phtml, phtm, ps1, py, pyw, rb, rbw, rs, rc, scala, sh, sql,, wml, xml, yml, yaml, bat, vb, scpt, scr, script, cmd, vbs		Texte brut
`Structured Data`	avro, csv, tsv, proto		Analyse structurée pour les fichiers Avro, CSV et TSV. Analyse de texte brut pour les fichiers proto
`Rich Documents`	doc, docx, dotx, docm, dotm, xls, xlsx, xlsm, xltx, xltm, xls, ppt, pptx, pptm, potx, potm, pdf	Les fichiers PDF, Microsoft Word, Excel et PowerPoint acceptés de moins de 30 Mio sont analysés.	Analyse intelligente des documents
`Images`	bmp, gif, heic, ico, jpg, jpeg, jpe, png, pm, svg, tiff, webp	Les images acceptées aux formats bmp, gif, jpg, jpeg, jpe et png de moins de 4 Mio sont analysées à l'aide de la reconnaissance optique de caractères (OCR) dans les régions où cette fonctionnalité est disponible. En dehors de ces régions, les images ne sont pas analysées.	ROC
`Executables`	ac, air, app, appimage, apk, bas, bms, bin, class, cls, com, command, ctl, ctx, dca, ddf, dep, dob, dox, dll, dsr, dsx, dws, exe, frm, frx, gadget, ipa, mpk, oca, ocx, pag, pgx, pif, pyc, res, run, scb, tlb, vbd, vbg, vbl, vbp, vbr, vbw, vbz, vlx, wct, wsf, widget, workflow, x86, x86_64, xap, xbe, xlm		Analyse non effectuée pour le moment
`Archives`	zz, zpaq, zoo, zip, zipx, yz1, xp3, xar, wim, war, uha, uca, uc, uc0, uc2, ucn, ur2, ue2, tar, gz, tgz, sqx, sitx, sit, shk, sfx, sen, sea, sda, s7z, rk, rar, qda, pit, pim, phar, pea, paq6, paq7, paq8 et variantes, pak, lzx, lzh, lha, kgb, jar, ice, hki, ha, genozip, gca, ear, dmg, dgc, dd, dar, cpt, cfs, car, cab, bh, ba, b6z, b1, arj, arc, cdx, arc, ark, apk, alz, afa, ace, 7z, a, ar, cpio, shar, run, tar, tar, 7z, ace, afa, arc, arj, b1, cab, cfs, cpt, dar, dgc, arc, lzh, lha, lzx, iso, img, ima, arc, mou, dmg, partimg, paq#, lpaq#, pea, pim, qda, rar, rk, shk, sit, sitx, uc, uc0, uc2, ucn, ur2, ue2, wim, swm, esd, zip, zpaq		Analyse non effectuée pour le moment
`Multimedia`	aa, aac, aax, act, aiff, alac, amr, ape, au, awb, dss, dvf, flac, gsm, iklax, ivs, m4a, m4b, m4p, mmf, movpkg, mp3, mpc, msv, nmf, ogg, oga, mogg, opus, ra, rm, raw, rf64, sln, tta, voc, vox, wav, wma, wv, webm, 8svx, cda, webm, mkv, flv, flv, vob, ogv, ogg, drc, gif, gifv, mng, avi, MTS, M2TS, TS, mov, qt, wmv, yuv, rm, rmvb, viv, asf, amv, mp4, m4p (avec DRM), m4v, mpg, mp2, mpeg, mpe, mpv, mpg, mpeg, m2v, m4v, svi, 3gp, 3g2, mxf, roq, nsv, flv, f4v, f4p, f4a, f4b		Analyse non effectuée pour le moment
`AI Models`	caffemodel, ckpt, coreml, dlc, ggjt, ggmf, ggml, gguf, h5, keras, llamafile, mar, mleap, nc, npy, npz, onnx, pb, pkl, prompt, pt, pt2, pte, pth, ptl, safetensors, surml, tflite, tfrecords		Analyse non effectuée pour le moment
`Unknown`	Tout autre fichier ne faisant pas partie d'un autre cluster.	Il s'agit de fichiers sans extension ou qui utilisent des extensions courantes, mais non standards, comme .dat, .1 ou .2.	Analyse non effectuée pour le moment

Types de fichiers non reconnus dans Cloud Storage

Si un fichier n'est pas reconnu lors d'une analyse de stockage, par défaut, le système l'analyse sous la forme d'un fichier binaire. Il tente de convertir le contenu en UTF_8, puis l'analyse en texte brut.

Si un fichier n'est pas reconnu lors d'une analyse de découverte, le système ne l'analyse pas.

Si vous souhaitez ignorer une collection de fichiers, parce que Sensitive Data Protection ne les reconnaît pas, vous pouvez spécifier une liste d'exclusion à l'aide de CloudStorageOptions.file_set.regex_file_set.exclude_regex.

Limites concernant les octets analysés par fichier

En général, vous pouvez limiter le nombre d'octets analysés par fichier. Dans la consoleGoogle Cloud , vous pouvez activer l'échantillonnage. Dans l'API Cloud Data Loss Prevention, vous définissez le champ bytes_limit_per_file ou bytesLimitPerFilePercent.

L'échantillonnage n'est pas compatible avec les modes OCR et d'analyse intelligente. En d'autres termes, lorsque les types de fichiers suivants sont analysés en mode OCR ou d'analyse intelligente des documents, Sensitive Data Protection ignore tous les paramètres que vous appliquez pour limiter les octets analysés par fichier.

Image
Microsoft Excel
Microsoft PowerPoint
Microsoft Word
PDF

Si vous analysez ces fichiers en mode binaire, les limites s'appliquent.

Modes d'analyse

Chaque mode d'analyse fournit des détails de localisation supplémentaires dans les résultats d'inspection.

Mode d'analyse	Notes	Informations de localisation supplémentaires à fournir
Binary	Si un fichier ne peut pas être analysé comme n'importe quel autre type, il sera converti au format UTF_8 et analysé au format texte. L'analyse binaire affecte la qualité de détection.
Analyse intelligente des documents	Les documents sont analysés avec du texte extrait de la mise en forme. Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires.	`DocumentLocation`
Extraction des métadonnées	Dans tous les fichiers analysés à partir de Cloud Storage `metadata` sera analysé en plus du contenu du fichier.	`MetadataLocation`
Reconnaissance optique des caractères (OCR)	Les images intégrées sont analysées à l'aide de la reconnaissance optique des caractères dans les régions compatibles. En dehors de ces régions, les images sont analysées sous la forme de fichiers binaires.	`ImageLocation`
Texte brut		Pas de détails supplémentaires
Analyse structurée	Les informations structurelles sont utilisées pour influencer les résultats. Dans ce mode d'analyse, Sensitive Data Protection utilise les informations d'en-tête pour le contexte. Le service effectue une analyse croisée des lignes et des colonnes pour trouver des données corrélées. Par exemple, ce mode d'analyse peut identifier une adresse postale dont les composantes sont réparties sur plusieurs colonnes d'une même ligne. Les résultats de l'analyse contiennent des informations structurelles, comme la ligne contenant le résultat et le nom de la colonne. Les résultats ne dépassent pas les limites des cellules d'un tableau.	`RecordLocation`

Analyser les fichiers structurés en mode d'analyse structurée

Lorsque vous analysez un fichier structuré (par exemple, un fichier Avro, CSV ou TSV), la protection des données sensibles tente d'analyser le fichier en mode d'analyse de l'analyse structurée. Ce mode d'analyse offre une qualité de détection supérieure à l'analyse binaire, car le mode d'analyse structurée recherche des corrélations entre les lignes et les colonnes dans les données structurées. Les résultats sont renvoyés avec des métadonnées supplémentaires indiquant leur emplacement, y compris le fieldId.

Toutefois, dans les cas suivants, la protection des données sensibles peut revenir au mode d'analyse binaire, qui n'inclut pas les améliorations du mode d'analyse structurée :

Le fichier ou l'en-tête sont corrompus.
La configuration de la tâche d'inspection présente des limites de taille trop faibles, par exemple bytesLimitPerFile et bytesLimitPerFilePercent. Par exemple, si la limite bytesLimitPerFile n'est pas assez élevée pour inclure un en-tête de bloc complet et au moins une ligne de données valides, Sensitive Data Protection peut analyser ce fichier en mode d'analyse binaire.

La sélection des données analysées dépend de la configuration de l'échantillonnage (début en haut du fichier ou à une position aléatoire).

Par exemple, supposons que vous disposiez d'un fichier Avro avec des en-têtes de bloc de 50 Ko et des blocs de données de 2 Mo. En règle générale, le fait de commencer l'échantillon par le haut vous permet de vous assurer que l'en-tête du bloc est toujours inclus dans l'échantillon prélevé par Sensitive Data Protection. Si vous commencez l'échantillonnage à partir d'une position aléatoire dans le fichier et que la taille de l'échantillon est inférieure à celle d'un bloc de données, il est possible que l'en-tête du bloc ne soit pas inclus dans l'échantillon. Dans cet exemple, l'augmentation de la taille de l'échantillon (spécifiée par bytesLimitPerFile ou bytesLimitPerFilePercent) à 2,05 Mo permet d'éviter que l'inspection ne revienne au mode d'analyse binaire.

Exemple : Lorsque la taille de l'échantillon est trop petite, l'inspection peut ne pas inclure l'en-tête du bloc. — Exemple : lorsque la taille de l'échantillon est trop petite, l'inspection peut ne pas inclure l'en-tête du bloc (cliquez pour agrandir).