Accueil  >  Parcours thématique  >  FIC Tech  >  Dark Analytics (Par Cyrille Savelief)

FIC Tech

Dark Analytics (Par Cyrille Savelief)

Beaucoup considèrent l’Internet et le World Wide Web (web) comme étant des synonymes : ils ne sont pas. Le Web est une partie de l’Internet, et un moyen par lequel des informations peuvent être accédées. Certains définissent le Web comme étant constitué des sites Web accessibles via un moteur de recherche traditionnel tel que Google...

Beaucoup considèrent l’Internet et le World Wide Web (web) comme étant des synonymes : ils ne sont pas. Le Web est une partie de l’Internet, et un moyen par lequel des informations peuvent être accédées. Certains définissent le Web comme étant constitué des sites Web accessibles via un moteur de recherche traditionnel tel que Google ou Bing. Cependant, ce contenu – connu sous le nom de « Web de Surface » – n’est qu’une partie du Web. Le Deep Web fait référence à « une catégorie de contenu de l’Internet qui, pour diverses raisons techniques, n’est pas indexé par les moteurs de recherche », et donc n’est pas accessible via un moteur de recherche traditionnel (Chertoff & Simon, 2015). Le Deep Web est donc constitué des informations contenues sur des intranets privés, des bases de données commerciales ou des sites dynamiques dont le contenu est généré suite à des requêtes ou via des formulaires de recherche. Le Dark Web est la portion du Deep Web dont le contenu a été intentionnellement dissimulé. Le Dark Web est un terme générique désignant l’ensemble de sites Web dont le contenu est accessible uniquement au travers de logiciels spécialisés. Bien que le contenu de ces sites soit consultable, l’identité des auteurs de ces sites est dissimulée. Les utilisateurs accèdent généralement au Dark Web dans l’espoir de pouvoir partager des informations ou des fichiers avec peu de risque d’être identifiés.

En 2005, le nombre d’internautes a atteint 1 milliard. Ce nombre a dépassé 2 milliards en 2010 et atteint plus de 3 milliards en 2014. En juillet 2016, plus de 46% de la population mondiale était connectée à Internet (Internet Users, 2017) Bien que des données existent sur le nombre d’utilisateurs de l’Internet, la quantité d’utilisateurs accédant aux autres strates du Web et l’étendue de ces strates est moins clair. Comme des chercheurs l’ont fait remarquer, « il est presque impossible de mesurer la taille du Deep Web. Alors qu’on estime la surface du Deep Web à 4 000 ou 5 000 fois celle du Web de Surface, l’évolution perpétuelle dont les informations sont accédées et redistribuées signifie que la surface du Deep Web augmente de façon exponentielle et à une vitesse qui défie la quantification » (Deep Web: A Primer, 2012) Parce qu’il est possible d’accéder au Dark Web de plus en plus facilement avec peu de risque d’être identifié, celui-ci sert de medium à diverses activités légales (le Dark Web a par exemple aidé les manifestants du « Printemps Arabe » à se mobiliser et à se coordonner) et illégales (contrefaçon de monnaies, vente d’arme, etc.) C’est l’augmentation du volume d’activités[1] illégales qui a attiré l’attention des forces de Police et du législateur sur le Dark Web. Il est par exemple estimé que Silk Road (site e-commerce proposant l’achat de drogues et autres services illicites) a généré 1,2 milliard de dollars de vente entre janvier 2011 et septembre 2013, date de fermeture du site par le FBI. Plus récemment, des indices suggèrent que l’État Islamique et ses sympathisants cherchent à tirer profit de l’anonymat conféré par le Dark Web pour réaliser des activités dépassant le cadre du partage d’informations, du recrutement et de la propagande (Tucker, 2015).

SDW : un moteur de recherche pour le Dark Web

A l’instar de MEMEX (NASA Jet Propulsion Laboratory, 2015), SIXGILL (SIXGILL, 2017) ou encore The Dark Crawler (Simon Fraser University, 2017), SDW est un projet de recherche lancé en 2016 et mené conjointement par les sociétés HDWSEC (http://www.hdwsec.fr) et MNCC (https://www.mncc.fr) dont l’objectif vise à développer et à déployer des outils permettant de surveiller le réseau Tor en temps réel.

IMAGE 1

L’indexation du Dark Web est un problème plus compliqué que l’indexation du Web de Surface :

  • La plupart des services cachés hébergés par le réseau Tor ont une durée de vie extrêmement limitée : soit parce que les serveurs supportant ces services sont mis hors lignes soit parce que ces services sont déplacés vers de nouveaux domaines. On estime le nombre de services cachés[2] accessibles à tout moment à approximativement 50 000 (Syverson, 2017).
  • La durée de vie limité des services cachés implique que les informations recueillies ont-elles aussi une durée de vie restreinte. Il est donc important de capturer et d’historiser correctement les données collectées pour que celles-ci puissent être juridiquement recevables (Ciancaglini, Baduzzi, McArdle, & Rösler, 2015).
  • Extraire et regrouper des données concernant un même domaine d’activité, par exemple la vente d’armes ou de fausse monnaie, représente de nombreuses difficultés notamment par la diversité des formats de fichiers à considérer : textes, images, vidéos, etc.

Aperçu du processus d’indexation utilisé par SDW

Le processus d’indexation commence par la détection du type de document à indexer à l’aide de Tika[3]. Si le document est de type image alors un hash perceptuel de l’image est réalisé (Krawetz, 2011). Sinon, le SimHash (Leskovec, Rajamaran, & Ullman, 2011) du texte est calculé. Ce hash sera utilisé plus tard pour effectuer des recherches approchées à l’aide d’itérateurs Accumulo[4] avec pour objectif de détecter des images ou documents similaires au sein du corpus. Cela permet aussi de chercher des documents d’entreprises fuités en partant du logo de l’entreprise souvent présent sur les documents officiels.

Les métadonnées (XMP, EXIF, etc.) sont ensuite extraites du document à l’aide de FITS[5]. Dans le cas où le document considéré est une image, le contenu textuel est extrait de celle-ci à l’aide de Tesseract[6] et l’image est passée au travers de modèles TensorFlow[7] pour en extraire le contenu : arme, monnaie, enfant, etc.

Enfin, le document est étiqueté en appliquant des expressions régulières définies par des experts métiers sur le contenu textuel du document.

Structure des données dans Apache Accumulo

Pour commencer, il est important de garder en tête que de nombreuses techniques efficaces ont été développées pour rechercher un ou plusieurs termes particuliers dans une base de données. Néanmoins, de nombreuses applications d’intérêt ne sont pas des problèmes de recherche (Rolfe, Shah, & Loaiza-Lemos, 2015). En effet, de plus en plus d’acteurs, aussi bien privés que gouvernementaux, cherchent a) à extraire des informations présentes implicitement dans les données collectées et b) à croiser leurs flux temps réel avec leurs données historiques. La capacité à extraire et croiser ces informations en temps réel est essentielle pour permettre la prise de décision rapide (Hunt, 2013). Enfin, bien qu’il soit souvent souhaitable de partager les données collectées entre différents acteurs, il n’est pas souhaitable que chaque acteur ait accès à l’ensemble des données du système, et ce notamment pour des raisons légales (ex. documents à caractère pédophile).

Pour être en mesure de considérer les données collectées par SDW sous des perspectives différentes, nous avons choisi d’utiliser une structure de données proche de D4M (Kepner, et al., 2013) assez flexible pour nous permettre de développer aussi bien des applications de recherche classiques que des applications plus évoluées utilisant le GraphBLAS (Kepner, Graph BLAS Mathematics, 2017) (Burkhardt, Asking Hard Graph Questions, 2014) (Burkhardt & Waring, An NSA Big Graph experiment, 2013).

L’idée principale de D4M est de remarquer qu’il est possible de représenter n’importe quel type de données multidimensionnelles sous forme d’une matrice de 0 et de 1 :

IMAGE 3

La seconde observation clef, est que cette représentation est équivalente à un graphe et fournit donc une façon intuitive de naviguer dans un ensemble de données :

IMAGE 5

Enfin, la troisième et dernière observation clef, est que cette représentation sous forme de matrice creuse est particulièrement adaptée pour être persistées par des bases de données NoSQL de type (clef, valeur) telles qu’Apache Accumulo.

La version matricielle d’une requête SQL du type

SELECT id WHERE diabete=’oui’ AND vih=’non’

Consiste donc à effectuer un produit de matrices aisément distribuable :

IMAGE 4

 

Le résultat recherché correspond donc à l’ensemble des lignes du vecteur résultat dont la valeur est égale à la somme des entrées du vecteur colonne. Il est à noter que d’autres observations et interprétations peuvent être extraites ce calcul, comme par exemple l’ensemble des personnes possédant au moins une des propriétés étudiées.

Enfin, si l’on souhaite extraire des corrélations d’un ensemble de données, il est tout à fait envisageable d’investiguer d’autres types de produits tels que celui de la matrice originale par sa transposée.

Quelques pistes de réflexion

Pour terminer, nous proposons quelques pistes de réflexion au lecteur intéressé.

D4M permet de s’abstraire du type de base de données utilisé en proposant un modèle de données transverse. De par la simplicité de ce modèle de données, il est relativement aisé de développer en quelques lignes de codes une couche d’abstraction permettant de convertir le résultat d’une requêtes SQL ou d’une requête NoSQL au format D4M. Il devient donc possible d’effectuer des requêtes transverses à plusieurs bases de données de manière totalement transparente pour l’utilisateur. Néanmoins, quel langage utiliser pour exprimer ces requêtes du point de vue de l’utilisateur ? Nous pensons que Datalog[8] est un choix intéressant.

Il existe des solutions permettant de naviguer efficacement dans des corpus de documents couvrant un domaine particulier, par exemple la médecine, ou possédant un format homogène, par exemple des Tweets (Kumar, Morstatter, Marshall, Liu, & Nambiar, 2012). Cependant, ces solutions se généralisent mal à des corpus de documents hétérogènes (MIT Lincoln Laboratory, 2013) (Maiya, Thompson, Loaiza-Lemos, & Rolfe, 2015). Les méthodes d’extraction de mots clefs pour caractériser un document se divisent grossièrement en trois catégories : celles assignant un mot clef à un document à partir d’une taxonomie existante ; celles utilisant des propriétés linguistiques et celles consistant à extraire des mots ou des groupes de mots du corps même des documents à l’aide de méthodes statistiques simples ou de Machine Learning. Un grand nombre de pages du Dark Web sont grammaticalement incorrectes ce qui rend les approches basées sur des algorithmes NLP classiques tels que ceux implantés dans OpenNLP[9], StanfordNLP[10] ou DeepLearning4J[11] relativement inefficaces. Pour naviguer dans l’ensemble de données collecté lors de nos crawls du Dark Web, nous avons développé un algorithme non-supervisé basé sur une représentation sous forme de graphe d’un texte, KEHD (Keyword Extraction for Heterogeneous Documents). Cet algorithme permet d’extraire les mots clefs d’un document sans nécessiter de connaissances à priori sur celui-ci. Cependant, bien que fonctionnant à l’échelle d’un document seul, cet algorithme ne s’étend pas à l’extraction de mots clefs permettant de représenter une collection de documents. Bien que nous poursuivions nos travaux dans l’objectif d’améliorer l’interface utilisateur de notre moteur de recherche, il est intéressant de noter que la capacité à extraire des informations pertinentes de corpus hétérogènes peut aussi s’avérer être un atout majeur lors d’investigations cybercriminelles nécessitant par exemple d’identifier et d’extraire d’un ou plusieurs ordinateurs des fichiers d’intérêt.

Bibliographie

Burkhardt, P. (2014, Février 3). Récupéré sur Asking Hard Graph Questions: https://cybersecurity.umbc.edu/files/2014/02/hard_graph_nsa_rd_2014_50001v1.pdf

Burkhardt, P., & Waring, C. (2013, Mai 20). Récupéré sur An NSA Big Graph experiment: http://www.pdl.cmu.edu/SDI/2013/slides/big_graph_nsa_rd_2013_56002v1.pdf

Chertoff, M., & Simon, T. (2015). The Impact of the Dark Web on Internet Governance and Cyber Security. Global Commission on Internet Governance, Paper Series: No. 6.

Ciancaglini, V., Baduzzi, M., McArdle, R., & Rösler, M. (2015). Below the Surface: Exploring the Deep Web. Récupéré sur https://documents.trendmicro.com/assets/wp/wp_below_the_surface.pdf

Deep Web: A Primer. (2012). Récupéré sur Bright Planet: http://www.brightplanet.com/deep-web-university-2/deep-web-a-primer/

Hunt, I. « . (2013). The CIA’s « Grand Challenges » with Big Data. Récupéré sur http://www.businessinsider.com/cia-presentation-on-big-data-2013-3?IR=T#heres-the-full-30-minute-presentation-26

Internet Users. (2017). Récupéré sur Internet Live Stats: http://www.internetlivestats.com/internet-users/

Kepner, J. (2017). Graph BLAS Mathematics. Récupéré sur http://www.mit.edu/~kepner/GraphBLAS/GraphBLAS-Math-release.pdf

Kepner, J., Anderson, C., Arcand, W., Bestor, D., Bergeron, B., Byun, C., . . . Yee, C. (2013). D4M 2.0 Schema – A General Purpose High Performance Schema for the Accumulo Database. Récupéré sur https://arxiv.org/abs/1407.3859#

Krawetz, N. (2011, Mai 26). Looks Like It. Récupéré sur http://www.hackerfactor.com/blog/?/archives/432-Looks-Like-It.html

Kumar, S., Morstatter, F., Marshall, G., Liu, H., & Nambiar, U. (2012). Navigating Information Facets on Twitter.

Leskovec, J., Rajamaran, A., & Ullman, J. D. (2011). Mining of Massive Datasets. Récupéré sur http://www.mmds.org/

Maiya, A. S., Thompson, J. P., Loaiza-Lemos, F., & Rolfe, R. M. (2015). Evaluating Highly Heterogeneous Document Collections. Récupéré sur Institute for Defense Analysis: https://www.ida.org/idamedia/ResearchNotes/RNSpring2015/RN-Sping2015-EvalHighlyHeterogeneous.ashx

MIT Lincoln Laboratory. (2013). Récupéré sur SKS: Structured Knowledge Space: https://ll.mit.edu/publications/technotes/TechNote_SKS.pdf

NASA Jet Propulsion Laboratory. (2015). MEMEX: We Search the Dark Side of the Web. Récupéré sur https://memex.jpl.nasa.gov/

Rolfe, R., Shah, J., & Loaiza-Lemos, F. (2015). Real-Time Information Extraction from Big Data. Institute for Defense Analysis.

Simon Fraser University. (2017). The Dark Crawler. Récupéré sur https://thedarkcrawler.com/

SIXGILL. (2017). Your E(Dark Ayes in the Dark Web. Récupéré sur https://www.cybersixgill.com/

Syverson, P. (2017). The Once and Future Onion. Récupéré sur https://www.nrl.navy.mil/itd/chacs/sites/www.nrl.navy.mil.itd.chacs/files/pdfs/17-1231-2218.pdf

Tucker, P. (2015). How the Military Will Fight ISIS on the Dark Web. Defense One.

[1] En utilisant les données disponibles ici https://metrics.torproject.org/, le nombre moyen d’utilisateurs journaliers de TOR en France au premier semestre 2017 est estimé à 100k.

[2] Seul 1% à 5% du trafic concerne des demandes de connexion à des services cachés. Les 95% à 99% du trafic restant consiste à router du trafic Web standard au travers du réseau Tor pour anonymiser l’IP source de l’utilisateur (ex. centres de « command and control »).

[3] https://tika.apache.org

[4] https://accumulo.apache.org

[5] https://projects.iq.harvard.edu/fits/home

[6] https://github.com/tesseract-ocr/tesseract

[7] https://www.tensorflow.org

[8] https://en.wikipedia.org/wiki/Datalog

[9] https://opennlp.apache.org

[10] https://nlp.stanford.edu/software

[11] https://deeplearning4j.org/index.html

Pin It