GOOGLE DORKS ou

GOOGLE HACKING

 


    GOOGLE est un incroyable moteur de recherche, vous lui posez une question, il y répond, par contre il a tendance à donner trop d'information et nous faire perdre du temps dans nos recherches et apprentissages.

    Si je tape  "le web" voici ce que j'obtiens

     

    Gloups environ 9 Milliards  70 Millions de réponses et en 0.64 secondes épatant mais par contre si je ne veux pas passer ma vie à chercher une info il va falloir que je sois plus précis. Cette réponse va satisfaire 99% des internautes mais si vous voulez faire de la cybersécurité vous devez apprendre à effectuer des recherches plus efficaces surtout avec moins de réponses. C'est exactement la même chose lorsque vous ferez des recherche sur une cible, une personne ou une société dans le cadre d'un test d'intrusion

     

    Nous avons de la chance car google possède un outil d'indexation googlebot qui permet de faire du google hacking appelé aussi google dork avec cet outil nous allons obliger google à retourner les résultats qui proviennent du site internet qui nous intéresse, par exemple j'aimerais savoir ce que dit openclassrooms du web je  vais taper un opérateur (un mot suivi de : )

     

    • opérateur " site: " (attention sans espace) va demander à google de nous retourner que les mots clés présents sur un  site précis uniquement. 

     

    Faisons un essai dans le cadre de vos premiers pas de hacker : on va demander si il y a un cours sur le web dans openclassrooms.com  

           

     

    130 000 résultats, c'est déjà mieux, si on entoure le mot clé par des guillemets  Google ne va remonter que les pages qui contiennent les mots (le,web) et qui sont accolés les uns aux autres (ou juste séparés par une ponctuation). Et là, dans ce cas très précis, il y a déjà  moins de résultats, et ces résultats sont  plus ciblés et correspondent beaucoup mieux à ce que vous recherchez. Essayons

     

    12800 résultats, de mieux en mieux

    Les guillemets permettent donc de rechercher précisément toute une chaîne de caractères.

    Faisons un essai avec Mathieu Nebra (il ne m'en voudra pas j'espère), est ce qu'on parle de lui sur openclassrooms?

    Génial une interview de Mathieu en anglais sur comment créer sa startup!

    Vous l'avez compris c'est puissant mais vous n'avez encore rien vu.

     

     


    ATTENTION:

    Les recherches Google ne sont pas sensible à la casse par conséquent, "Mathieu", "mathieu" et "mAthiEu" donneront exactement le même résultat.


     

    • L'opérateur intitle: permet de retourner  les pages comprenant au moins un des termes saisi
    • L'opérateur allintitle: retournera les pages uniquement avec les termes indiqués

     et là un dernier exemple bluffant

    La recherche intitle:"index of" va nous donner une liste des répertoires d'un site web qu'il est possible de parcourir afin d'en consulter le contenu

     

    Allons voir sur le site de Mathieu

     

    Explorons rapidement les 49 résultats obtenus et là Bingo au 6ème résultats nous avons

    Cliquons dessus

     

    Allons voir le 1er dossier appelé Parent directory

     

    Tiens tiens il contient un dossier Readme (lis-moi en anglais)

     

    ...c'est tentant

     

    Bingo! en 10 secondes j'ai trouvé une liste d'une centaine de  contacts avec pseudos et adresses mail associées

     

    Ici nous avons clairement trouvé une vulnérabilité sur le site, des fichiers qui ne sont normalement pas accessibles au travers des pages web.

     

    Si Mathieu avait fait un audit de securité informatique  c'est la première chose que le hacker aurait signalé et pourtant aucune recherche n'a encore été effectué sur le site openclassrooms.com seul google a été utilisé ici.

     

     


    ATTENTION :

    Nous arrivons ici à la limite entre la recherche passive et la recherche active,

    tant que vous ne cliquez pas sur l'un des liens du résultats, vous ne vous connectez pas au système cible. Si vous cliquez cela équivaut à dire "coucou les gars je suis là!".


    • L'opérateur filetype: est également très intéressante en précisant le type de fichier .pdf .doc .ppt .txt ou autre il ne trouvera que ce type de fichier

    Par exemple essayons avec site:openclassrooms.com filetype:pdf

     

    Ici nous trouvons un document comptable en pdf concernant le chiffre d'affaire du site (ce n'est pas un document sensible mais en cherchant bien...)

     

    Vous l'aurez compris les possibilités sont infinies d'autant que les opérateurs sont combinable dans la même recherche.

     Certains opérateurs sont redoutables, ils permettent par exemple de trouver les mots de passes des utilisateurs du site.

    N'oubliez jamais que les sites que vous visitez, là ou vous vous connectez avec vos mots de passes sont eux même exécutés à partir d'autres ordinateurs et que la sécurité de vos données dépend du niveau de sécurité instauré sur ces serveurs.

     


    LE CAS BLUETOUFF :

    Condamné pour le vol de documents, pourtant accessibles sur internet pour avoir téléchargé des documents, apparemment en accès libre sur internet, le blogueur Olivier Laurelli (dit Bluetouff) a été condamné le 5 février dernier par la Cour d’Appel de Paris à une amende d’un montant de 3 000 euros.


    En réalité Bluetouff est un lanceur d'alerte ayant créé le site reflets.info qui comme médiapart est un journal d'investigation qui met en ligne des données sensibles. Malheureusement la justice le considère comme un cyberterroriste et il est même fiché S. Le google hacking peut coûter cher en fonction des découvertes que l'on peut faire. Surtout si on les rend publiques.

     

    Pour en savoir plus il suffit de vous rendre sur la page https://www.exploit-db.com/google-hacking-database  

    Vous y trouverez un tas d'opérateurs intéressants.

     


    Rester en mode furtif avec Google "Cache"

     

    Le cache de Google est une sorte de copie sauvegardée d’une page web pouvant être récupérée sur les serveurs. La page est copiée dès lors qu’un robot la visite.

     

    Tous les sites web sont donc mis en cache par Google, indexés et classés. Google utilise la version mise en cache pour juger de sa pertinence par rapport à une requête.

     

    Les serveurs de Google sont généralement beaucoup plus rapides que de nombreux serveurs web, c’est pourquoi il est souvent plus rapide d’accéder à la version en cache d’une page qu’à la page elle-même.

     

    En règle générale, chaque résultat naturel (lien bleu) possède un lien vers la version en cache. En cliquant dessus, vous accédez donc à la version en cache de Google de la page en question, au lieu d’accéder à sa version actuelle.

     

    Et là, vous n'accédez pas directement sur la page du site mais sur sa copie. Dans le cadre d'un pentest mandaté par une entreprise, il sera impératif que le testeur ne se connecte jamais activement à la cible.

     

    Comment voir les pages en cache ?

     

    Pour cela vous avez deux méthodes :

     

    et vous obtenez :

     

     

    La page d’accueil du site web mais dans sa version "cache", vous pouvez avoir la version intégrale de la page ou en texte seul et même de code source de la page et ce sans vous connecter à la cible.

     

    Inconvénient, à chaque fois que vous voulez consulter une nouvelle page il faut retaper cache: devant chaque nouvel URL.

     

    Les testeurs d'intrusion vont s'en servir pour obtenir tous les éléments publics sur la page comme n° de tel, adresses, e-mail, etc...

     

    • Vous avez une méthode plus radicale qui consiste à aller sur Web Archive. Il s’agit d’une organisation qui collecte des copies sauvegardées de sites web et leurs différents médias (images, vidéos etc). Son objectif est de fournir un archivage sur le long terme de façon totalement gratuite. Web Archive sauvegarde donc toutes les copies des sites web, même les plus anciens (il est possible de retrouver certaines archives datant d’il y a 20 ans). Une véritable machine à remonter le temps !

     

    Allons voir sur https://web.archive.org/ 

     

    Ce truc est dingue, rien que pour  l'URL : http://openclassrooms.com il me fournit 1384 captures du site entre 2002 et 2021, pas mal de grain à moudre.

     

    Il propose même un calendrier avec des dates précises de capture des pages du site. Vous n'avez plus qu'à vous servir.

     


    INFO SECURITE

    Je crois que vous l'aurez compris, vos données sur internet ne disparaîtrons jamais, donc réfléchissez toujours à deux fois quand vous postez une photo, une info sur vous sur les réseaux sociaux, imaginez la quantité d'information capturée sur Facebook par exemple, ça donne le vertige...