Les fonctionnalités offertes par Google Search dépassent largement la simple recherche de mots. Avec une utilisation adaptée, il devient un outil puissant pour trouver de failles de configuration, et cela de manière quasi transparente. Dans la pratique, le Google hacking se fait en entrant des requêtes spéciales dans le moteur de recherche, qui possède de nombreuses fonctionnalités souvent méconnues.
il existe une base de donnée gigantesque baptisée GHDB (Google Hacking Database) contenant un tas de Google Dorks permettant par exemple :
- De trouver des emails
- De connaitre la configuration d'un serveur
- De trouver des MP3
- De mater quelques webcams
- D'accèder aux stats des serveurs de Shoutcast
- Des documents excels remplis de mots de passe
- Et j'en passe...
Un peu d'histoire
Le Google hacking à l'origine à été créé par Jason Stalling, Google Hacks se
présente sous la forme d'une GUI facilitant la recherche avancée dans Google.Plu tard johnny Long, de pirates pour la charité , va publier la base de données Google Hacking (GHDB) sur son site.
présente sous la forme d'une GUI facilitant la recherche avancée dans Google.Plu tard johnny Long, de pirates pour la charité , va publier la base de données Google Hacking (GHDB) sur son site.
Comment fonctionne le moteur le moteur de recherche?
Les moteurs de recherche actuels utilisent des outils ( Web Crawler, Web Robots ou encore Web Spide) chargés d'explorer les sites Web. ces AGENTS parcourent les pages du Web et basculent d'une page à l'autre grâce aux liens hypertextes contenus dans cette page, en mémorise le contenu. S'il trouve un ou plusieurs liens identifiés par la balise <a href='lien _de_ page'>Mon Lien</a> ,il bondit vers le lien, en envoie le contenu au Crawler Manager, et ainsi de suite. Le contenu des pages (textes, images, documents, metadata, etc...) est indexé et stocké: il servira de base au moteur.
Qu'est-ce qu'un pirate peut faire si votre site Web est vulnérable
Qu'est-ce qu'un pirate peut faire si votre site Web est vulnérable
Informations que la base de données Google Hacking identifie:
- Avis et vulnérabilités des serveurs
- Les messages d'erreur qui contiennent trop d'informations
- Les fichiers contenant des mots de passe
- Répertoires sensibles
- Pages contenant des portails d'ouverture de session
- Pages contenant des données de réseau ou de vulnérabilité tels que les journaux de pare-feu.
Comment vérifier la vulnérabilité de votre site?La meilleure façon de vérifier si votre site Web et applications sont piratable par Google , est d'utiliser un scanner de vulnérabilité Web. Le scanner de vulnérabilité Web scanne l'intégralité de votre site Web et vérifie pour les pages qui sont identifiés par les requêtes Google de piratage automatiquement...
Acunetix Web Vulnerability Scanner comprend une copie hors connexion de la base de données Google Hacking (GHDB), permettant d'identifier les pages qui peuvent être exploitées en utilisant les moteurs de recherche.
Prévention des attaques Google Hacking
Vérifier toutes les pages identifiées par les requêtes Google Hacking. Les pages qui fournissent des informations qui ne devraient pas être trouvé sur votre site Web, vous devez généralement supprimer ces pages de votre site. Sinon organiser la page de sorte qu'il ne soit pas indexé par les moteurs de recherche et organiser le texte de sorte qu'il ne soit pas facile à détecter par les requêtes Google Hacking.
Le fichier robot.txt par exemple permet d’éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d’un moteur de recherche. (n’oubliez pas que les robots d’indexation visite fréquemment votre site et que des robots comme ceux de google sont sur plusieurs machines afin de partager le travail).
Attention le fichier robot.txt n’est qu’une indication ou recommandation et ne sera JAMAIS un élément de sécurité . En effet les robots ne sont pas tous bienveillants
Comment fonctionne le fichier robot.txt?
robots.txt se met à la racine de votre site web, il comprend une ligne qui dit que user-agent (robot d’indexation) est visé et une ou plusieurs lignes pour expliciter les exclusions.
le format est le suivant
Utilisation simple de Robots.txt
Le fichier robot.txt par exemple permet d’éviter que des ressources sans intérêt public se retrouvent dans la page de résultats d’un moteur de recherche. (n’oubliez pas que les robots d’indexation visite fréquemment votre site et que des robots comme ceux de google sont sur plusieurs machines afin de partager le travail).
Attention le fichier robot.txt n’est qu’une indication ou recommandation et ne sera JAMAIS un élément de sécurité . En effet les robots ne sont pas tous bienveillants
Comment fonctionne le fichier robot.txt?
robots.txt se met à la racine de votre site web, il comprend une ligne qui dit que user-agent (robot d’indexation) est visé et une ou plusieurs lignes pour expliciter les exclusions.
le format est le suivant
User-Agent: * ou nom du user-agent
Disallow: répertoire à exclureUtilisation simple de Robots.txt
- L’étoile "*" (wildcard ou méta caractère de remplacement) veut dire n’importe quel user agent et le slash (/) représente la racine. si on interdit l’accès à un endroit tous les sous dossiers sont interdit. donc si on interdit l’indexation de la racine c’est comme si on interdisait l’indexation de tout le site
User-Agent: *
Disallow: /- Attention si le Disallow ne contient rien la valeur de la règle est nul pour l’agent en question
User-Agent: *
Disallow:- Autoriser un seul user-agent par exemple Googlebot :
User-Agent: Googlebot
Disallow :
User-Agent: *
Disallow: /- interdire un seul agent par exemple Googlebot :
User-Agent: Googlebot
Disallow: /
User-Agent: *
Disallow:- J’exclus pour tous les user_agents l’indexation du contenu des répertoires confidentiel et temp (qui est sous le répertoire autres) ainsi que de la page acorriger.html :
User-Agent: *
Disallow: /confidentiel/
Disallow: /perso/acorriger.html
Disallow: /autres/temp/
Quelques filtres du Google hacking pour mieu faire vos recherches:
inurl : Retourne les pages contenant un lien vers un fichier du type mentionné
en argument – exemple : inurl:admin
en argument – exemple : inurl:admin
filetype: Retourne les pages contenant un lien vers un fichier du type mentionné en argument – exemple : filetype:pdf
intext: Recherche un motif dans le contenu – exemple : intext:mysql _
site: Permet de filtrer la recherche sur un site passé en argument.
link: Retourne l'ensemble des pages contenant un lien vers le motif passé
en argument
en argument
cache: Permet d'accéder à la version mis en cache par Google. Cette option est surtout utilisée pour visiter discrètement un site.
define: Fournit une définition au terme passé en argument
intitle: Recherche dans le champ <title></title> d'une page HTML
ext : Recherche dans les pages dont l'extension (html, php, etc...) est le motif
passé.
passé.
[X]...[Y]: Effectue une recherche dans l'intervalle [X, Y]. Par exemple: page+1...100
info: Récupère des informations sur le site passé en paramètres. Par exemple, info:www.kernel.org
related: Retrouve les sites sémantiquement liés au paramètre. Par exemple,
connect related:www.kernel.org
connect related:www.kernel.org
