Zoekmachine Optimalisatie

Over robots.txt

robots.txt Een robots.txt is een tekstbestand dat in de rootdirectoire van je website wordt geplaatst. Met behulp van het robots.txt bestand kan de webmaster de toegang tot bepaalde delen van de website voor bepaalde zoekmachinespiders / bots verbieden. Elke keer als de zoekmachinebot bij je site komt, kijkt hij als eerste of robots.txt in de rootdirectoire van je site te vinden is. Als tweede zoekt hij in je robots.txt de regels die voor hem van toepassing zijn, welke pagina's mag hij wel of niet mag bezoeken. En als laatste gaat de zoekmachine bot de pagina's van de site bezoeken og gaat hij weg als in de robots.txt staat dat hij niet binnen de site mag.

In dit artikel ga ik niet vertellen over robots.txt protocol en hoe je robots.txt kan aanmaken. Voor meer gedetailleerde informatie kijk hier: robots.txt standaard en voorbeelden.

Waarom robots.txt bestand gebruiken

  1. Door het vermijden van indexatie van onbelangrijke pagina's binnen je site (bv. afdrukpagina's, user profiles op forums enzovoort) maak je de kans groter dat er meer informatieve (belangrijke) pagina's geïndexeerd worden.
  2. Door het verbieden in robots.txt te indexeren van onbelangrijke pagina's, maak je ook de kans groter dat je belangrijke pagina's vaker bezocht worden door zoekmachinespiders en sneller (her)indexeert worden.
  3. Het gebruiken van robots.txt zorgt ervoor dat de spiderbots van bepaalde zoekmachine (bv. Google, MSN Live of Yahoo) niet te veel bandbreedte / traffic van je hosting in beslag nemen.
  4. Het vermijden van duplicaat content op je site doe je ook m.b.v. robots.txt. Indien je naast robots.txt ook .htacces (301 redirect) gebruikt, dan leidt het tot nog beter resultaat qua het vermijden van duplicaat content.
  5. Als je RSS feeds op je site gebruikt, dat is het altijd beter om het in je robots.txt te blokkeren zodat zoekmachines de feeds kunnen niet lezen. De zoekmachines hoeven niet je xml pagina's (rss feeds) te zien, daarvoor zijn de RSS-lezers bedoeld.

Voorbeelden m.b.t. het blokkeren van RSS feeds:

User-agent: Googlebot
Disallow: /voorbeeld-rss.xml

Als je bv. een weblog met RSS feeds hebt, moet je ook de /*/ gebruiken (/*/ betekent een directory).

Bij de volgende url structuur: "http://www.voorbeeld.com/categorie/post/feed/", ga je deze code gebruiken:

User-agent: Googlebot
Disallow: /*/*/feed/$

Met de $ (dollar teken) bedoelen wij het einde van url's. Dus de bovenstaande code zegt tegen Googlebot dat hij niet je feed-url's mag indexeren.

In het geval als je de volgende url structuur hebt: "http://www.voorbeeld.com/2007/02/post/feed/", dan ga je code een beetje aanpassen:

User-agent: Googlebot
Disallow: /*/*/*/feed/$

Robots.txt en Google

Indien in robots.txt toegang verboden wordt voor zoekmachines tot een deel van de site of tot de hele site, gedragen alle zoekmachines zich ongeveer dezelfde. Ze bezoeken niet meer de verboden pagina's en na tijdje worden de pagina`s uit het cachegeheugen van zoekmachines verwijderd.

Google gedraagt zich in dit geval echter een beetje anders. Als hij merkt dat de bepaalde pagina's niet door een googlebot bezocht mogen worden, dan bezoekt hij die niet meer en pagina's worden niet meer herindexeert. Maar vaak blijven de verboden pagina's nog heel lang in de cache van Google met oudere datum staan. Dit wil zeggen dat Google bekijkt de verboden regels van robots.txt als verzoek voor het stoppen met indexatie en herindexatie, maar niet als verzoek voor de directe verwijdering van pagina's uit de cache.

Bij mij was het geval dat ik een paar pagina's heb verboden tot indexatie en dacht dat Google na een tijdje ze volledig uit de cash gaat verwijderen. De pagina's stonden al in googlecache voordat ik ze tot herindexatie in robots.txt verboden heb. Ik moest ongeveer 5 maanden wachten en gebeurde niks. Hij was gestopt met het vernieuwen van zijn cache, maar pagina`s bleven nog steeds in Google staan met heel oudere datum van de momentopname. Toen heb ik de verboden regels uit robots.txt en pagina's zelfs verwijderd en daarna heb ik linken naar deze al niet bestaande url's geplaats. Binnen 1,5 weken waren de pagina's volledig weg uit zijn cachegeheugen.

Een goede tip m.b.t. robots.txt

Maak altijd een robots.txt bestand voor elke site die je beheert zelfs als je niks hebt te verbieden! Maak hem leeg of gebruikt de volgende regels:

User-agent: *
Disallow: