< Terug naar home

Hakkend en zagend door mijn Google Reader liep ik vanochtend tegen een artikeltje van het Google Blog van een paar dagen terug aan. In dat artikel werd bekend gemaakt dat Google experimenteert met een uitbreiding voor de Googlebot op het gebied van HTML-formulieren. Het was niet zozeer de verrassing dat de Googlebot deze kan indexeren, dat wisten we al. Het experiment was echter gericht op het daadwerkelijk opslaan van formulieren, zodat de achterliggende pagina’s ook geindexeerd kunnen worden! Say what?

Het technische aspect van het opslaan van formulieren door de spider gebeurt volgens “…when we encounter a <FORM> element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.”

Maar Google bedient zich in deze van “good Internet citizenship”, wat het ook waard moge zijn: “Needless to say, this experiment follows good Internet citizenry practices. Only a small number of particularly useful sites receive this treatment, and our crawl agent, the ever-friendly Googlebot, always adheres to robots.txt, nofollow, and noindex directives”

Pete Freitag vatte het volgende samen uit de hele post:

The Googlebot will NOT submit forms that:

  • Use method="post"
  • Have password fields
  • “Use terms commonly associated with personal information such as logins, userids, contacts, etc”
  • Have a form action that is forbidden in robots.txt

We kunnen uit ervaring melden dat de Googlebot zijn “good Internet Citizenship” nog wel eens vergeet en lekker toch doorjakkert. Alleen de form-actie in de Robots.txt als forbidden zetten bied dan uitkomst.

Voor back-end developers dus nog even rust. Geen vage records in de database van de Googlebot. Althans, voorlopig nog niet dan.


Reacties

  • Q5 Webdesign 07 Mei 2008 om 2:17

    Tja, googlebot wordt steeds geavanceerder inderdaad. Interessant!

Reageren