Posts RSS Comments RSS 33 Wpisy and 8 Komentarze till now

Plik robots.txt poprawna składnia.

Krótki tekst o tym jak powinien wyglądać poprawnie napisany plik dla robotów wyszukiwarek internetowych. Jeśli nie wiesz jeszcze jak się do tego zagadnienia zabrać to zapraszam to czytania.

Co to i po co to – wprowadzenie.

Mniej wiÄ™cej na przeÅ‚omie lat 1993/1994 wraz z coraz wiÄ™kszym natężeniem ruchu crawler’ów, (zwanych też pajÄ…kami) na różnych serwerach stron www zdarzaÅ‚y siÄ™ sytuacje, że indeksowaÅ‚y one treÅ›ci, które nie byÅ‚y z różnych powodów przeznaczone do rozpowszechniania. PrzykÅ‚adowo strony, które nie byÅ‚y tworzone z koncepcjÄ… udostÄ™pniania ich zawartoÅ›ci dla ogółu internetowej spoÅ‚ecznoÅ›ci, a z różnych wzglÄ™dów nie posiadaÅ‚y odpowiednich mechanizmów zabezpieczajÄ…cych. DodatkowÄ… możliwoÅ›ciÄ… jest generowanie zbyt dużego ruchu w ramach lokalizacji internetowej, co mogÅ‚o powodować zwiÄ™kszone obciążenie serwerów. WymyÅ›lono wówczas sposób na poinformowanie robota, które części serwisów majÄ… pozostać niezindeksowane, omawianym rozwiÄ…zaniem jest wÅ‚aÅ›nie plik robots.txt, w nim wÅ‚aÅ›nie podajemy nazwy katalogów do których pajÄ…ki nie bÄ™dÄ… zaglÄ…daÅ‚y.

Format pliku – dopuszczalna skÅ‚adnia.

Plik robots.txt umieszczamy na serwerze w głównej lokalizacji do której prowadzi adres URL, i powinien on zawierać linijki, których ogólna składnia jest zgodna z poniższym schematem:

“<field>:<optionalspace><value><optionalspace>”

“<pole>:<opcjonalna-spacja><wartość><opcjonalna-spacja>”

Dozwolone jest umieszczanie komentarzy w treÅ›ci omawianego pliku, które wpisujemy po standardowym znaku komentarza, zaczÄ™rpniÄ™tym z konwencji stosowanej w systemach UNIX’owych czyli “#” (hasza). Wszystkie linijki zaczynajÄ…ce siÄ™ od tego znaku sÄ… ignorowane.

Wpis zaczyna siÄ™ od dyrektywy “User-agent”, którÄ… poprzedzamy wyrażeniem “Disallow” czyli odmowy dostÄ™pu, a koÅ„czymy znakami opsiujÄ…cymi lokalizacjÄ™ dla jakiej roboty majÄ… mieć zabroniony dostÄ™p. Dla podania lokalizacji możemy stosować znak / (ukoÅ›nik) aby odnieść siÄ™ do aktualnej lokalizacji, oraz * (gwiazdka), która daje wieloznaczne podstawienie, czyli zabrania dostÄ™pu w ramach wszystkich plików/podkatalogów w naszym katalogu głównym. PrzykÅ‚adowa skÅ‚adnia pliku znajduje siÄ™ poniżej:

# oto przykład:
User-agent: * #dotyczy wszystkich typów crawler’ów
Disallow: /tmp #zabrania dostÄ™pu do katalogu ‘tmp’
Disallow: test.html #zabrania dostÄ™pu do pliku ‘test.html


Można dla pola ‘User-agent’ zastosować konkretny typ pajÄ…ka, np. google/msn i w ten sposób jeden z nich nie bÄ™dzie miaÅ‚ dostÄ™pu do naszych plików.

Zakończenie.

Zagadnienie proste jednak wierzę, że znajdzie się kilka osób, dla których to opracowanie stanie się pomocne. Pozdrowienie!

~Michał Kowalski 2008 

Trackback this post | Feed on Comments to this post

Leave a Reply

You must be logged in to post a comment.