Plik robots.txt poprawna składnia.
Krótki tekst o tym jak powinien wyglądać poprawnie napisany plik dla robotów wyszukiwarek internetowych. Jeśli nie wiesz jeszcze jak się do tego zagadnienia zabrać to zapraszam to czytania.
Co to i po co to – wprowadzenie.
Mniej wiÄ™cej na przeÅ‚omie lat 1993/1994 wraz z coraz wiÄ™kszym natężeniem ruchu crawler’ów, (zwanych też pajÄ…kami) na różnych serwerach stron www zdarzaÅ‚y siÄ™ sytuacje, że indeksowaÅ‚y one treÅ›ci, które nie byÅ‚y z różnych powodów przeznaczone do rozpowszechniania. PrzykÅ‚adowo strony, które nie byÅ‚y tworzone z koncepcjÄ… udostÄ™pniania ich zawartoÅ›ci dla ogółu internetowej spoÅ‚ecznoÅ›ci, a z różnych wzglÄ™dów nie posiadaÅ‚y odpowiednich mechanizmów zabezpieczajÄ…cych. DodatkowÄ… możliwoÅ›ciÄ… jest generowanie zbyt dużego ruchu w ramach lokalizacji internetowej, co mogÅ‚o powodować zwiÄ™kszone obciążenie serwerów. WymyÅ›lono wówczas sposób na poinformowanie robota, które części serwisów majÄ… pozostać niezindeksowane, omawianym rozwiÄ…zaniem jest wÅ‚aÅ›nie plik robots.txt, w nim wÅ‚aÅ›nie podajemy nazwy katalogów do których pajÄ…ki nie bÄ™dÄ… zaglÄ…daÅ‚y.
Format pliku – dopuszczalna skÅ‚adnia.
Plik robots.txt umieszczamy na serwerze w głównej lokalizacji do której prowadzi adres URL, i powinien on zawierać linijki, których ogólna składnia jest zgodna z poniższym schematem:
“<field>:<optionalspace><value><optionalspace>”
“<pole>:<opcjonalna-spacja><wartość><opcjonalna-spacja>”
Dozwolone jest umieszczanie komentarzy w treÅ›ci omawianego pliku, które wpisujemy po standardowym znaku komentarza, zaczÄ™rpniÄ™tym z konwencji stosowanej w systemach UNIX’owych czyli “#” (hasza). Wszystkie linijki zaczynajÄ…ce siÄ™ od tego znaku sÄ… ignorowane.
Wpis zaczyna siÄ™ od dyrektywy “User-agent”, którÄ… poprzedzamy wyrażeniem “Disallow” czyli odmowy dostÄ™pu, a koÅ„czymy znakami opsiujÄ…cymi lokalizacjÄ™ dla jakiej roboty majÄ… mieć zabroniony dostÄ™p. Dla podania lokalizacji możemy stosować znak / (ukoÅ›nik) aby odnieść siÄ™ do aktualnej lokalizacji, oraz * (gwiazdka), która daje wieloznaczne podstawienie, czyli zabrania dostÄ™pu w ramach wszystkich plików/podkatalogów w naszym katalogu głównym. PrzykÅ‚adowa skÅ‚adnia pliku znajduje siÄ™ poniżej:
# oto przykład:
User-agent: * #dotyczy wszystkich typów crawler’ów
Disallow: /tmp #zabrania dostÄ™pu do katalogu ‘tmp’
Disallow: test.html #zabrania dostÄ™pu do pliku ‘test.html
–
Można dla pola ‘User-agent’ zastosować konkretny typ pajÄ…ka, np. google/msn i w ten sposób jeden z nich nie bÄ™dzie miaÅ‚ dostÄ™pu do naszych plików.
Zakończenie.
Zagadnienie proste jednak wierzę, że znajdzie się kilka osób, dla których to opracowanie stanie się pomocne. Pozdrowienie!
~MichaÅ‚ Kowalski 2008Â
admin :: sty.07.2008 :: SEO & Pozycjonowanie, Webdesign :: No Comments »
Leave a Reply
You must be logged in to post a comment.