SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

да спрем всички ботове освен гугъл?

Re: да спрем всички ботове освен гугъл?

Файла robots.txt е текстов файл, чието единствено предназначение е да укаже на роботите на търсещите машини кои папки и файлове могат да индексират и кои не бива да бъдат индексирани. По-точно файла robots.txt съдържа списъка на тези файлове и папки (директории) от сайта, които не трябва да бъдат индексирани от търсещите машини.

Освен това чрез този файл може да се укаже определен файл да бъде забранен за индексиране от дадена търсачка, но да бъде разрешен за индексиране от друга търсачка, която няма да бъде в списъка на robots.txt.

Файлът robots.txt се поставя винаги в основната директория, т.е. адреса му трябва да бъде http://your-domain.com/robots.txt,
а не например http://your-domain.com/folder1/robots.txt

Името на файла трябва да е с малки букви - robots.txt, а не например Robots.txt или ROBOTS.TXT

Отделните записи в robots.txt се разделят с празен ред.

Този файл се използва когато на хостинга има различни файлове, например скриптови файлове и др., които е по-добре да не бъдат индексирани.

Файла robots.txt има определен формат на записване, който трябва да се спазва.

Файла съдържа два основни типа записи

1. Запис, указващ робота на съответната търсачка.
Този запис има следния вид:

User-Agent: име на робот

Тук под "име на робот" се има предвид името на претърсващата програма на съответната търсачка. Например името на робота на Гугъл е Googlebot. Следователно ако искате да забраните индексирането на определени папки или файлове от Гугъл, трябва да напишете:

User-Agent: Googlebot

От казаното става ясно това, което беше споменато и по-горе, че чрез robots.txt може да се укаже не само кои папки и файлове да не бъдат индексирани, но също се указва и кои точно търсачки да не индексират определени файлове и директории. Т.е. възможно е да се забрани индексирането на даден файл от една търсачка (и да се разреши индексирането на същия файл от всички други търсачки, доколкото те няма да бъдат указани в списъка в robots.txt). За целта е необходимо да се знаят названията на претърсващите програми на търсачките. Обикновено търсещите машини дават информация за роботите си на страницата на съответната търсачка и обикновено (но не винаги) имената на роботите включват в себе си името на търсачката - както е в случая с Googlebot. Списък на роботите на търсещите машини може да видите на следния адрес: http://www.robotstxt.org/wc/active/html/

Като значение на user-agent може да се зададе знака "звезда" (user-agent: *). В такъв случай записите с указаните по-долу забранени
за индексиране файлове и папки ще важат за всички търсещи машини, за които няма изричен запис user-agent: име на робот.
Във файла robots.txt може да има и само един запис-указание за имената на роботите във вида:

User-Agent: *

В такъв случай записите с указаните забранени за индексиране файлове и папки ще важат за всички роботи на всички търсещи машини.

Всеки робот трябва да бъде указан на отделен ред, макар че този стандарт беше разширен и сега е възможно
няколко робота да се укажат с един запис User-agent, като имената им бъдат разделени с табулатор (бутон Tab).



2. Втория запис указва кои точно файлове или директории да не се индексират от съответния робот. Този запис има вида:

Disallow: точно указване на пътя до име на файл или папка, които са забранени за индексация

Например ако желаете търсещите машини да не индексират файла в основната директория script.php, директорията cgi-bin,
файловете file1.html и file2.php, намиращи се в директория dir1 и цялото съдържание на папка dir2, намираща се в папка dir1,
трябва да въведете в robots.txt следния запис:

Disallow: script.php
Disallow: /cgi-bin/
Disallow: /dir1/file1.html
Disallow: /dir1/file2.php
Disallow: /dir1/dir2/

Ако в директорията dir1 има 3-ти файл, например file3.html, той ще може да бъде индексиран, a file1.html file2.php няма да бъдат индексирани.
Ако в dir1 няма други файлове, които бихте искали да бъдат индексирани от търсещите машини, тогава може да забраните индексирането на file1.html и file2.php като напишете само

Disallow: /dir1/

При писането на записите robots.txt има следните особености:

- може да напишете само началните букви с наклонена черта отпред, например:

Disallow: /scr

В такъв случай няма да бъдат индексирани нито един един файл и папка, чието название започва с тези букви.

- ако запишете само

Disallow:

роботите ще индексират целия сайт

- ако запишете

Disallow: /

нито един файл и папка няма да бъдат индексирани

Ако желаете да сложите някакъв пояснителен коментар, който да не се отрази на работата на файла robots.txt, може да направите това, като започнете реда на коментара с диез (#), например:

# Това е първи ред коментар
# и това е 2-ри ред коментар

При писането на robots.txt трябва да се спазват следните правила:

- да не се оставя празен ред в един запис (празния ред се таксува като разделител на два записа)
- всяко указване на папка или файл трябва да бъде на отделен ред

Някои роботи, сред които и робота на Гугъл - googlebot - могат да възприемат забрана за индексиране на файлове с определено
разширение, например:

Disallow: *.php

ще забрани индексирането на всички файлове с разширение .php

Трябва да се има предвид, че не всички роботи на търсещи машини се съобразяват с указанията, дадени в robots.txt

Файлът robots.txt не може да служи за "скриване" на важни папки и файлове, до които не желаете да имат достъп странични хора,
защото този файл е достъпен за всички и e известно, че може да се види на адрес your-domain.com/robots.txt

За да напишете robots.txt отворете някакъв прост текстов редактор, например Notepad и съхранете файла като robors.txt

ПРИМЕРИ:

# Пример за разрешаване на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow:

# Пример за забрана на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow: /
 
Re: да спрем всички ботове освен гугъл?

Файла robots.txt е текстов файл, чието единствено предназначение е да укаже на роботите на търсещите машини кои папки и файлове могат да индексират и кои не бива да бъдат индексирани.

Освен това чрез този файл може да се укаже определен файл да бъде забранен за индексиране от дадена търсачка, но да бъде разрешен за индексиране от друга търсачка, която няма да бъде в списъка на robots.txt.

Файлът robots.txt се поставя винаги в основната директория, т.е. адреса му трябва да бъде http://your-domain.com/robots.txt,
а не например http://your-domain.com/folder1/robots.txt

Името на файла трябва да е с малки букви - robots.txt, а не например Robots.txt или ROBOTS.TXT

Отделните записи в robots.txt се разделят с празен ред.

Този файл се използва когато на хостинга има различни файлове, например скриптови файлове и др., които е по-добре да не бъдат индексирани.

Файла robots.txt има определен формат на записване, който трябва да се спазва.

Файла съдържа два основни типа записи

1. Запис, указващ робота на съответната търсачка.
Този запис има следния вид:

User-Agent: име на робот

Тук под "име на робот" се има предвид името на претърсващата програма на съответната търсачка. Например името на робота на Гугъл е Googlebot. Следователно ако искате да забраните индексирането на определени папки или файлове от Гугъл, трябва да напишете:

User-Agent: Googlebot

От казаното става ясно това, което беше споменато и по-горе, че чрез robots.txt може да се укаже не само кои папки и файлове да не бъдат индексирани, но също се указва и кои точно търсачки да не индексират определени файлове и директории. Т.е. възможно е да се забрани индексирането на даден файл от една търсачка (и да се разреши индексирането на същия файл от всички други търсачки, доколкото те няма да бъдат указани в списъка в robots.txt). За целта е необходимо да се знаят названията на претърсващите програми на търсачките. Обикновено търсещите машини дават информация за роботите си на страницата на съответната търсачка и обикновено (но не винаги) имената на роботите включват в себе си името на търсачката - както е в случая с Googlebot. Списък на роботите на търсещите машини може да видите на следния адрес: http://www.robotstxt.org/wc/active/html/

Като значение на user-agent може да се зададе знака "звезда" (user-agent: *). В такъв случай записите с указаните по-долу забранени
за индексиране файлове и папки ще важат за всички търсещи машини, за които няма изричен запис user-agent: име на робот.
Във файла robots.txt може да има и само един запис-указание за имената на роботите във вида:

User-Agent: *

В такъв случай записите с указаните забранени за индексиране файлове и папки ще важат за всички роботи на всички търсещи машини.

Всеки робот трябва да бъде указан на отделен ред, макар че този стандарт беше разширен и сега е възможно
няколко робота да се укажат с един запис User-agent, като имената им бъдат разделени с табулатор (бутон Tab).



2. Втория запис указва кои точно файлове или директории да не се индексират от съответния робот. Този запис има вида:

Disallow: точно указване на пътя до име на файл или папка, които са забранени за индексация

Например ако желаете търсещите машини да не индексират файла в основната директория script.php, директорията cgi-bin,
файловете file1.html и file2.php, намиращи се в директория dir1 и цялото съдържание на папка dir2, намираща се в папка dir1,
трябва да въведете в robots.txt следния запис:

Disallow: script.php
Disallow: /cgi-bin/
Disallow: /dir1/file1.html
Disallow: /dir1/file2.php
Disallow: /dir1/dir2/

Ако в директорията dir1 има 3-ти файл, например file3.html, той ще може да бъде индексиран, a file1.html file2.php няма да бъдат индексирани.
Ако в dir1 няма други файлове, които бихте искали да бъдат индексирани от търсещите машини, тогава може да забраните индексирането на file1.html и file2.php като напишете само

Disallow: /dir1/

При писането на записите robots.txt има следните особености:

- може да напишете само началните букви с наклонена черта отпред, например:

Disallow: /scr

В такъв случай няма да бъдат индексирани нито един един файл и папка, чието название започва с тези букви.

- ако запишете само

Disallow:

роботите ще индексират целия сайт

- ако запишете

Disallow: /

нито един файл и папка няма да бъдат индексирани

Ако желаете да сложите някакъв пояснителен коментар, който да не се отрази на работата на файла robots.txt, може да направите това, като започнете реда на коментара с диез (#), например:

# Това е първи ред коментар
# и това е 2-ри ред коментар

При писането на robots.txt трябва да се спазват следните правила:

- да не се оставя празен ред в един запис (празния ред се таксува като разделител на два записа)
- всяко указване на папка или файл трябва да бъде на отделен ред

Някои роботи, сред които и робота на Гугъл - googlebot - могат да възприемат забрана за индексиране на файлове с определено
разширение, например:

Disallow: *.php

ще забрани индексирането на всички файлове с разширение .php

Трябва да се има предвид, че не всички роботи на търсещи машини се съобразяват с указанията, дадени в robots.txt

Файлът robots.txt не може да служи за "скриване" на важни папки и файлове, до които не желаете да имат достъп странични хора,
защото този файл е достъпен за всички и e известно, че може да се види на адрес your-domain.com/robots.txt

За да напишете robots.txt отворете някакъв прост текстов редактор, например Notepad и съхранете файла като robors.txt

ПРИМЕРИ:

# Пример за разрешаване на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow:

# Пример за забрана на всички търсещи машини
# да индексират всички папки и файлове на сайта
User-Agent: *
Disallow: /
 
Re: да спрем всички ботове освен гугъл?

Как да спра всички освен от гугъл бота?

Код:
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

П.П.
Ако имаш Адсенс и искаш да се индексират картинките например, трябва да помислиш и за другите ботове.
http://www.google.com/support/webmasters/bin/answer.py?answer=40360
 
Последно редактирано:
Re: да спрем всички ботове освен гугъл?

Файла robots.txt е текстов файл, чието единствено предназначение е да укаже на роботите на търсещите машини кои папки и файлове могат да индексират и кои не бива да бъдат индексирани. По-точно файла robots.txt съдържа списъка на тези файлове и папки (директории) от сайта, които не трябва да бъдат индексирани от търсещите машини.


....

да беше отговорил на човека поне а не само романи да слагаш!!!

nbsp каза:
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

а няма ли да е по-добре първо разрешение за google и после забрана за всички останали

Код:
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /
 
Re: да спрем всички ботове освен гугъл?

а няма ли да е по-добре първо разрешение за google и после забрана за всички останали

Код:
User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

Така май ще забраниш всички, понеже второто правило overwrite-ва първото (не съм 100% сигурен де).
 
Re: да спрем всички ботове освен гугъл?

Така май ще забраниш всички, понеже второто правило overwrite-ва първото (не съм 100% сигурен де).

Прав си, вървят подред и трябва да се следва: от общото към частното.
 
Re: да спрем всички ботове освен гугъл?

Прав си, вървят подред и трябва да се следва: от общото към частното.

:)

И двата случая са верни.
 
Re: да спрем всички ботове освен гугъл?

Би трябвало, всеки бот да си търси името и ако го няма, да гледа правилата за всички останали т.е. звездичката (User-agent: *).

Не мисля, че със звездичката се правилата пренаписват, когато е указано за конкретния бот.

Във всеки случай не ми се е налагало да тествам тезата си на практика. :)
 
Re: да спрем всички ботове освен гугъл?

Има и непослушни ботове дето не се интересуват какво пише в robots.txt
Такива се блокират с mod_security, а ако не дадат истински "User-Agent" хедър, само по IP може да се блокират (в mod_security или .htaccess).
 
Re: да спрем всички ботове освен гугъл?

netsurfer, полезно ще ти е да блокираш и Лошите ботове, в някои случаи хостинг компанията започва да те боготвори след това :)

Примерен код за htaccess:
PHP:
# Block Bad Bots
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus
RewriteRule .* - [F]
 
Re: да спрем всички ботове освен гугъл?

PHP:
...
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
...
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
...
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
...

Why?
Особенно последното все още си го ползвам от време на време...
 
Re: да спрем всички ботове освен гугъл?

Why?
Особенно последното все още си го ползвам от време на време...

Защото е лесен начин да ти източат сайта при това напълно безплатно. :)
 
Re: да спрем всички ботове освен гугъл?

Защото тези няма да ти докарат пари на сайта :) а при натоварени сайтове с голям брой страници товара пада до 10-20%. Опитно съм го установил на моето сайтче с 200000 страници. Списъка не е ъпдейтван от 6 месеца, може да има и нови, не съм се ровил скоро.
 
Re: да спрем всички ботове освен гугъл?

hostbulgaria.com ви го каза, всичко останало се заобикаля, mod_security му е майката.
А и ако се сложи, така и така е сложено може да се настрой и за куп други благинки :)
 
Re: да спрем всички ботове освен гугъл?

някъде в горния код има грешен синтаксис ето го отново
Код:
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus 
RewriteRule ^.* - [F,L]
 
Последно редактирано:
Re: да спрем всички ботове освен гугъл?

Ето и моят списък. Ще го постна в два поредни поста, защото инаме форумът не го приема - много му е дълъг.
Код:
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]+$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(AcoiRobot|FlickBot|webcollage) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(Alligator|DA.?[0-9]|DC\-Sakura|Download.?(Demon|Express|Master|Wonder)|FileHound) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*(winhttp|HTTrack|clshttp|archiver|loader|email|harvest|extract|grab|miner).* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} .*almaden.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} anarchie [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Arachmo [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} AsiaNetBot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*attach.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ATHENS [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} autohttp [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*BackWeb.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Bandit.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} bew [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} BlackWidow [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Bot\ mailto:craftbot@yahoo.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.Browse\s [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Buddy.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Bullseye [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ChinaClaw [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Collector.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Copier.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Crawler.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Crescent [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "^DA \d\.\d+" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} devsoft's\ http\ component [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Deweb [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Digimarc [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Digger [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} digout4uagent [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} DIIbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^DiscoPump.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} DISCo\ pump [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Download\ Demon [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "^Download" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "^Download Master" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Downloader.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} "DTS Agent" [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EasyDL/\d\.\d+ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} eCatch [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ecollector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Educate\ Search [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EirGrabber [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EmailCollector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EmailSiphon [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EmailWolf [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EO\ Browse [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.Eval [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(Express|Mister|Web).?(Web|Pix|Image).?(Pictures|Collector)? [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} extractor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ePochta_Extractor [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ExtractorPro [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} EyeNetIE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^FakeUser [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} fastlwspider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} FEZhead [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Fetch [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(Flash|Leech)Get [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Franklin\ Locator [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(Fresh|Lightning|Mass|Real|Smart|Speed|Star).?Download(er)? [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Full\ Web\ Bot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^FunWebProducts [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^(Gamespy|Go!Zilla|iGetter|JetCar|Net(Ants|Pumper)|SiteSnagger|Teleport.?Pro) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Getleft [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} GetRight [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} GetURL [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} GetWebPage [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^GornKer [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*gotit.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} Gozilla [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} go-ahead-got-it [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Grabber.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*GrabNet.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Grafula [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Harvest [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*HMView.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} HTML\ Works [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*HTTrack.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ia_archiver [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image.?(fetch|Stripper|Sucker) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} IncyWincy [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Industry\ Program [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} InterGET [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Internet\ Explore\ 5\.x [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Internet\ Ninja [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} InternetSeer.com [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Irvine [NC,OR]  
RewriteCond %{HTTP_USER_AGENT} ^JetCar.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} JOC\ Web\ Spider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*JOC.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} KWebGet [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Likse.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*LWP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Mag-Net.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Magnet.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} MCspider [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MEGAUPLOAD [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Memo.*$ [NC,OR]
 
Re: да спрем всички ботове освен гугъл?

ЧАСТ ІІ
Код:
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} MIDown\ tool [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Mirror.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Missauga\ Locator [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mister\ PiX [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Monster [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} (^Morfeus) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Morfeus [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mozilla.*NEWT [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mozilla\/3\.0\.\+Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mozilla\/3.Mozilla\/2\.01 [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mozilla\/4\.0$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Mozzilla [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^NASA\ Search\ 1\.0$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Navroad.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} NearSite [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} net.?(ants|attache|Carta|mechanic|spider|vampire|zip) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} NICErsPRO [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ninja [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Octopus [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Offline.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} OpaL [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Openfind [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} OpenTextSiteCrawler [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} PackRat [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} PageGrabber [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Papa\ Foto [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} pavuk [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} PICgrabber [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*pcBrowser.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Plucker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Pockey.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Production\ Bot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Program\ Shareware [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*prospector [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^psbot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} PushSite [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Reaper.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Recorder.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} ReGet [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} RepoMonkey [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Rover [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Rsync [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Siphon.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Scooter-W3.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ScoutAbout [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} searchterms\.it [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} semanticdiscovery [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Shai [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} sitecheck [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Snake.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Spegla [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} SpiderBot [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Stripper.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Sucker.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*SuperBot.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} SuperHTTP [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.Surf [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Surfbot.*$ [OR] 
RewriteCond %{HTTP_USER_AGENT} SurfWalker [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} tAkeOut [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} tarspider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Templeton [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} UtilMind [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Vacuum.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} VoidEYE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web.?(Auto|Cop|dup|Fetch|Filter|Gather|Go|Leach|Mine|Mirror|Pix|QL|RACE|Sauger) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} web.?(bandit|collector|devil|downloader|hook|mole|reaper|sucker|site|snake|stripper|weasel) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web.?(site.?(eXtractor|Quester)|Capture|Snake|ster|Strip|Stripper|Suck|vac|walk|Whacker|ZIP) [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} web.by.mail [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Wget.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Whacker.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^.*Widow.*$ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} w3mir [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} WhosTalking [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Widow [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} WUMPUS [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} www\.pl [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Xaldon\ WebSpider [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} XGET [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} Yandex/ [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} zeus [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg [NC]
 

Горе