SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

залагане на органичения в robots и htaccess

Federal

New member
От около 20 дни имам рязко покачване на cpu- time и от хостинга ме посъветваха да огранича търсещите ботове, но нямам представа как да го направя с тези два файла. Не съм се занимавал с тях никога!
Хитовете са от един китайски и един американски IP адрес, другите са от googlebot, mcn, yandex и т.н

В awstats виждам посещени хитови страници- url адресите за сваляне на файл, разглеждане на тема и форум.
Прави ми впечатление, че ботовете много често ровят в Данни за потребител, потребителски панел, потребителски профил и все този сорт.

ботовете посещаващи форума
Google
Bing
Majestic
Yandex
Exabot
MSN
FaceBook
Yahoo
Alexa
Google Feedfetcher
TurnitinBot
Ahrefs
MSNbot Media
AdsBot [Google]
psbot [Picsearch]
Baidu [Spider]
Ask Jeeves
OmniExplorer
Google Adsense

Това са по посещаемост, като от скоро още един 360spider от КИТАЙ влиза и чете.
 
Последно редактирано:
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Първо трябва да прецениш какво искаш да постигнеш като ограничение - т.е. пълна забрана или забавяне на обхождането от бота. Най-оптималния вариант при теб е пълна забрана по IP адрес на ненужните ботове - тези, които си цитирал с големия на брой хитове и забавяне на обхождането на сайта от легитимните ботове. Забраната по IP я направи през .htaccess файла като сложиш следните редове (в края, в началото - без значение)
PHP:
deny from ip.ip.ip.ip #(****ing Chinese scraper)
deny from ip.ip.ip.ip #(****ing CIA spyer)

а в robots.txt добави следното:
PHP:
User-agent: msnbot 
Crawl-delay: 10
User-agent: bing 
Crawl-delay: 10 
User-agent: Yandex 
Crawl-delay: 10
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Лошото е че съм изтрил от папката на хоста .htaccess и не знам как да го сваля от някъде, сега го търся...
За роботс разбрах, какво трябв да направя- да им намаля приоритета на посещение.

Само за htaccess не ми стана ясно това
deny from ip.ip.ip.ip <- тук му пиша ip адрес, а това #(****ing Chinese scraper) името му ли е?

ПС ако може някой да ми изпрати .htaccess файла?
Аз имам още един въпрос, как да огранича ботовете да ровят в профилите и постоянно да свалят снимки, явно от това идва проблема,
защото качихме голям брой изображения, показващи се чрез php заявки към сървъра.
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

:) Не му е името, така се остава коментар - когато блокирам различни IP-та или диапазон от IP-та си оставям коментар за да знам какво е блокирано и поради каква причина. В твоя случай това е напълно излишна изгъзица.
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Аха, примерно може да си напиша исилиту манге на китайски бот примерно.
Схванах, трябва ми htaccess файла или ми кажи, как да си го направя сам? :)
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Сигурно го имаш този файл на хоситнга, но понеже е с точка пред името е скрит (в Linux така се обозначават). Ако е скрит просто укажи на FTP клиента или файловия мениджър в cPanel да извежда скритите файлове. Ако действително нямаш такъв файл си го създай на компютъра и го качи на хоста. Няма нищо специфично освен името, това е един прост текстов файл, който можеш да направиш дори с notepad.
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Да, ясно,
китакския бот 360spider влиза с ip aдреси започваши с 158,168,5,00 и т.н как да му направя ограничението на този бот?
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

PHP:
 deny from 158.168.5.0/24 #мама ти оризова гладна
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Т.е от 0 до 24 завършващи трябва да са със забрана.
Как да спра Googlebot да прегледжда Профил на потребител.?
Ако url то му е forum/member.php /Примерно/ аз ще извадя точния urls от awstats?
И да забраня на сваля снимки, понеже явно от там идва пренатоварването. Въпреки, че аз мога да го направя от правата на форума!??
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Има лесен начин да си направиш .htaccess файла. Обърни внимание, че това не е разширение, нищо, че е с точката отпред, а това е името на файла. Сега да ти обясня начина, защото Уинбоза няма да ти позволи да кръстиш така файла в компютъра си, освен ако вече не е направен и да го свалиш отнякъде.

1. създай нов текстов файл с ноутпад и го кръсти примерно 1.htaccess. Ако разширенията са ти скрити, ще виждаш само това, ако не, пълното име е 1.htaccess.txt.
2. Напиши си в него каквото прецениш, че ти е нужно, но задължително добави следния код:
Код:
<Files .htaccess>
 order allow,deny
 deny from all
</Files>
Това ще запази файла от чужд достъп на сървъра.
3. Качи новонаправения файл в директорията, където ще стои и там през ФТП клиента си изтрий това, което е в червено: 1.htaccess.txt

Това е цялата галимация. После вече ще можеш да си сваляш спокойно файла и да го редактираш при нужда с ноутпада.
Надявам се, че ти е ясно и съм помогнал. :D
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Имало го е в папката, но не съм обърнал внимание достатъчно.
Сега съм направил каквото е нужно с двата файла и ще пиша за резултат.

Проблема се оказва в един или два бота (най-вероятно китайски) които влизат с 20-30 IP адреса и отваря всички теми, а в тях има и много снимки, от където идва натоварването. Ето резултата На 04 Окт 2012 06:59 е имало общо 192 посетители наведнъж. Иска ми се да са реални...но за сега са спам ботове.
 
За: залагане на органичения в robots и htaccess

За: залагане на органичения в robots и htaccess

Ето какво открих в GWT
Crawl-delay: 10 Правилото е игнорирано от Googlebot
 

Горе