SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

Индексиране на забранени папки

go6o78

New member
Защо гоогле ми индексира забранени папки
в robots.txt
имам следното
User-agent: *
Disallow: /files/

добавих и това
Disallow: /files/drugi/

но вся пак имам индексирани файлове от папките
 
Re: Индексиране на забранени папки

Disallow: /files/*.zip$

примерно?

Иначе, ако се линкват файлове от забранена директория, паяка и там си минава безпроблемно.

++
crawler-access в GWT ще помогне, ако домейна е добавен там.
 
Последно редактирано:
Re: Индексиране на забранени папки

към файловете има линкове да !

а за това какво имаш впредвид, че не те разбрах
crawler-access в GWT ще помогне, ако домейна е добавен там.
 
Re: Индексиране на забранени папки

статуса там е 200 (Success)

за да забраня индексирането в папката
да задам
/files/*.zip$
/files/*.doc$
/files/*.pdf$

за тази папка и всяка подпапка поотделно ли
 
Re: Индексиране на забранени папки

Мисля, че дори ако ползваш
User-agent: *
Disallow: /files/*

Пак няма да ти ги индексира, но за по-сигурно можеш наистина да добавиш домейна си в GWT и от там да поправиш индексирането :)
 
Re: Индексиране на забранени папки

сайта е добавен там
robots.txt е задаен статус - 200 (Success)

какво още да направя в GWT
 
Re: Индексиране на забранени папки

Значи влизаш в панела, след това цъкаш на:
Конфигурация на сайта > Достъп на робота > Премахване на URL адрес > Нова молба за премахване

и естествено в полето попълваш адреса който не желаеш да се показва в резултатите.
 
Re: Индексиране на забранени папки

благодаря

А ако задам само /files/
ще забрани ли и останалите подпапки които са в /files/

какво да му задам
remove directory
ili remove page from search result and cache
 
Последно редактирано:
Re: Индексиране на забранени папки

Robots.txt НЕ забранява индексирането! Той забранява кроуването. Ако има линкове към страницата, гугъл може да реши да я индексира, въпреки че никога не я е кроувал и не знае какво има на нея. Трябва да се използва мета таг за noindex.
 
Re: Индексиране на забранени папки

навсякъде чета че се слага в <head> секцията
това няма ли да забрани индексацията на всички страници

Ако не съм разбрал правилно би ли дал как е точния синтаксис
например да не се индексира папка /files/ и прилежащите и подпапки
 
Re: Индексиране на забранени папки

Robots.txt НЕ забранява индексирането! Той забранява кроуването. Ако има линкове към страницата, гугъл може да реши да я индексира, въпреки че никога не я е кроувал и не знае какво има на нея. Трябва да се използва мета таг за noindex.

Aбсолютно правилно!
Ето тук много подробно съм писал по този въпрос.
Щом има линкове към тези файлове, robots.txt-a не помага.
Надявам се да ти е полезно.
 
Последно редактирано:
Re: Индексиране на забранени папки

навсякъде чета че се слага в <head> секцията
това няма ли да забрани индексацията на всички страници

Ако не съм разбрал правилно би ли дал как е точния синтаксис
например да не се индексира папка /files/ и прилежащите и подпапки

Да, ще забрани индексацията на всички страници. За това трябва с php да го накараме да се показва само при тези страници, които искаме.
Примерно следния код би трябвало да свърши тази работа:
PHP:
<?
$uri=$_SERVER["REQUEST_URI"];
$tocheck=substr($uri, 0, 7);
if($tocheck=="/files/")
    echo "<meta name='ROBOTS' content='NOINDEX,NOFOLLOW'>";
?>
Постави го в head секцията. Идеята е при всеки url адрес, в който след името на домейна следва /files/, да се показва тага noindex.
 
Re: Индексиране на забранени папки

гугъл може да реши да я индексира, въпреки че никога не я е кроувал и не знае какво има на нея.
Да, обаче индексирането става след кроулването.
 
Re: Индексиране на забранени папки

Ако хората попадат на тези файлове винаги чрез връзки, то решението, което аз се сещам, е да се следи за referer. Слагаш това в .htaccess файла на директорията.

Код:
RewriteEngine On
RewriteCond %{HTTP_REFERER} ^$
RewriteRule ^(.*)$ - [F]
 
Re: Индексиране на забранени папки

Значи влизаш в панела, след това цъкаш на:
Конфигурация на сайта > Достъп на робота > Премахване на URL адрес > Нова молба за премахване

и естествено в полето попълваш адреса който не желаеш да се показва в резултатите.

a дам премахване на директорията няма ли да се получи

което поражда въпроса, кое е правилно да се отметне
remove directory
ili remove page from search result and cache
 
Re: Индексиране на забранени папки

gvv го каза правилно... наистина robots.txt не забранява индексирането, но забранява на бота да посещава въпросната страница и от там следва, че няма да я индексира.

Вярно е, че това не пречи да индексира самият файл към който е дадена връзка, но за целта се ползва "nofollow" rel таг, който отново ще каже на бота да не следва връзката.

Вариант въпреки това да се индексира по-скоро е ако някой друг даде реален адрес и тогава идва варианта с .htaccess, който да забрани индексирането.

@go6o78, не съм сигурен кое да ползваш, понеже лично аз не съм пробвал тази опция.
 
Re: Индексиране на забранени папки

Според мен е най-добре да комбинираме robots.txt правилата с поставяне на noindex tag в META tags на страниците, които искаме да забраним за обхождане или веднъж индексирани да изкараме впоследствие от индекса на Гугъл.

Друг е въпросът дали има начин да се следи колко линка, на които е сложен атрибут noindex към дадения момент са успешно деиндексирани. Говоря за страници, които са вече в индекса на търсачката.

Някой с идея? И възможно ли е изобщо? :)
 
Re: Индексиране на забранени папки

Друг е въпросът дали има начин да се следи колко линка, на които е сложен атрибут noindex към дадения момент са успешно деиндексирани. Говоря за страници, които са вече в индекса на търсачката.

Някой с идея? И възможно ли е изобщо? :)

  • даваш на бота да индексира или си избираш кои страници да деиндексира
  • затваряш с ноиндекс
  • гледаш колко са деиндексирани

иначе webmaster.yandex.ru дава отчет, кои страници са кроулвани и защо не са влезли в индекса.
още веднъж внимание за scoobydoo: не можеш да влезеш в индекса без кроулване.
 

Горе