SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

Въпрос за robots.txt

borisov87

New member
Става въпрос за wordpress
това ми е към момента
User-agent: *
Disallow: /wp-
Disallow: /20
Disallow: /tag/
Disallow: /category/
Disallow: /author/
Disallow: */comment
Disallow: */trackback/
Disallow: */feed/
Disallow: /xmlrpc.php
Disallow: /?s=
Allow: /wp-content/uploads/

"Disallow: /wp-" го ползвам за да забраня достъпа до всички файлове и директории на wordpress
"Disallow: /20" е за архивите понеже нали има години 2014 и т.н за да не пиша за всички го направих така
"Disallow: /?s=" видях че е за търсачката
но тези по долу гледах препоръчани в един сайт но не пише а какво са. Доколкото съм запознат e да блокира достъпа до страници съдържащи "?" , но има ли смисъл от 2те, понеже то да речем имам
сайт.com/ванката?нещо=нещо и още първият "Disallow: /*?" ще го блокриа, тогава какъв е смисъла от другия със звездичката отзаде

Disallow: /*?
Disallow: /*?*
 
Последно редактирано:
Според мен малко си се попрестарал... реално всичко от горното можеш да го забраниш със Yoast SEO и малко редакция по темата
 
Това в момента просто ти убива обхождането на сайта. Забравете вече за robots.txt и използвайте само noindex метатаг.

Ето повече информация как се прави правилно:
 
Последно редактирано:
Това в момента просто ти убива обхождането на сайта. Забравете вече за robots.txt и използвайте само noindex метатаг.

Ето повече информация как се прави правилно:

Привет много полезна информация. Направих таговете, категории, архиви, страница за търсене и прочие да са noindex и разреших обхождането им. Все пак оставих това в robots.txr
Disallow: /wp-amin/ Disallow: /wp-content/ Disallow: /wp-includes/ Disallow: */comment Disallow: */trackback/ Disallow: */feed/ Disallow: /xmlrpc.php Disallow: /*? Allow: /wp-content/uploads/
Засега е добре google вече спря да пищи че няма достъп до странциите за тагове и категории. Иначе за въпросните папки
Disallow: /wp-amin/ Disallow: /wp-content/ Disallow: /wp-includes/ обмислях и тях да ги разреша за обхождане и да сложа във всяка от тях един htacess файл който да връща x-robots хедър noindex, но на този етап отложих това , а и незнам защо google ще има нужда да обхожда папки с плъгини , теми и т.н За момента ме интересува следното - след като е зададено на google да не индексира категории, тагове и прочие , има ли смисъл въпросните да се дбавят в sitemap.xml или може да ги изключа от sitemap-а.
 
Последно редактирано:
Според мен малко си се попрестарал и излишно си усложнил нещата.

Реално WP идва със ето такъв robots.txt:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

И това е всичко което е необходимо. Излишното усложнение на robots.txt МОЖЕ да направи сайта ти забранен за търсачките.
Сега ще ти покажа и какви са ми наблюденията:
-wp-admin - това ПОСМЪРТНО не може да се индексира защото редиректва към wp-login и той иска username/passwod.
-wp-content - Остави го да се обхожда - тук са темите, плъгините и качените файлове. Технически само снимките са по-важни, но все пак нямаш нищо за криене затова го разкарай и това.
-wp-includes - с***** е дали изобщо има нещо за индексиране тук.
-*/comment - хм? нали имаш canonical tag, защо си усложнаваш живота излишно?
-*trackback - важи горното
-*/feed - така или иначе това е RSS който би било хубаво да се индексира, все пак не криеш нищо нали?
-xmlrpc.php - този файл така или иначе НЕ МОЖЕ да се извика от търсачките и да се индексира. Той се вика само със специфична POST заявка каквато търсачките не правят и няма никакъв смисъл да криеш и този файл
-/*? - това е доста с***** и те съветвам да го махнеш

Както виждаш от по-горния код самия WP прави нещата на 3 реда. Не е необходимо да се престараваме със нищо повече. И ето ти още малко матерял за размисъл:
http://peter.nikolow.me/robots-txt-wordpress/
 
Последно редактирано:
Зоркото ОКО на Изкуственио Интелект е парсо-скивал П-О-Р-Н-О ахахаааааа - отсъствие на естествен, натурален интелект :D
 
Според мен малко си се попрестарал и излишно си усложнил нещата.


И това е всичко което е необходимо. Излишното усложнение на robots.txt МОЖЕ да направи сайта ти забранен за търсачките.
Сега ще ти покажа и какви са ми наблюденията:
-wp-content - Остави го да се обхожда - тук са темите, плъгините и качените файлове. Технически само снимките са по-важни, но все пак нямаш нищо за криене затова го разкарай и това.
-*/feed - така или иначе това е RSS който би било хубаво да се индексира, все пак не криеш нищо нали?
Промених файла

User-agent: *
Disallow: /wp-amin/
Disallow: /wp-includes/
Host: http://ivanborisov.com/
Sitemap: http://ivanborisov.com/sitemap.xml.gz

иначе чрез плъгин на категории, архиви, тагове и търсачка съм дал noindex, follow,
а на началната страница съм дал noindex, follow, leave first page - така си индексира само първата страница от странициането предполагам че е правилно така.

относно
/feed - няма ли да го сметне за dublicate content
/wp-content - да няма какво да крия , даже в началото си беше разрешен но почна да вкарва в индекса разни readme.txt и css файлове, защо така се получава? Та нали уж индексира само това което смята за важно.
 
АКО ти вкарва разни readme.txt и css файлове и т.н. навярно имаш др. проблем.

Apache указва файлове които да изпълнява - index.php, index.htm и index.html примерно ако отвориш директория. АКО обаче файловете ги нямаш ще ти покаже структурата на самата директория.

Пробвай да отвориш дадена папка при теб. Примерно /wp-content. АКО папката се види значи имаш активиран directory listing. Ето ти примерно как е при мен:
http://peter.nikolow.me/wp-content/uploads/
т.е. забранено е.
Обаче ако отвориш тези двата линка:
http://photos.bgdn.net/20080103/
http://photos.bgdn.net/cat/
и ще можеш да видиш съдържанието им.

Всичко това се контролира със тази опция на .htaccess:
Options +Indexes
и тук можеш да прочетеш повече за нея:
http://wiki.apache.org/httpd/DirectoryListings

По-добре е да бъде забранана.
 
Да при мене беше пуснато directory listing, и някой папки не се виждаха понеже вътре имаше празен index файл и просто си зареждаше празна страница, но тези които нямаха се виждаха свободно, сложих в htacess Options -Indexes и се оправи. Сега някой като се опита да отвори вече му дава грешка че страницата не е намерена.
http://ivanborisov.com/wp-content/uploads/
Благогодаря за информацията! :)
 
За да не отварям нова тема пиша в тази старата.
Случва се нещо странно, в wm tools в раздел грешки при обхождането м идава 5-6 странни страници че не можел ода бъдат намерени и error 404. Странното е че аз въобще нямам такива страници една от тях е dose_fransa_shuberta.html и разни такива странни все html, става въпрос за домейна от горния ми коментар. На някого лсучвало ли му се е. И от къде на къде ги търси тези страници като въобще не съм имал такива страници някога.
 
Последно редактирано:
Ами аз означих грешката като фиксирана, иначе не видях да пише от къде е линка, само пише коя е търсената при мен страница и пак бе със някакво руско заглавия от което предположих че някой руски сайт погрешно линква към мен , влязох в раздел "Връзки към сайта ви" но не виждам да има някой руски сайт всичко е BG сайтове
 

Горе