SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

Нежелано дублирано съдържание в google

Един от сайтовете ми преживя една простотия и ситуацията е следната:
От около 400 желани страници в гугъл са около 1000, като част от тях са първите url + ?s=SPAMWORD

Захапаните страници са от началота на Май месец, или на около 3 месеца.
Преди месец локирах проблема и с meta пуснах noindex, noarchive за googlebot, но не съм ги забранявал от robots.txt

Тъй като страниците са много се чудя за лесен начин да накарам г бота да обходи ТОЧНО въпросните страници с цел да захапе noarchive и да ги разкара от индекса (в страниците има нахакани хиляди линкове).

Мислих си за отделен sitemap с точно тези линкове,
с removal request не ми се занимава, тъй като трябва да се обходят и 5% от тези въпросни 400 желани страници,
ако някой има по-добри идеи - ще се радвам да ги чуя :)
 
Re: Нежелано дублирано съдържание в google

removal request + disallow в robots.txt и за 24 часа няма да ги има. Кофти е, че при теб са с querystrings и не са в директория и май една по една трябва да ги махнеш наистина. Или пък ако можеш да ги rewritnesh към папка която е /spamword и нея да disallow-неш и request-неш
 
Re: Нежелано дублирано съдържание в google

gvv, може.

Идеята ми е да не форсирам гугъл да маха, а да преиндексира и сам да ги махне...

Гледам, че вече имат 4 причини за removal request, една от тях е да се махне кеширането и да се преиндексира, но едно по едно 600-700 линка....

Crawler access
Tell us what cached content to remove

Out-of-date content: If the cached version contains information that's no longer on the live page, submit a request below. We'll remove the current cached copy and create an updated cached version the next time we crawl the page.

Content that should not be cached: If you have a page you don't ever want cached, you must add a noarchive meta tag to that page. Google will remove the cache version the next time we crawl the page. If you want to expedite removal of the cached page, submit a request below. This will remove the description and cached copy of your page from Google search results for a minimum of 6 months. If after 6 months, the page does not contain a noarchive meta tag, we may create a new cached version.
 
Re: Нежелано дублирано съдържание в google

Ако ти е пострадало класирането от скритите връзки, може да е добра идея да пуснеш reinclusion request където да обясниш за какво става дума. Без този ход ще се наложи да почакаш неопределен период от време за да ти махнат наказанията. Много вероятно е да са много месеци. И не се знае дали ще възстановиш класиранията на 100%.
 
Re: Нежелано дублирано съдържание в google

nbsp, това е направено преди 20 дни, преди 15 получих автоматичен мейл, че следва review...
Все си мисля, че докато за гугъл сайта ми съдържа въпросните линкове в кешираните версии алгото за наказания си остава :)
 
Re: Нежелано дублирано съдържание в google

Идеята ми е да не форсирам гугъл да маха, а да преиндексира и сам да ги махне...
Това с каква цел? Аз винаги пренасочвам такъв тип дублирани УРЛ към родителя и всичко си е ОК.

Другият вариант е да ползваш и rel="canonical"
 
Re: Нежелано дублирано съдържание в google

Кулинар, каноникал има, въпросните страници са хакнати преди 3 месеца и са индексирани от g.
Т.е. site.com/page1.php и site.com/page1.php?s=spam са едно и също, и двете има canonical към site.com/page1.php, но СА в индекса на гугъл и двете.
Сега бота обхожда само page1.php, а page1.php?s=spam си седи кеширано с нахакани линкове и дублирано съдържание...
 
Re: Нежелано дублирано съдържание в google

Първо сложи тоя мета етикет за целия сайт <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW,NOCACHE,NOARCHIVE"> в зависимост от обема на сайта може да отнеме месец докато кеша бъде изчистен, след което просто махаш "NOCACHE,NOARCHIVE", и чакаш да го индексира наново, като предварително си настройваш каноничните адреси или 301 пренасочване, за да не се получава бъдещо дублиране на съдържанието.

Ето и нещо от Гугъл по въпроса, горе долу е това което аз написах, само че се използва и инструмента за премахване на адреси http://www.google.com/support/webmasters/bin/answer.py?answer=35306
 
Re: Нежелано дублирано съдържание в google

...а page1.php?s=spam си седи кеширано с нахакани линкове и дублирано съдържание...
Какво те спира да форснеш пренасочване на параметъра?
 
Re: Нежелано дублирано съдържание в google

bgkulinar, ръчната игра и късното захапване, тъй като нищо не линква към ?s=spamword и може да минат още 3-4 месеца, преди да захапе редиректа :)

Днес ще налинкна ръчно въпросните страници, друго не ми остава...
 

Горе