SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

Jabse free data

plamensl

New member
Ако на някой му трябват crawl данни от паяка - вижте тук : Jabse Data : данните от паяка на Jabse за свободна употреба
Съдържа URL,Jabse PR,Title, size и още малко служебна информация.
Ще се радвам да споделите дали и как бихте използвали данните, какво още бихте искали да включа ...
 
За: Jabse free data

За: Jabse free data

Имаме достъп до тайтъл тага значи. Хмм... Интересно. Би трябвало да може да се направи някакъв инструмент за някакви трендове или конкуренция. Нещо такова ми се върти в главата.
 
За: Jabse free data

За: Jabse free data

Това, което ми идва на ум е по дадена ключова дума да се прави някаква графика с броя на url-и или домейни които я имат в заглавието. Като се вземат и от следващите ъпдейти данни и ще стане нещо като тренд предполагам. Ще се види развитието на нишата един вид. За друго не се сещам. Но не се наемам да го правя поне за сега. И не ми изглежда много полезно това.
 
За: Jabse free data

За: Jabse free data

За беклинк тул и аз мислех, но то като виждаме само тайтъла а не съдържанието на страницата, ще трябва да пратим бот до всеки URL за да видим линковете на страницата :).
 
За: Jabse free data

За: Jabse free data

Същото ще е но без горен лимит от 1000 баклинка! Само че базата ще стане доста гигабайти, даже и само ид:ид ако е таблицата. Много интересно наистина по колко линка има средно към страница.
 
За: Jabse free data

За: Jabse free data

При вариант
url:url
ми се получава около 300GB файл, което ми се струва твърде голямо.
Сега пробвам id:id
При този вариант обаче ще пропусна редове за линкове от индексирани към неиндексирани документи - другата опция е да слагам 0 за таргет id, когато не е индексиран още документа ( ако смятате, че има смисъл ).
Чакам да се експортне да видим какво ще се получи.
 
За: Jabse free data

За: Jabse free data

Alf, ти свързан ли си с проекта?

По никакъв начин, просто смятах таблицата че ще стане голяма. Всъщност погледнах create table-а в сайта на jabse.

При вариант
url:url
ми се получава около 300GB файл, което ми се струва твърде голямо.
Сега пробвам id:id
При този вариант обаче ще пропусна редове за линкове от индексирани към неиндексирани документи - другата опция е да слагам 0 за таргет id, когато не е индексиран още документа ( ако смятате, че има смисъл ).
Чакам да се експортне да видим какво ще се получи.

Идеалното би било да сложиш на неиндексираните само едно ид макар и без да ги индексираш, Имам предвид без да им сканираш кънтента, само урл и ид да имат ще стигне за целите, но да не бързаме, махай ги да стане по леко като за начало.
 
Последно редактирано:
За: Jabse free data

За: Jabse free data

Засега пробвам с 2 таблици - на досега съществуващата ще добавя ID и ще има 2-ра с връзките във формат id:id

За API - бих пуснал - може ли малко повече информация как си го представяш и разбира се всякакво сътрудничество е добре дошло.
 

Горе