SearchEngines.bg

Това е примерно съобщение за гост. Регистрирайте безплатен акаунт днес, за да станете потребител на SearchEngines.bg! След като влезете, ще можете да участвате в този сайт, като добавите свои собствени теми и публикации, както и да се свържете с други членове чрез вашата лична входяща кутия! Благодарим ви!

Търсачка

plamensl

New member
Струва ми се, че е време да спра за момент и да се огледам.
Мислите ли, че има шанс за успех подобен проект и какво му е необходимо ?
Ще се радвам на всякакви обосновани критики, предложения за развитие и необосновани похвали

http://www.jabse.com/
http://news.jabse.com/
Търсене на изображения
http://www.jabse.com/seo/
http://www.jabse.com/wap/
http://www.jabse.com/search_mysite.php
http://www.jabse.com/interface/
http://www.jabse.com/toolbar/

Поздрави на всички Пламен
 
Re: Търсачка

Здрасти и добре дошъл Пламен :)

Готино е, че пускате статистика за 'най-търсеното днес' и разни други такива :)
Ако и google правеха това... :D

Не знам принципа ви на индексиране, но като си търся името излиза всичко, без моят сайт :)
(#1 е профила ми тук ;) ).

Бихте ли дали малко повече информация за вас - от много време ви наблюдавам и нещо ми се губи идеята:
1. Кои са ви конкурентите
2. Какви са ви краткосрочните и дългосрочните планове за развитие
3. Как мислите да монетизирате системата
4. До къде са ви плановете за развитие на индекса и като цяло инфраструктурата (към момента едва 3 000 000 страници)
5. Ще настъпвате ли и на международния фронт
 
Re: Търсачка

Чесно да ти кажа... незнам дали има смисъл, просто има много сериозни монополисти на пазара, а и сам човек е трудно. Зависи колко време отделяш и колко човека ви е екипът. Спред мен ако не отделяш много време и ресурси и заслужава да продължиш работата. Лично аз никога не съм ползвал jabse, но ми харесва много как е реализиран.


Бтв браво за добрия и амбициозен проект. Ако си от София може да се видим на по бира... планираме да се събираме в петък?
 
Re: Търсачка

plamensl аз лично много харесвам jabse. понякога са заигравам доста дълго при Вас ;)

според мен обаче е добре първо да си отговорим на въпроса : защо да използваме jabse, а не google?

след като се намери този отговор, ще е ясно и какво трябва да се направи за успеха на проекта.
 
Re: Търсачка

За Атанас Янев
Здравейте и благодаря за отговора.
Относно вашия сайт - в момента индексирам само български страници, като под български разбирам намиращи се на bg IP или с домейн .bg , bg.com и подобни. За сайтове, които са български но не са разпознати като такива има ръчно добавяне http://www.jabse.com/addurl.php

1. Не знам много български търсачки - преди имаше опити paiak , krasta - но изчезнаха
2. В момента трупам индекс - което си в бавно при наличния хардуер.
3. Не съм избрал вариант още ( дали ще е собствена система или чужди реклами ) - но ми се струва че е рано за монетизиране
4. Не знам дали 3 000 000 е малко или много . Не съм сигурен колко е голям българския интернет ? Може би дори 3 000 000 биха били достатъчни ако са правилните 3 000 000 . Все пак индексът трябва все още да расте - така че това е приоритет в момента.
5. Не

За MacTeP
Благодаря за мнението :)
Точно това се опитвам да разбера. Защо не си го ползвал и кое би те накарало поне да го имаш предвид като вариант ?

Благодаря за поканата. От София съм но за съжаление няма да мога тази седмица. Може би на следващата ви среща :)
 
Re: Търсачка

Не съм 100% сигурен, но съм чувал че в Китай ползват Baidu, а в Русия - Yandex
Може би това би било причина - непознатата за Goolgle азбука ?
Не знам дали така се казва но Jabse е морфологична търсачка - демек не трябва да пишете
червен картон
червеният картон
червените картони
......
Достатъчно е кое да е от тях.
Когато индексът достигне достатъчно голям обем Jabse би трябвало да дава повече и по-точни резултати за думи на български език (или поне се надявам :) )
 
Re: Търсачка

Първо да започна с това защо не ползвам jabse: не търся на български - от тук нататък няма нужда от коментар :)

относно индекс-а на българските страници, ако се вярва на google:
http://www.google.bg/search?hl=bg&q=a&btnG=Google+търсене&meta=cr=countryBG
http://www.google.bg/search?num=100&hl=bg&q=а&meta=cr=countryBG
3 170 000 + 2 930 000 = грубо 6 милиона добавяйки още 1-2 милиона хоствани извън бг това твоето си е 30% от индекс-а, закоето поздравления.

Ако съм разбрал правилно, малко ме притеснява алгоритамът ти на crawler-ване - отваряш само страници които отговарят на критерияти за български страници, от тука се появава проблема че ако една страница се линква само от страници които не отваряш няма да може да бъде индексирана.

Google бяха много горди едно време че бяха първата търсачка която намираше сама себе си и се показваше на първа позиция:
http://www.jabse.com/searchmachine.php?searchmode=bg&query=jabse&search=търси&isform=true
Струва ми се че не jabse.com не попада в критериите си за страница от българия :)

Ползвате ли robots.txt и ако не смятате ли да го ползвата?
Ако да (на който и да било от двата варианта) бих се радвал да споделиш лесен начин за парсването му :)

И последно, много ми е любопитно какъв е размера на индекса?

П.П. Забравих: Успех с начинанието, въпреки че не търся на български, бих се радвал да има една добра българска търсачка.
П.П2 Гледам че броя на индексираните страници не нараства. Периодично ли се update-ват или като при мен са спрени crawler-ите временно?
П.П3 А всъшност как точно се чете jabse.com ? "джабсе", "ябсе", ... ?
 
Re: Търсачка


Тези двете търсения имат обща част според мен :)

На мен ми харесва това, че Jabse не спират да се борят и съм сигурен, че след време това ще се възнагради.

Бях чел някъде една история, че Google щели да купуват някаква търсачка, но не и помня името (с T започваше). Та била някаква нова технология ала-бала и когато инженерът на Google седнал да я тества написал първо името й в нея. Тя не могла да "се намери" и от Google си вдигнали парцалите. Така че проблемът е голям.
 
Re: Търсачка

cloxy каза:
Нямат - едното търси страници от българиа с българско 'а' другото с латинско. Идеята ми на това търсене е да че и двете букви се срещат достатъчно често и в двата езика (за други освен бг и ен, не мога да говоря)
 
Re: Търсачка

vha благодаря за мнението :)

Ако съм разбрал правилно, малко ме притеснява алгоритамът ти на crawler-ване - отваряш само страници които отговарят на критерияти за български страници, от тука се появава проблема че ако една страница се линква само от страници които не отваряш няма да може да бъде индексирана.

Така е. Мое мнение - но ми се струва малко вероятно бг страница да няма линкове от други бг страници.

Google бяха много горди едно време че бяха първата търсачка която намираше сама себе си и се показваше на първа позиция:
http://www.jabse.com/searchmachine.php?searchmode=bg&query=jabse&search=търси&isform=true
Струва ми се че не jabse.com не попада в критериите си за страница от българия Smiley


Вярно е - не попада. Честно казано не виждам смисъл да индексирам Jabse, освен за да се хваля с това.

Ползвате ли robots.txt и ако не смятате ли да го ползвата?

Не ползвам в момента. Не в първата критика по въпроса - май е време да се замисля върху това.

И последно, много ми е любопитно какъв е размера на индекса?

Около 450 GB

Забравих: Успех с начинанието, въпреки че не търся на български, бих се радвал да има една добра българска търсачка.

Благодаря

Гледам че броя на индексираните страници не нараства. Периодично ли се update-ват или като при мен са спрени crawler-ите временно?

Периодично. В момента около 1/месец. Обмислям и вариант за непрекъснато добавяне на страници, но поради начина на индексиране предпочитам да изчакам докато индексът порасне още малко.

А всъшност как точно се чете jabse.com ? "джабсе", "ябсе", ... ?

http://forum.jabse.com/viewtopic.php?t=17
 
Re: Търсачка

3 000 000 е просто число. Ако ви харесва повече може да напиша 30 000 000
По-важно според мен е не колко а как и кои, като имам предвид че в индекса на Jabse има доста боклук, повтарящи се страници и т.н. Надявам се постепенно да се нормализира и добрите страници да изплуват нагоре - но си трябва време.
 
Re: Търсачка

Аз като един стар търсач да си кажа тежката дума. Когато нямаше Гугъл всички ползвахме Яху, Ексайт, АлтаВиста, АскДжийвс и още куп търсачки, защото всяка даваше различен резултат. Когато се появи Гугъл, започнахме да я ползваме, защото даваше всичко накуп и най-важното - най-релевантните резултати излизаха на първо място.

Колкото до морфологичността и гугъл вече предлагат тази екстра. С нея е свързано и пускането на адсенс на БГ, но това е друга тема.

Какви са критерииите за подреждане на тази класация? Ясно, че е изчилсявания от вас Page Rating, но частта с първите 100 по-скоро прилича на спонсорирани линкове отколкото на реална класация.

Не уважавате <meta name="robots" content="NOARCHIVE" />. Имам причина да не искам да ми се кешира съдържанието на сайтовете, а при вас го има кеширано.

В заключение, хората ще започнат да ви ползват, ако им предоставяте това, което търсят. Чисто и просто като милиционер след баня.
 
Re: Търсачка

И още един, малко нетактичен, въпрос - кой ви плаща към момента?
Jabse се рекламира доста (дори в bidvertiser ви виждам непрекъснато ;) ).

Имате ли спонсори и търсите ли си такива?


Може ли и малко повече информация за инфраструктурата ви? :)

Колко души ви е екипа, колко на брой критерия се съдържат в алгоритъма ви?
Ще пускате ли jabsePR ;)

Между другото с подобно приятелско отношение и ясни отговори съм сигурен, че си спечелихте много приятели тук :)
 
Re: Търсачка

bgkulinar благодаря за мнението

Колкото до морфологичността и гугъл вече предлагат тази екстра. С нея е свързано и пускането на адсенс на БГ, но това е друга тема.


Не съм съвсем сигурен
яката търсачка : 1290 страници
яка търсачка : 121 000 страници


Какви са критерииите за подреждане на тази класация? Ясно, че е изчилсявания от вас Page Rating, но частта с първите 100 по-скоро прилича на спонсорирани линкове отколкото на реална класация.


Изчислявания PR - това че прилича на спонсорирани линкове е съвпадение. Ако смятате че съм убедил въпросните сайтове да ми плащат, доста ме надценявате.

Не уважавате <meta name="robots" content="NOARCHIVE" />. Имам причина да не искам да ми се кешира съдържанието на сайтовете, а при вас го има кеширано.

Критиката е основателна - това е в списъка със задачите ми
 
Re: Търсачка

bgkulinar каза:
Не уважавате <meta name="robots" content="NOARCHIVE" />. Имам причина да не искам да ми се кешира съдържанието на сайтовете, а при вас го има кеширано.

Ще си позволя да ти отговоря като програмист, предполагам че това би било и мнението на plamensl.
Вземането под внимание на robots.txt и meta robots си има своите особенности.
докато meta-robots е по-лесно да се извлече (по малко натоварване) то в него има един тон глупости написани и всевъзможни вариации на това което се води като стандарт.
Отностно robots.txt там проблемите са малко по-малки:
1. само два възприети формата (само?), поради неточна дефиниция във robotstxt.org
2. така и не разбрах как се прави robots.txt на поддиректория (може и само аз да съм)
3. парсването на robots.txt изисква още една заявка към сървърът и вземането и под внимание в следващите заявки. гледам че google вземат robots.txt приблизително веднъж на 1000 изтегляния, това означава още трафик, още рам/хард и т.н.

Явно plamensl е решил да действа като мен - докато не стане проблем с robots.txt няма да го слагам, като почнат да ми мърморят тогава :)

Disclamer: това е лично мнение и няма нищо общо със jabsa.com. Ако jabse.com и/или създателите й не са съгласни с горепосоченото ми мнение, моля да ме оведомят за да го редактирам (изтрия).
 
Re: Търсачка

Здравейте г-н Янев,

В момента нямам спонсори. За Bidvertiser специално ми пратиха покана за 20$ пробно. Ползвам малко Adwords и с това се изчерпва рекламата.

Няма екип - един човек съм. Това си е мой частен проект.

Ще пускате ли jabsePR

Това не съм сигурен че го разбирам ?
 
Re: Търсачка

vha в общи линии съм съгласен.

В началото ми беше много по важно как въобще да индексирам някакви сайтове отколкото да се съобразявам с robots.txt

Разбира се bgkulinar е прав - би трябвало да се съобразявам и ще го имам предвид в бъдеще ( но едва ли ще стане веднага )
 
Re: Търсачка

plamensl каза:
Разбира се bgkulinar е прав - би трябвало да се съобразявам и ще го имам предвид в бъдеще ( но едва ли ще стане веднага )
Би било добре да може даден сайт да отпадне от индекса, ако го пожелае. Каквото е личното ми желание.

Атанас Янев каза:
Ще пускате ли jabsePR ;)
Ми то си има бе Насе, наричат го Page Rating.

plamensl каза:
Изчислявания PR - това че прилича на спонсорирани линкове е съвпадение. Ако смятате че съм убедил въпросните сайтове да ми плащат, доста ме надценявате.
Далеч съм от мисълта, че някой си е платил за да попадне там. Просто е учудващо наличието на някои страници като
Код:
http://banstats.netinfo.bg/Login.html
[url]http://www.nestesami.bg/main/index.php[/url]
[url]http://vremeto.v.bg/ch/index.pl%3Fplace=15&action=real&lang=_eng.html?slow[/url]
 
Re: Търсачка

В момента няма възможност за автоматично премахване.
Искате да махна кешираните страници или въобще да не излиза в резултатите ?
За кой сайт става дума ?

Поздрави Пламен
 
Re: Търсачка

Става въпрос за сайта съименник на ника ми. Желая да бъдат премахнати всички кеширани страници от този домейн, както и занапред да небъдат кеширани. Благодаря.
 

Горе