Това е кратка поучителна история за отношенията на българското правителство с Гугъл.
Адрес
Отдавна съм открил неприятния факт, че ако заредя направо http://government.bg
и баузърът ми не приложи автоматики, не получавам нищо. Трябва изрично да отида на http://www.government.bg
. Същото май е положението с всички други сайтове на централната администрация. Но да речем, че това е проблем само за мен като потребител. Ако няма много погрешни връзки от външни страници, търсещите машини ще се ориентират.
Инструкциите в robots.txt
Това е стандартен файл, който, сложен в основната директория на даден домейн, съдържа инструкции към търсачките какво от съответния сайт да индексират и какво – не. Съдържанието на този файл на сайта на българското правителство е:
User-Agent:*
Disallow:/
Преведено, това означава: „Ако сте търсеща машина, моля напуснете този сайт и не индексирайте неговото съдържание“.
Следствия за достъпа на гражданите
Накратко и опростено, този файл от 26 байта прави всичко, публикувано на правителствения сайт, недостъпно за търсения, които идват отвън.
Всяко търсене, за което единствения резултат би бил от българското правителство, няма да върне резултати. Всяко търсене, за което най-релевантия документ би бил такъв от българското правителство, ще ви прати към други, евентуално не толкова подходящи източници.
Изкривеният образ
Резултати, сочещи към сайта, все пак има. Пример е търсенето за думата правителство. Те обаче, се определят най-общо от външните линкове към този адрес, защото в индекса на Гугъл няма нито един документ от правителствения домейн. Така централният орган на изпълнителната власт в България се появява в публичността на интернет според думите, с които го определят другите. Пълен провал* в отношенията с Гугъл.
––
* За битието на английския превод на тази дума в Гугъл, вижте тази публикация в публичния им блог, която идва тъкмо навреме.
Това е всъщност съвременна парафраза на старата поговорка „Рибата се вмирисва от главата“…
Юнуз, благодаря за поста. Дано има кой (правилния) да го прочете и разбере. Или следващото правителство да му пука за гражданите една идея повече.
Интересно наблюдение. Аз съм склонен да вярвам, че това robots.txt „извращение“ е дело на разработчиците на сайта, които може се опитват да си предпазят custom-made CMS-а от претоварването, което едно обхождане от Гугъл би предизвикало … все пак, по-добре работещ, но не-индексиран сайт, отклоко забиващ, и частично индексиран 😉 Просто изпълнителите са много „кадърни“ – през 2007 половин година government.bg стоя с надпис във долната част „created by Face Contol“ (без R в ContRol).
Иначе в „правителството“ (барабар с всичките пиявици, закачени в държавната администрация) едва ли има човек, който да разбира този проблем, и защо е важно да НЕ се прави така 😉
Хаха, при това търсене излиза ето тази страница:
* http://212.122.160.117/Government/
на която е старото правителство 😉 Тъпото е, че на прословутата 212.122.*.* мрежа, на която са всички правителствени сайтове. Това е вторият резултат на първа страница от търсенето! Някой наистина може да остане с грешното впечетлние, че Пламен Панайотов и Николай Свинаров са още министри 😉
Е, да. Но правителството си е избрало изпълнителите. Некомпетентността им не снема отговорността. И разбира се този детайл е едно много дребно допълнение към общата картина.
Да не говорим докъде стигаме ако тъкмо този сайт ще се претоварва от едно обхождане от Гугъл.
Хах … идеята ти за Googlebomb ми се струва много добра и навременна 🙂 Започвам да подкрепям управляващите с подходящия anchor, а ако се включат повече хора би станало наистина красиво 🙂
btw преди дни новото американско правителство също редактира robots.txt на официалния си сайт и вече всичко е достъпно за индексиране.
Калоян, с малко закъснение виждам втория ви коментар и го пускам. Пишейки публикацията тествах доста търсения. Примерът ви е един от по-леките абсурди, някъде назад в историята по медиите има дори специални писания за този призрачен сайт.
Огнян, направо се чудех дали да не предложа блогрол линк инициатива. Но тая работа с блог щафетите някак ми стои стилистично встрани. Ще ви оставя това удоволствие. 🙂 Слагам моя глас отдясно в списъка „Публични места“.
Идеята ти е блестяща, включвам се, постнах в блога си, сега ще пусна и по другарчета 🙂
Хм, не само
robots.txt
забраняват индексирането на страницата на правителството, ами и самият сайт е направен все едно с краката си от пиян уеб дизайнер, преди около 15 години… а може би от бабата на уеб дизайнера, под влиянието на две-три цигари марихуана:-DПри отчаян опит за валидиране на първа страница, излизат около 920 грешки. Естествено, това не е много важно, а е важно сайтът да работи и да е добре подреден. Но едно надникване в неговия source code може да докара инфаркт на не един и двама уеб дизайнери и дивелъпъри…
1) В html документа изобщо липсва частта HEAD. Има само BODY. Аз не че нещо, но досега мислех, че без HEAD не може.
2) Всички тагове са с главни букви, което ме навежда на мисълта, че е бил писан с идеята за HTML 3.2 стандарта (някъде на възраст поне 10 години? 15? поправете ме, ако греша…)
3) ‘Tables are for tabular data’ – мисля, че създателите на сайта не са чували за този факт, утвърден в последните години… 🙂 Също и вероятно не са виждали този сайт:
http://www.shouldIuseTablesForLayout.com 😀
4) Web Content Accessibility Guidelines 1.0, Section 508, Web Accessibility Initiative (WAI) – струва ми се, че и тези неща са непознати за тях….
5) Кои са тези FACE CONTROL които уж били направили и поддържали сайта? И защо долу пише ALL RIGHTS RESERVED, 2005. Навън 2005-та година ли е? Или 2005 е годината, когато за последно сайтът е бил пипан от поддръжката?
6) В началото на source code-а няма HTML, HEAD, и тн. В началото пише:
$Id: index.shtml 78 2006-04-05 12:33:39Z mitko $
и става ясно, че някой си Митко за последно е пипал нещо по индекса на 5 април 2006… Става ли ви смешно? На мен ми става тъжно…
Спирам дотук. Само се чудя, в изискванията за достъпност на сайтовете на правителтвата и правителствените агенции, нямаше ли и раздел, касаещ достъпността на сайтовете и не би ли трябвало някой да изисква от правителството ни, сайтовете на българската администрация да отговарят на поне минимум изисквания за достъпност?? Някакъв санитарен минимм поне. И да се индексират от търсачките, също?
Може би греша, но сякаш БГ правителството все още витае в 19 век… Няма високи технологии, няма Уеб стандарти, „блог“ е мръсна дума, ‘skype’ е още по-мръсна… и налице са само преписките и нафталинените ни чиновници и управници… 🙁
Хайде и ние подкрепихме блестящата идея! Пуснах линкчета Sgotvi.com и Qko.be
както и тема в webreklama.biz
Супер идея 🙂
Ами да, така е. Същите „изпълнители“ са правили сайтовете и на Президента, ДПС, БСП, Коалиця за България, БОК, много спортни федерации и т.н. Или са много-добри в това което правят, или … как да го кажа меко и политически коректно – са близки до управляващите 😉 Моите наблядения са, че май е второто – има някой да им налива поръчки, без значение качеството на резултата.
Хм, странно, но пуснах един дълъг коментар преди час и още не е минал… 🙁
Егати, тези нямат <head>…</head> в HTML-а 😉
Не е минал, защото днес през деня не бях онлайн. Пускам го.
С две ръце зад идеята. Вече линкнах статията и правителството от блога си. Предстои слагането на още 2-3 линка 😉
Правописната грешка стои 😉 В началото на кода има голям блок коментари, и там вътре:
и след това долу го има и като мета таг:
Аз днес написах един малък mirror скрипт на php, за да се направи копие на government.bg, което може да се индексира – http://government.bg.kaloyan.info/ 😉 Да видим Гугъл колко ще е бърз… 😉
Много добра идея. Сега това ще е по-популярния сайт на правителството. 🙂
Проблемите са ти в браузъра, просто ползвай друг.
извинявайте за глупавия въпрос … след като всяко търсене, за което единствения резултат би бил от българското правителство, няма да върне резултати..
това не обезмисля ли всичко ? какъв е смисъла да слагаме линкове като няма да има ефект ?
до: Калоян К. Цветков
ти си наясно с факта че това е кражба на данни и затова може да бъдеш съден ?!?
lyt, по принцип при търсене по даден термин съдържанието на сайтовете не е единствения ориентир на търсачките. Имат значение, например, външните линкове към съответния сайт, тяхното терминологично съдържание, заглавието им, контекста на страницата, от която се линква.
Разбира се, аз не мога да предвидя доколко тази спонтанна кампания ще има ефект и какъв ще бъде той. Така или иначе, тя показва отношение.
pepino, уместен въпрос, макар и да не разбирам тона ви. Заплахата със съдебно преследване от името на трето лице не е проява на добър вкус.
Чисто граждански, аз подкрепям подобно огледално копие, защото то повишава прозрачността и моя достъп до информацията, която правителството публикува. И не подкрепям нежеланието на правителството да допуска копиране на тази информация.
Все пак Гугъла е индексирал една страница от английската версия на сайта. Пък и вижте какъв висок PR има. Все е нещо
@pepino: ловиш риба на сухо. Най-обичам анонимни коментатори да ми дават правни съвети.
Пепино, недей заплашва с неща които не разбираш. Каква кражба на какви данни ? Какви данни са откраднати – ЕГН-та или нещо друго ? После каква кражба – да не би Калоян да е копирал информацията, и да е представил за своя, все едно той и е автора ? Да не би да е сложил реклами и за печели от това ? Да не би да краде email-ите на посетителите и да праща спам ? Да не би да ви иска пари или SMS-и по 2 лева парчето, за да му посетите сайта ? Човекът си го е написал – огледално копие на сайта с цел индексиране от Гугъл. Отделно пък да не говорим колко глупаво е информацията на правителствен сайт да е със запазени права. За авторски права може да претендират може би единствено от БТА, които предоставят снимките (и може би и новините) на сайта.
При писането на статията не ми се влизаше в детайли, но нека коментирам. Търсенето с оператор site: връща резултат, но той само казва, че Гугъл знаят за съществуването на сайта или на конкретен документ в него. Търсачката не може да направи никаква смислена разлика между отделните страници в този сайт, затова резултатът първоначално е само един, а при повторното търсене се връщат адресите на всички документи, за които Гугъл знае, че съществуват.
Нито един от тези документи няма снипет, освен началната страница, чийто снипет е взет не от съдържанието на страницата, а от Директорията на Гугъл – http://www.google.com/Top/Regional/Europe/Bulgaria/ (която е копие на съответната страница от Отворената директория – http://www.dmoz.org/Regional/Europe/Bulgaria/).
вчера по това време пуснах тук коментар (подписан с името и блога ми) с моята подкрепа за идеята.
все още не си виждам коментара – приемам го като нежелан – и оттеглям подкрепата си, и без това ефектът ми се струва съмнителен.
Хайде сега малко да обърнем нещата, какво ще кажете?
http://www.vlkomarov.info/micro-blog/p:181/#181
Здравейте!
Моля ви да се свържете с мен на 0899 81 63 32.
Безпокоя ви от сутрешния блог на bTV.
Спешно е!!!
🙂
Диляна
Хайде и от WMG обърнаха внимание на инициативата 😉
http://news.ibox.bg/news/id_1996783194
Огледалното копие на правителствения сайт е вече в първа страница от резултатите при търсене на „РЕПУБЛИКА БЪЛГАРИЯ МИНИСТЕРСКИ СЪВЕТ“ 😉
Великолепна идея и изпълнение. Ето и развитие с малко javascript код. Иска UTF-8 кодировка на сайта.
var text_st = new Array(„Провал“, „Корупция“, „Мафия“, „Наглост“, „Некадърност“, „Терор“, „Полицейщина“, „Беззаконие“, „Крадци“, „Мошеници“);
var l = text_st.length;
var rnd_no = Math.floor(l*Math.random());
document.write(‘‘ + text_st[rnd_no] + ‘‘);
Е с JavaScript няма да се получи желания ефект виж на някакъв сървър сайд език ще стане.
Мда, вярно, няма да го интерпретира. Еми просто линкове…
Открийте разликите:
http://bg.wikipedia.org/wiki/Провал
http://en.wikipedia.org/wiki/Провал
Това последното не е по правилата на Уикипедия и би трябвало да се изтрие. Партизански техники. 🙂
Поздравления и благодарности 🙂
Добра инициатива колеги! 😉
Браво!
Браво, пичове, постнах си линка на моя фейсбуук.
@ Атанас: и какво,.. няколко часа по-късно вече няма разлика 🙂 нищо против петициите и блогърските акции, но, моля, не ги провеждайте в уикипедия…
И тия тука една акция са заформили, гледам…
http://en.wikipedia.org/wiki/Google_bombing
Тия дето не схващат кога се пише историята, историята ги отписва.
Цензоре, наистина, защо не се хванете да преведете страничката за Google_bombing на български със съответния пример?
http://en.wikipedia.org/wiki/Google_bombing
Лоша карма сте натрупали.
http://mediapool.bg/show/?storyid=148331&srcpos=5
Ще се пречистите с туй свободолюбиво деяние…
Иска ми се да можем по често да се обединяваме около общи цели и нека да не са „Пълен Провал“ Назнам дали го осъзнавате но заено можем да постигнем много неща в ….нека заедно да изтикаме тая страна стъпка по стъпка, мисля че първата стъпка е направена ….
ламя
Нали е ловджия пък и е Георги …
Ironhorse, коментарите в този блог и в почти всички Уърдпрес блогове по подразбиране съдържат аргумента rel=“nofollow“ за линковете в тях. Това означава, че търсещите машини не следват тези линкове и не им обръщат внимание.
Мисля че дълго ще се задържи на първо място. Много силни линкове има
Сигурно щото са много корумпирани затова са забранили индексиране на съдържанието 🙂
Юнуз БЛАГОДАРЯ ти за това което правиш,за да се сетят някои хора или,по точно да не забравят от кой са избрани и какви са задачите им .Подкрепям те напълно
http://www.timesonline.co.uk/tol/comment/columnists/article5720609.ece
Поредното червено творение 🙂
http://redfen.net/robots.txt
User-Agent: *
Disallow: /
@директория.бг
Добро попадение 🙂