Провал в отношенията с Гугъл

Това е кратка поучителна история за отношенията на българското правителство с Гугъл.

Адрес

Отдавна съм открил неприятния факт, че ако заредя направо http://government.bg и баузърът ми не приложи автоматики, не получавам нищо. Трябва изрично да отида на http://www.government.bg. Същото май е положението с всички други сайтове на централната администрация. Но да речем, че това е проблем само за мен като потребител. Ако няма много погрешни връзки от външни страници, търсещите машини ще се ориентират.

Инструкциите в robots.txt

Това е стандартен файл, който, сложен в основната директория на даден домейн, съдържа инструкции към търсачките какво от съответния сайт да индексират и какво – не. Съдържанието на този файл на сайта на българското правителство е:

User-Agent:*
Disallow:/

Преведено, това означава: „Ако сте търсеща машина, моля напуснете този сайт и не индексирайте неговото съдържание“.

Следствия за достъпа на гражданите

Накратко и опростено, този файл от 26 байта прави всичко, публикувано на правителствения сайт, недостъпно за търсения, които идват отвън. 

Всяко търсене, за което единствения резултат би бил от българското правителство, няма да върне резултати. Всяко търсене, за което най-релевантия документ би бил такъв от българското правителство, ще ви прати към други, евентуално не толкова подходящи източници.

Изкривеният образ

Резултати, сочещи към сайта, все пак има. Пример е търсенето за думата правителство. Те обаче, се определят най-общо от външните линкове към този адрес, защото в индекса на Гугъл няма нито един документ от правителствения домейн. Така централният орган на изпълнителната власт в България се появява в публичността на интернет според думите, с които го определят другите. Пълен провал* в отношенията с Гугъл.

––

* За битието на английския превод на тази дума в Гугъл, вижте тази публикация в публичния им блог, която идва тъкмо навреме.

87 мнения за “Провал в отношенията с Гугъл”

  1. Това е всъщност съвременна парафраза на старата поговорка „Рибата се вмирисва от главата“…

  2. Юнуз, благодаря за поста. Дано има кой (правилния) да го прочете и разбере. Или следващото правителство да му пука за гражданите една идея повече.

  3. Интересно наблюдение. Аз съм склонен да вярвам, че това robots.txt „извращение“ е дело на разработчиците на сайта, които може се опитват да си предпазят custom-made CMS-а от претоварването, което едно обхождане от Гугъл би предизвикало … все пак, по-добре работещ, но не-индексиран сайт, отклоко забиващ, и частично индексиран 😉 Просто изпълнителите са много „кадърни“ – през 2007 половин година government.bg стоя с надпис във долната част „created by Face Contol“ (без R в ContRol).

    Иначе в „правителството“ (барабар с всичките пиявици, закачени в държавната администрация) едва ли има човек, който да разбира този проблем, и защо е важно да НЕ се прави така 😉

  4. Хаха, при това търсене излиза ето тази страница:

    * http://212.122.160.117/Government/

    на която е старото правителство 😉 Тъпото е, че на прословутата 212.122.*.* мрежа, на която са всички правителствени сайтове. Това е вторият резултат на първа страница от търсенето! Някой наистина може да остане с грешното впечетлние, че Пламен Панайотов и Николай Свинаров са още министри 😉

  5. Е, да. Но правителството си е избрало изпълнителите. Некомпетентността им не снема отговорността. И разбира се този детайл е едно много дребно допълнение към общата картина.

    Да не говорим докъде стигаме ако тъкмо този сайт ще се претоварва от едно обхождане от Гугъл.

  6. Хах … идеята ти за Googlebomb ми се струва много добра и навременна 🙂 Започвам да подкрепям управляващите с подходящия anchor, а ако се включат повече хора би станало наистина красиво 🙂

    btw преди дни новото американско правителство също редактира robots.txt на официалния си сайт и вече всичко е достъпно за индексиране.

  7. Калоян, с малко закъснение виждам втория ви коментар и го пускам. Пишейки публикацията тествах доста търсения. Примерът ви е един от по-леките абсурди, някъде назад в историята по медиите има дори специални писания за този призрачен сайт.

    Огнян, направо се чудех дали да не предложа блогрол линк инициатива. Но тая работа с блог щафетите някак ми стои стилистично встрани. Ще ви оставя това удоволствие. 🙂 Слагам моя глас отдясно в списъка „Публични места“.

  8. Хм, не само robots.txt забраняват индексирането на страницата на правителството, ами и самият сайт е направен все едно с краката си от пиян уеб дизайнер, преди около 15 години… а може би от бабата на уеб дизайнера, под влиянието на две-три цигари марихуана:-D

    При отчаян опит за валидиране на първа страница, излизат около 920 грешки. Естествено, това не е много важно, а е важно сайтът да работи и да е добре подреден. Но едно надникване в неговия source code може да докара инфаркт на не един и двама уеб дизайнери и дивелъпъри…

    1) В html документа изобщо липсва частта HEAD. Има само BODY. Аз не че нещо, но досега мислех, че без HEAD не може.
    2) Всички тагове са с главни букви, което ме навежда на мисълта, че е бил писан с идеята за HTML 3.2 стандарта (някъде на възраст поне 10 години? 15? поправете ме, ако греша…)
    3) ‘Tables are for tabular data’ – мисля, че създателите на сайта не са чували за този факт, утвърден в последните години… 🙂 Също и вероятно не са виждали този сайт:
    http://www.shouldIuseTablesForLayout.com 😀
    4) Web Content Accessibility Guidelines 1.0, Section 508, Web Accessibility Initiative (WAI) – струва ми се, че и тези неща са непознати за тях….
    5) Кои са тези FACE CONTROL които уж били направили и поддържали сайта? И защо долу пише ALL RIGHTS RESERVED, 2005. Навън 2005-та година ли е? Или 2005 е годината, когато за последно сайтът е бил пипан от поддръжката?
    6) В началото на source code-а няма HTML, HEAD, и тн. В началото пише:
    $Id: index.shtml 78 2006-04-05 12:33:39Z mitko $
    и става ясно, че някой си Митко за последно е пипал нещо по индекса на 5 април 2006… Става ли ви смешно? На мен ми става тъжно…

    Спирам дотук. Само се чудя, в изискванията за достъпност на сайтовете на правителтвата и правителствените агенции, нямаше ли и раздел, касаещ достъпността на сайтовете и не би ли трябвало някой да изисква от правителството ни, сайтовете на българската администрация да отговарят на поне минимум изисквания за достъпност?? Някакъв санитарен минимм поне. И да се индексират от търсачките, също?

    Може би греша, но сякаш БГ правителството все още витае в 19 век… Няма високи технологии, няма Уеб стандарти, „блог“ е мръсна дума, ‘skype’ е още по-мръсна… и налице са само преписките и нафталинените ни чиновници и управници… 🙁

  9. Хайде и ние подкрепихме блестящата идея! Пуснах линкчета Sgotvi.com и Qko.be
    както и тема в webreklama.biz

    Супер идея 🙂

  10. Е, да. Но правителството си е избрало изпълнителите. Некомпетентността им не снема отговорността. И разбира се този детайл е едно много дребно допълнение към общата картина.

    Ами да, така е. Същите „изпълнители“ са правили сайтовете и на Президента, ДПС, БСП, Коалиця за България, БОК, много спортни федерации и т.н. Или са много-добри в това което правят, или … как да го кажа меко и политически коректно – са близки до управляващите 😉 Моите наблядения са, че май е второто – има някой да им налива поръчки, без значение качеството на резултата.

  11. Pingback: Провал
  12. Michel:

    Хм, странно, но пуснах един дълъг коментар преди час и още не е минал… 🙁

    Не е минал, защото днес през деня не бях онлайн. Пускам го.

  13. Правописната грешка стои 😉 В началото на кода има голям блок коментари, и там вътре:

    ... description => "Created with Face Contol",...

    и след това долу го има и като мета таг:

    <meta name="keywords" content="Created with Face Contol">

  14. извинявайте за глупавия въпрос … след като всяко търсене, за което единствения резултат би бил от българското правителство, няма да върне резултати..
    това не обезмисля ли всичко ? какъв е смисъла да слагаме линкове като няма да има ефект ?

  15. до: Калоян К. Цветков

    ти си наясно с факта че това е кражба на данни и затова може да бъдеш съден ?!?

  16. Pingback: Paunchev.NET
  17. lyt, по принцип при търсене по даден термин съдържанието на сайтовете не е единствения ориентир на търсачките. Имат значение, например, външните линкове към съответния сайт, тяхното терминологично съдържание, заглавието им, контекста на страницата, от която се линква.

    Разбира се, аз не мога да предвидя доколко тази спонтанна кампания ще има ефект и какъв ще бъде той. Така или иначе, тя показва отношение.

    pepino, уместен въпрос, макар и да не разбирам тона ви. Заплахата със съдебно преследване от името на трето лице не е проява на добър вкус.

    Чисто граждански, аз подкрепям подобно огледално копие, защото то повишава прозрачността и моя достъп до информацията, която правителството публикува. И не подкрепям нежеланието на правителството да допуска копиране на тази информация.

  18. Все пак Гугъла е индексирал една страница от английската версия на сайта. Пък и вижте какъв висок PR има. Все е нещо

  19. Пепино, недей заплашва с неща които не разбираш. Каква кражба на какви данни ? Какви данни са откраднати – ЕГН-та или нещо друго ? После каква кражба – да не би Калоян да е копирал информацията, и да е представил за своя, все едно той и е автора ? Да не би да е сложил реклами и за печели от това ? Да не би да краде email-ите на посетителите и да праща спам ? Да не би да ви иска пари или SMS-и по 2 лева парчето, за да му посетите сайта ? Човекът си го е написал – огледално копие на сайта с цел индексиране от Гугъл. Отделно пък да не говорим колко глупаво е информацията на правителствен сайт да е със запазени права. За авторски права може да претендират може би единствено от БТА, които предоставят снимките (и може би и новините) на сайта.

  20. Радио:

    Все пак Гугъла е индексирал една страница от английската версия на сайта. Пък и вижте какъв висок PR има. Все е нещо

    При писането на статията не ми се влизаше в детайли, но нека коментирам. Търсенето с оператор site: връща резултат, но той само казва, че Гугъл знаят за съществуването на сайта или на конкретен документ в него. Търсачката не може да направи никаква смислена разлика между отделните страници в този сайт, затова резултатът първоначално е само един, а при повторното търсене се връщат адресите на всички документи, за които Гугъл знае, че съществуват.

    Нито един от тези документи няма снипет, освен началната страница, чийто снипет е взет не от съдържанието на страницата, а от Директорията на Гугъл – http://www.google.com/Top/Regional/Europe/Bulgaria/ (която е копие на съответната страница от Отворената директория – http://www.dmoz.org/Regional/Europe/Bulgaria/).

  21. вчера по това време пуснах тук коментар (подписан с името и блога ми) с моята подкрепа за идеята.
    все още не си виждам коментара – приемам го като нежелан – и оттеглям подкрепата си, и без това ефектът ми се струва съмнителен.

  22. Pingback: pligg.com
  23. Здравейте!
    Моля ви да се свържете с мен на 0899 81 63 32.
    Безпокоя ви от сутрешния блог на bTV.
    Спешно е!!!
    🙂
    Диляна

  24. Великолепна идея и изпълнение. Ето и развитие с малко javascript код. Иска UTF-8 кодировка на сайта.

    var text_st = new Array(„Провал“, „Корупция“, „Мафия“, „Наглост“, „Некадърност“, „Терор“, „Полицейщина“, „Беззаконие“, „Крадци“, „Мошеници“);
    var l = text_st.length;
    var rnd_no = Math.floor(l*Math.random());
    document.write(‘‘ + text_st[rnd_no] + ‘‘);

  25. Това последното не е по правилата на Уикипедия и би трябвало да се изтрие. Партизански техники. 🙂

  26. @ Атанас: и какво,.. няколко часа по-късно вече няма разлика 🙂 нищо против петициите и блогърските акции, но, моля, не ги провеждайте в уикипедия…

  27. Иска ми се да можем по често да се обединяваме около общи цели и нека да не са „Пълен Провал“ Назнам дали го осъзнавате но заено можем да постигнем много неща в ….нека заедно да изтикаме тая страна стъпка по стъпка, мисля че първата стъпка е направена ….

  28. Ironhorse, коментарите в този блог и в почти всички Уърдпрес блогове по подразбиране съдържат аргумента rel=“nofollow“ за линковете в тях. Това означава, че търсещите машини не следват тези линкове и не им обръщат внимание.

  29. Pingback: 1625 | μblog
  30. Сигурно щото са много корумпирани затова са забранили индексиране на съдържанието 🙂

  31. Юнуз БЛАГОДАРЯ ти за това което правиш,за да се сетят някои хора или,по точно да не забравят от кой са избрани и какви са задачите им .Подкрепям те напълно

  32. Pingback: 1625 | Arcane lore

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *