Транслитерация URL

Поисковые системы, в том числе Yandex и Google, отмечают нахождение ключевых слов в интернет адресе страницы. Использование кириллицы в адресах, пока еще встречается редко, обычно для передачи русских слов используют транслитерацию. На сегодняшний день существуюет несколько методов транслитерации, из которых метод с использованием буквосочетаний наиболее близок к реальности. Следующая таблица показывает некоторое отличие Госта от реального использования URL транслитерации.

 Буква   Транслитерация 
    C использованием буквосочетаний по ГОСТ 7.79-2000     Реально используемая в url  
а a a
б b b
в v v
г g g
д d d
е e e
ё jo e
ж zh zh,j
з z z
и i i
й j i,j
к k k
л l l
м m m
н n n
о o o
п p p
р r r
с s s
т t t
у u u,y
ф f f
х h h,ch,x,kh
ц cz,с c
ч ch ch
ш sh sh
щ shh sh
ъ «  
ы y’ y
ь `  
э e` e
ю yu u
я ya ia,ya

Не всегда используемая транслитерация распознается и подсвечивается Google и Yandex. В случае вхождений слов в более длинное буквосочетание, Google способен выделить искомые слова, если они находятся практически в любом месте и не отделены от других букв ни дефисом, ни подчеркиванием. Яндекс лучше отделяет слова, если они отделены от других букв. Некоторые сочетания распознаются Google и Yandex, хотя даже не являются настоящими словами (горбушка = gorbushka).

p.s. На самом деле распознавание в выдаче не означает распознавание индексатором поисковика. Так в выдаче Google может выделить часть URL, отделенную подчеркиванием, но индексатор Google не разделяет слова в URL, если они отделены подчеркиванием (для этой цели лучше использовать дефис). Индексатор Яндекс распознает и подчеркивание и дефис, как разделители.

Транслитерация URL: 2 комментария

  1. Для «й» часто используется «y», в смысле, не киррилическая У, а «игрек».

Добавить комментарий

Ваш e-mail не будет опубликован.