Страница №1 — самое старое или Страница №1 — самое новое

Страница №1 — самое старое
6
Нейтральная
сторона
0
Страница №1 — самое новое
6
Как в книгах: чем больше номер, тем свежее информация
Прежде чем писать комментарии или выбрать сторону вы должны авторизироваться!
Как сейчас на ХВ: чем больше номер, тем старее информация

13-07-2015 11:03 0

Внезапно у меня возникла идея сменить номера страниц в списках холиваров. Но я не уверен, что так будет лучше, поэтому хочу обсудить плюсы и минусы.

Сейчас у нас самые старые холивары на странице ≈1478. Стоит добавить несколько холиваров, как они перелетят на страницу 1479, а 1478 будет заполнена новыми и так далее. Это сбивает поисковые системы: они хранят заведомо устаревшую информацию.

Если же нумерацию сменить на противоположную, т. е. страницу №2 назвать 1477, №3 — 1476 и т. д., то на странице №1 всегда будут одни и те же холивары, а свежие холивары будут добавляться на новую страницу. Например, главная сейчас будет иметь номер 1478, а после добавления десятка новых холиваров её номер станет 1479. Перетекания холиваров со страницы на страницу будут явлениями нечастыми.

10 комментариев
vosmoi 13-07-2015 11:07 0

opera.rulez, Это сбивает поисковые системы: они хранят заведомо устаревшую информацию.
Сбивает ли? Плохо ли, что поисковик хранит старую информацию?

opera.rulez 13-07-2015 11:11 0

vosmoi, Допустим, поисковик нашёл что-то на странице holywars.ru/war/new/page/345 и сохранил в индекс. Пользователь перешёл из результата поиска по ссылке и... при текущем порядке он не увидит то, что искал, потому что за прошедшее время та самая информация слетела на несколько страниц.

vosmoi 13-07-2015 11:17 +2

opera.rulez, мне кажется, что если страница пагинации в принципе появляется в поиске, то это странно и неправильно. Страницы пагинации должны служить поисковику для сбора ссылок на холивары. Ну а страницы холиваров, в свою очередь, не меняются.

BaeFAQs 14-07-2015 13:19 0

opera.rulez, Это актуальнее при поиске комментариев в профиле - порой приходится что-то искать, гугль ведёт на определённую страницу комментариев юзера, а этого комментария там уже неизвестно сколько времени нет и на какой странице его искать.
Имхо - менять нужно, так как комментарии и вары будут иметь свою постоянную страницу, раз поисковики их всё-равно цепляют.

cherepets 14-07-2015 13:55 0

opera.rulez, Страницы просто вообще не индексировать, только сами вары.

opera.rulez 14-07-2015 17:16 0

BaeFAQs, Насколько часто поисковики цепляют такие страницы? Можешь показать примеры запросов, которые на них выводят?

opera.rulez 14-07-2015 17:19 0

cherepets, У меня была мысль спрятать от поисковиков (мета-тегом NOINDEX или как-нибудь ещё) все страницы типа holywars.ru/user/7928/comments/page/5 , чтобы поисковики на них не спотыкались. После того, как мы реализовали безаяксовый вывод комментариев в холиварах, поисковикам эти страницы больше не нужны.

Объявляю минихоливар: скрывать или не скрывать.

fhfh 14-07-2015 20:36 0

opera.rulez, не скрывать.
есть на них попадает хоть полтора человека в день - то пускай стоЯт. только сделать их постоянными.

BaeFAQs 15-07-2015 01:34 +1

opera.rulez, Если искать целенаправленно по сайту - довольно часто. Выглядит примерно
так.

opera.rulez 15-07-2015 12:19 0

BaeFAQs, Действительно, Гугл эту хрень иногда выдаёт.

13-07-2015 14:28 0

На форумах зачастую так.

1 комментарий
Egor.Leschev 14-07-2015 20:49 0

Egor.Leschev, 2000й коммент!

14-07-2015 10:41 0

людям на самом деле пофиг. так что - меняй.

10 комментариев
opera.rulez 14-07-2015 11:02 0

fhfh, Действительно, большинство пользователей, скорее всего, на автомате тыкают во вторую по счёту кнопку (или в кнопку, которая в пагинаторе правее текущей страницы) или в кнопку «Следующая» (если она есть), а на номерки мало кто смотрит.

Меня всё же интересует, есть ли практическая польза от такой нумерации. Восьмой заметил, что такие страницы редко всплывают в поиске, так что поисковым системам, скорее всего, тоже пофиг. Или нет?

fhfh 14-07-2015 20:42 0

opera.rulez, сейчас им точно пофиг.
у вас каждый день на этих страницах полностью меняется контент => эти урл давно уже отправлены в мешок пятнадцати-степенных.

нужно сменить пагинацию на статичную и сменить урл. "/war/all/page/4" на какой-нибудь "/war/all/pages/4".
а ещё лучше - на "/war/all.htm?page=4" и в инструментах вебмастера указать, что параметр page разделяет на страницы.

opera.rulez 15-07-2015 00:15 0

fhfh, Чем URL со всякими знаками вопроса, равенствами и прочим матаном лучше URL со слешами?

fhfh 15-07-2015 01:48 0

opera.rulez, задачу параметра можно явно указать в инструментах вебмастера.

да и, имхо, логичнее уточнять запрос параметрами запроса, а не всякими папками.

opera.rulez 15-07-2015 12:19 0

fhfh, Что даёт указание параметра в инструментах вебмастера?

fhfh 15-07-2015 21:59 0

opera.rulez, как я понимаю - он не пессимизирует эти страницы за дубляж метатегов и за дубляж постоянного "описания категории".

раньше для этого прописывали в robots.txt запрет ботам смотреть все страницы кроме первой (это давало антибан странице категории товаров вообще, но правда за счёт потери дальних страниц).

opera.rulez 13-11-2015 12:39 0

fhfh, Кстати, в комментариях к одному блогу прочитал такую рекомендацию:
«Лучше использовать для этого тег внутри кода HTML — <meta robots=“noindex,follow”>на всех страницах пагинации. Таким образом мы запрещаем к индексации саму страницу, но робот по ссылкам пройти и проиндексировать, например, карточки товара на 8-й странице сможет.»

Будет ли польза от такого тега?

fhfh 13-11-2015 14:11 0

opera.rulez, да фиг его знает. звучит логично.

у меня сеошники тоже закрывали "?page=" в robots.txt
я не закрываю - указываю с гуглеинструментах что параметр "page" "разделяет на страницы" и вроде всё норм.

opera.rulez 13-11-2015 15:18 0

fhfh, Кстати, из статьи по ссылке следует, что в robots.txt вообще закрывать что-либо бессмысленно. Гугл «закрытые от индексации» страницы не выкидывает из индекса, а тупо пишет в результатах поиска, что описание страницы не доступно:


Сам на такое нарывался неоднократно, когда что-то искал. Может быть, я чего-то не понимаю в жизни, но поведение Гугла, когда он индексирует страницу, но скрывает описание, кажется нелогичным.

Так что директиву Disallow в robots.txt считаю вредной.

Другое дело — директива Clean-param (поддерживаемая не всеми поисковиками) и настройки в инструментах вебмастера.

fhfh 13-11-2015 17:39 0

opera.rulez, да у них на любое действие - "мы типа принимаем это во внимание, но решаем на собственное усмотрение".

в общем-то это правильно. нынче гуголь намного адекватнее, чем 5 лет назад.
а что делать нам? следовать советам Корпорации Добра и ждать милости. раз уж мы хотим её добра.

09-11-2015 21:48 +1

В качестве эксперимента изменил нумерацию страниц в списках комментария пользователя.

См., например, сюда: holywars.ru/user/8616/comments

Надеюсь, что это поможет поисковым системам.

10 комментариев
opera.rulez 10-11-2015 10:56 0

opera.rulez, Дополнение: такое же изменение для страниц, предполагающих хронологический порядок.

holywars.ru/war/new
holywars.ru/user/new

cherepets 10-11-2015 11:42 +1

opera.rulez, Пока не нравится. Лучше бы вообще ленты как-то из индекса убрать, чтобы поиск через поисковую систему выводил только сами страницы с варами.

opera.rulez 10-11-2015 12:14 0

cherepets, В идеале действительно в индексе должны быть только холивары, потому что только в них значимая информация. Но совсем убирать из индекса их я боюсь, потому что они помогают собирать ссылки на холивары. Поисковики нужно как-то пинать, чтобы они узнавали, что в холиваре появились новые комментарии. На главной холивар может провисеть несколько минут, поэтому наивно надеяться на то, что поисковик успеет зайти в него с главной.

А часто ли страницы из лент попадают в выдачу поисковиков? Пример, который привёл BaeFAQs, я уже видел, там в выдачу попали ленты комментариев. А ленты холиваров или юзеров бывают в выдаче?

fhfh 12-11-2015 02:51 +1

opera.rulez, Поисковики нужно как-то пинать
а на sitemap не стОит надеяться?
там есть <lastmod> и <changefreq>.
или они в этом деле не помогают?

opera.rulez 12-11-2015 07:35 0

fhfh, Пока не проверил. Но по крайней мере для Бинга sitemap стопудово нужен, ведь он, как ёж, птица гордая: не пнёшь — не полетит.

Как думаешь, какое оптимальное значение changefreq для ХВ и какие страницы, кроме холиваров, сто́ит включать?

fhfh 12-11-2015 11:37 0

opera.rulez, включать все. ну кроме моих вещей.
а freq хрен его знает. посчитай "возраст вара / количество комментов" :))

opera.rulez 12-11-2015 13:18 0

fhfh, Средняя температура по больнице ≈ 915000 / 2400 ≈ 380 комментариев в сутки (серьёзно?).

За прошедшие 24 часа добавлено 113 комментариев в 18 холиварах. В среднем добавлено 6 комментариев на холивар в сутки. Если взять самый старый холивар, то там 873 комментария за 2400 дней, т. е. чуть больше, чем 1/3 комментария в сутки.

У каждого холивара есть период активности и неактивности. В период активности можно ставить daily, если вообще не рилтайм. В период неактивности подойдёт weekly и даже monthly.

Самое неприятное, что периоды сна и бодрствования холиваров непрогнозируемы. Ещё одна неприятность заключается в том, что это всего лишь рекомендации. Поисковик может вообще не проиндексировать часть страниц, если будет сильно занят. С частотой daily справится только Гугл. Яндекс привык откладывать обновления на неделю, а Бинг — на месяц (если не больше).

Остаётся надеяться на то, что lastmod поможет поисковику сориентироваться, если частота обновления указана неправильно.

Кстати, а с какой частотой нужно обновлять карту сайта? Один раз в сутки пойдёт?

fhfh 13-11-2015 01:48 0

opera.rulez, я написал полэкрана текста и потом у меня всё пропало :Щ

fhfh 13-11-2015 02:10 +1

fhfh, короч.

дели вары по активности за последние неделю/месяц на страты и отдавай для них 'ежедневно'/'еженедедельно'/т.д.
я лично во freq не верю, но чем чёрт не шутит.

в lastmod верю. если в lastmod не врать (оно сцуко всё проверяет со своими данными) - то оно работает.

sitemap нужно кешить полюбому, потому что выдать всю базу - тяжко, а поисковики - некультурные ).
но забирается база тем же культурным гуглём всё равно не чаще чем в сутки. а если и забирается, то сканятся страницы всё равно другим роботом и по другой схеме.

поэтому я генерю sitemap раз в сутки кроном или если уж совсем надо - кнопкой из админки.
Актуальность sitemap важна на старте проекта, а потом уж оно сканится как захочет - может и по 200 страниц в день, что для 17000 ХВ обернётся в месяцы.

есть мнение, что в sitemap в начало нужно ложить категории, а потом - всю остальную фигню - хз, безосновательно верю.
есть мнение, что есть priority - не верю. тоже безосновательно, но не верю.

в общем, всегда надо пробовать и смотреть в вебмастере и аналитиксе. там много нюансов, которые фигзнаешь если не сталкивался, и куча особенностей конкретного сайта, которые нужно смотреть и анализировать. ну как и везде в общем-то )

fhfh 13-11-2015 02:20 0

opera.rulez, Средняя температура по больнице
клепай среднюю температуру не по больнице, а по вару.
причём за последний месяц или там за неделю/день.
ессно обновлять раз в неделю/день (как позволит мощща) как статистику.
у поисковиков своя инертность и свой пофигизм. твоё дело - отдать.

13-07-2015 11:04 0

Изначальная логика спорна. Информация становится старой, когда мы ее прочитали. Поэтому большой разницы в логике нумерации книг и ХВ не вижу.

1 комментарий
opera.rulez 13-07-2015 11:12 0

vosmoi, Я понял, о чём ты. Ты прав, сравнение с книгой некорректно, потому что страницы книги обычно читают в авторском порядке, а холивары мы можем просматривать в произвольном.

Здесь же речь о чисто формальном способе создания URL.

13-07-2015 11:09 0

Есть такой популярный сайт - trashbox.ru, который нумерует страницы начиная с более старой. Есть парсер новостных сайтов, который имеет общий интерфейс для всех источников: единственный параметр - page, при первом запросе page всегда равен 1, чтобы получить следующую порцию данных, парсеру надо скормить 2, потом 3 и т.п.

Я не знаю способа написания модуля для этого парсера и этого сайта, такого чтобы получать требуемые новые данные для страниц кроме последней в один запрос.
Два запроса - дорого, усложнять интерфейс - тоже.

8 комментариев
opera.rulez 13-07-2015 11:10 0

cherepets, Для получения новых данных должен быть RSS-поток.

cherepets 13-07-2015 11:14 +1

opera.rulez, У RSS есть недостатки, потому и используется парсер.
А именно:
- разделы
- поиск
- доступ к полному списку статей

opera.rulez 13-07-2015 11:25 0

cherepets, Для каждого раздела там есть свой RSS-канал. Но RSS там выдаёт только одну страницу: самую новую. Для доступа к более старым придётся парсить сайт. И тут возникает трудность: если бы у них был тег <link rel="next" href=...>, то переход на следующую страницу можно было бы сделать автоматом. Но разработчики trashbox.ru этого не предусмотрели, поэтому для обнаружения следующей страницы нужно искать на странице пагинатор. В данном случае он обнаруживается: если текущая страница /public/b_text/tags/blog_video/ , то все ссылки вида /public/b_text/tags/blog_video/что-нибудь будут страницами данного раздела.

cherepets 13-07-2015 11:51 +1

opera.rulez, Т.е. чтобы получить номер второй по новизне страницы, надо уже иметь первую. Это засада. Хотя можно попробовать переложить проблему с себя на Yahoo.

opera.rulez 13-07-2015 20:14 0

cherepets, Да, именно так, первую страницу на Трешбоксе и на подобных сайтах придётся прочитать и проанализировать.

А как ты предлагаешь привлечь Yahoo?

cherepets 13-07-2015 21:13 +1

opera.rulez, YQL, вложенный запрос.

opera.rulez 13-07-2015 21:16 0

cherepets, Спасибо. А то я обиделся на Yahoo после того, как они потеряли свою поисковую базу, и давно не изучал их сервисы и технологии.

cherepets 16-07-2015 17:16 +1

opera.rulez, Вложенные запросы поддерживаются только к таблицам Yahoo, но не к HTML.
Но в 2 запроса сделал что хотел:
1) Вызов yql query
2) От результата отнимаем номер требуемой страницы и прибавляем 1. Получаем реальный номер страницы. Всё, можно делать "настоящий запрос".

13-07-2015 18:18 0

А как иначе узнаю, что появилось обновление?

3 комментария
cherepets 13-07-2015 18:41 0

Trikcster, Последняя страница будет отображаться первой.

opera.rulez 13-07-2015 20:12 0

Trikcster, Вероятно, я плохо составил описание и слишком нелаконично написал первый аргумент. Вот сайт, подсказанный Черепцом: trashbox.ru/public/b_text/

Нумерация страниц: 191 190 189 ..1.

Как и на ХВ, по умолчанию отображается страница с самыми свежими материалами. Но на ХВ она имеет номер 1, а на trashbox — в данный момент номер 191. После обновления список страниц может стать таким: 192 191 190 ..1. Т. е. номер «свежей» страницы станет 192 вместо 191, но она по-прежнему будет отображаться по умолчанию.

Для сравнения на ХВ нумерация выглядела бы так: 1 2 3 .. 191. А после обновления так: 1 2 3 .. 192.

Итак, на ХВ мы всегда знаем, что самая «свежая» страница имеет номер 1, но априори не знаем, что может оказаться на странице с заданным номером. На trashbox же мы заранее не знаем номер самой «свежей» страницы, пока не прочитаем список страниц на «странице по умолчанию», но зато знаем, что окажется на странице номер X, если страницу номер X уже когда-то видели.

Вопрос в том, что удобнее.

Trikcster 13-07-2015 21:35 0

opera.rulez, тогда я за первый вариант...