Теперь тошноту можно измерить
08.12.2006, letov
Николай Яровой выпустил новый сервис анализа страниц.
Скрипт анализирует текст на странице сайта на предмет количества слов, их вхождений в разные блоки, морфологических модификаций (на основе эвристического извлечения корня). Позволяет проводить анализ текстовых факторов и делает вывод об уровне текстового спама в документе (тошноты).
Кроме того есть возможность заливать и анализировать текстовый файл с набором слов, например, для изучения уровня тошноты в анкор-текстах ссылок.
Узнать больше о том, что такое тошнота, можно на форуме se.ru.
08.12.2006 в 5:54 pm.
Добавлю, что тошноту можно было и раньше измерить и ее меряли, просто вручную долго считать. Вообще, тема актуальная и у всех на слуху. Думаю, что многим форум searchengines.ru поможет получить ответы на вопросы.
08.12.2006 в 6:07 pm.
Респект! Нужный сервис!
09.12.2006 в 7:37 pm.
nickspring, каким образом морфоанализатор построен? что-то часто, на мой взгляд, он ошибается.
09.12.2006 в 8:21 pm.
Безсловарный способ Стеммера Портера, потому и ошибается иногда, не сказал бы, что часто.
11.12.2006 в 6:07 pm.
Стеммер с большой буквы - это не опечатка?
11.12.2006 в 9:13 pm.
О черт, точно. Ну вообщем, прикрутить mystem от Сегаловича нахрапом не вышло (он вообще под Linux чего-то сразу не хочет
), а возиться времени нет, ближе к НГ может прикрутим.
12.12.2006 в 11:52 am.
Так то полезный сервис.
16.12.2006 в 4:15 am.
Прикручен Mystem от
15.02.2007 в 3:26 pm.
Да, хорошая штучка, нужная и полезная.
03.10.2007 в 7:04 am.
nickspring, а насколько актуальна используемая формула подсчета сейчас?
03.10.2007 в 11:27 am.
Формула актуальна в некоторой степени, но не точна.
01.11.2007 в 12:39 am.
Сколько стоит актуальная версия? )