ПРОСТЫМИ СЛОВАМИ: ЧТО ДЕЛАТЬ SEO-СПЕЦИАЛИСТУ
✅ ЧТО ДЕЛАТЬ:
1. Пишите для людей, а не для робота
- Текст должен читаться естественно, как обычная статья
- Если прочитать вслух и звучит странно — переписывайте
- Никаких бессмысленных наборов ключевиков
2. Не пихайте все поисковые запросы подряд
- Google проверяет, не напичкана ли страница запросами из поиска
- Используйте ключевые слова в контексте, а не списком
- Лучше меньше ключей, но со смыслом
3. Создавайте оригинальный контент
- Не копипастите куски с других сайтов и не перемешивайте их
- Не используйте дешевых копирайтеров с биржи за 20 рублей/1000 знаков
- Не доверяйте автопереводам — Google их палит
❌ ЧЕГО НЕ ДЕЛАТЬ:
- Тексты типа: «Купить окна Москва недорого пластиковые окна купить установка окон Москва дешево»
- Автогенерация через синонимайзеры и рерайтеры
- Дорвеи с кучей страниц под каждый запрос
💡 ГЛАВНЫЙ ВЫВОД:
Google проверяет две вещи:
- Звучит ли текст по-человечески (через языковую модель)
- Не набит ли он поисковыми запросами (через сравнение с базой запросов)
Если хотя бы одна проверка провалена - страница улетает вниз или вообще из выдачи.
📝 ПРОСТОЙ ТЕСТ:
Дайте прочитать текст человеку, который не в теме. Если он скажет "что за бред?" - переписывайте. Google думает примерно так же.
ОПИСАНИЕ ПАТЕНТА US8554769B1
Патент описывает систему Google для выявления "gibberish" (бессмысленного/мусорного) контента в веб-ресурсах.
Решаемая задача: Идентификация спам-страниц с бессмысленным текстом, созданным для манипуляции поисковой выдачей.
Основные компоненты системы:
- Language Model Component — анализирует естественность языка через n-gram модели
- Query Stuffing Detector — определяет «напичканность» страницы поисковыми запросами
- Gibberish Score Calculator — комбинирует оценки для финального решения
Входные данные:
- Веб-ресурс с текстовым контентом и HTML-разметкой
- Query index (индекс реальных запросов пользователей)
- Языковая модель (n-gram, в примерах используется 5-gram)
Выходные данные:
- Gibberish score (оценка «мусорности» контента)
- Решение о модификации ранжирования ресурса
2. ОБЛАСТЬ ПРИМЕНЕНИЯ И ОГРАНИЧЕНИЯ
2.1 НА ЧТО НАПРАВЛЕН ПАТЕНТ
Конкретные типы контента:
- Веб-страницы с текстовым содержимым
- HTML-документы с различными тегами (h1, p, и др.)
- Страницы на разных языках (патент упоминает выбор соответствующей языковой модели)
Типы спам-контента, которые выявляет:
- Контент, созданный низкоквалифицированной рабочей силой
- Скрапинг с случайной модификацией и сплайсингом
- Низкокачественные автопереводы
2.2 УСЛОВИЯ ПРИМЕНЕНИЯ
Обязательные условия:
- Наличие текстового контента в ресурсе
- Возможность парсинга HTML-структуры
- Доступность языковой модели для языка контента
- Существование query index с историей запросов
Триггеры активации:
- Патент не указывает специфические триггеры — похоже, применяется ко всем индексируемым ресурсам
2.3 ЧТО НЕ ПОКРЫВАЕТ
Патент явно не упоминает работу с:
- Чисто визуальным контентом (изображения без текста)
- Видео и аудио контентом
- Документами других форматов (PDF, DOCX и т.д.)
- Контентом мобильных приложений
- Структурированными данными (таблицы, базы данных)
3. КАК РАБОТАЕТ АЛГОРИТМ
Пошаговый процесс:
-
Получение ресурса (202) - система получает веб-ресурс с текстовым контентом
-
Парсинг контента (204) - разбор на текстовые сегменты:
- Использование HTML-тегов для идентификации структуры
- Фильтрация коротких фрагментов (меню, навигация)
- Удаление стоп-слов и редких терминов
-
Расчет Language Model Score (206):
- Применение n-gram модели к каждому сегменту
- Вычисление вероятности: p(e1, e2,…, ek) = ∏p(ei|ei-n+1,…,ei-1)
- Нормализация по длине сегмента
- Определение доли gibberish-сегментов
-
Расчет Query Stuffing Score (208):
- Идентификация наиболее частотных терминов
- Поиск совпадений с query index
- Вычисление hit ratio для каждого термина
- Расчет среднего и максимального hit ratio
-
Вычисление Gibberish Score (210):
- Выбор минимума между Language Model Score и Query Stuffing Score
-
Принятие решения (212):
- score ≤ threshold1: удаление из индекса
- threshold1 < score < threshold2: применение понижающего веса
- score ≥ threshold2: без изменений
4. ЧТО СОБИРАЕТ/АНАЛИЗИРУЕТ (ДЕТАЛЬНО)
4.1 ВХОДНЫЕ ДАННЫЕ
Контентные факторы:
- Полный текст страницы
- Отдельные параграфы и предложения
- Последовательности слов (n-граммы)
- Частотность терминов
Технические факторы:
- HTML-теги и их структура
- Длина текстовых сегментов
- Размер параграфов
Внешние данные:
- Query log за определенный период (например, месяц)
- Предобученная языковая модель
- Индекс запросов с ключами
4.2 МЕТРИКИ И ВЫЧИСЛЕНИЯ
Language Model метрики:
Segment_score = p(word_sequence) / segment_length
LM_score = f(gibberish_terms/total_terms) × Σ(gibberish_segment_scores)
Query Stuffing метрики:
Hit_ratio = matched_queries / total_queries_for_key
Query_stuffing_score = f(avg(hit_ratios), max(hit_ratios))
Пороговые значения:
- Порог для определения gibberish-сегмента (не указан конкретно)
- Threshold1 для удаления из индекса
- Threshold2 для применения веса
4.3 СПОСОБЫ ОБРАБОТКИ
- N-gram анализ: 5-gram модель для оценки естественности
- Статистический анализ: частотность терминов, hit ratios
- Нормализация: деление на длину для сравнимости оценок
- Фильтрация: удаление стоп-слов, очень частых и редких терминов
5. УРОВЕНЬ АРХИТЕКТУРЫ
🔸 Нижний уровень - патент работает на этапе первичной оценки качества контента, собирая сигналы о "мусорности" текста
6. ПРАКТИЧЕСКИЕ ВЫВОДЫ ДЛЯ SEO
6.1 ПРЯМЫЕ ВЫВОДЫ
Конкретные рекомендации из патента:
-
Пишите естественным языком - алгоритм проверяет вероятность последовательностей слов через языковую модель
-
Избегайте query stuffing - не вставляйте множество поисковых запросов в текст без контекста
-
Контролируйте частотность ключевых слов - алгоритм анализирует наиболее частые термины и их контекст
-
URL-запросы защищены - даже если страница помечена как gibberish, она показывается при прямом запросе URL
6.2 КОСВЕННЫЕ ВЫВОДЫ
- Google использует исторические данные запросов для оценки контента
- Система работает на уровне параграфов и предложений, а не только всей страницы
- Качество перевода критично — плохие автопереводы могут быть помечены как gibberish
6.3 ПРАКТИЧЕСКИЕ ПРИМЕРЫ
Безопасные практики:
- Создание оригинального контента с естественной структурой предложений
- Использование ключевых слов в контексте, а не списками
- Проверка читабельности текста перед публикацией
Опасные практики (прямо из патента):
- Использование «low-cost untrained labor» для создания контента
- «Scraping content and modifying and splicing it randomly»
- Некачественный перевод с других языков
- Создание страниц с «high value keywords» без полезного контента
Конкретный пример:
Если страница содержит фразы типа "купить телефон Москва дешево iPhone Samsung купить смартфон недорого" - это явный query stuffing, который будет обнаружен алгоритмом через высокий hit ratio в query index.
Добавить комментарий