Post Detail
21 октября 2025

ДЕТАЛЬНЫЙ АНАЛИЗ ПАТЕНТА US8554769B1 — IDENTIFYING GIBBERISH CONTENT IN RESOURCES

ПРОСТЫМИ СЛОВАМИ: ЧТО ДЕЛАТЬ SEO-СПЕЦИАЛИСТУ

✅ ЧТО ДЕЛАТЬ:

1. Пишите для людей, а не для робота
  • Текст должен читаться естественно, как обычная статья
  • Если прочитать вслух и звучит странно — переписывайте
  • Никаких бессмысленных наборов ключевиков
2. Не пихайте все поисковые запросы подряд
  • Google проверяет, не напичкана ли страница запросами из поиска
  • Используйте ключевые слова в контексте, а не списком
  • Лучше меньше ключей, но со смыслом
3. Создавайте оригинальный контент
  • Не копипастите куски с других сайтов и не перемешивайте их
  • Не используйте дешевых копирайтеров с биржи за 20 рублей/1000 знаков
  • Не доверяйте автопереводам — Google их палит

❌ ЧЕГО НЕ ДЕЛАТЬ:

  • Тексты типа: «Купить окна Москва недорого пластиковые окна купить установка окон Москва дешево»
  • Автогенерация через синонимайзеры и рерайтеры
  • Дорвеи с кучей страниц под каждый запрос

💡 ГЛАВНЫЙ ВЫВОД:

Google проверяет две вещи:
  1. Звучит ли текст по-человечески (через языковую модель)
  2. Не набит ли он поисковыми запросами (через сравнение с базой запросов)
Если хотя бы одна проверка провалена - страница улетает вниз или вообще из выдачи.

📝 ПРОСТОЙ ТЕСТ:

Дайте прочитать текст человеку, который не в теме. Если он скажет "что за бред?" - переписывайте. Google думает примерно так же.

ОПИСАНИЕ ПАТЕНТА US8554769B1

Патент описывает систему Google для выявления "gibberish" (бессмысленного/мусорного) контента в веб-ресурсах.
Решаемая задача: Идентификация спам-страниц с бессмысленным текстом, созданным для манипуляции поисковой выдачей.
Основные компоненты системы:
  • Language Model Component — анализирует естественность языка через n-gram модели
  • Query Stuffing Detector — определяет «напичканность» страницы поисковыми запросами
  • Gibberish Score Calculator — комбинирует оценки для финального решения
Входные данные:
  • Веб-ресурс с текстовым контентом и HTML-разметкой
  • Query index (индекс реальных запросов пользователей)
  • Языковая модель (n-gram, в примерах используется 5-gram)
Выходные данные:
  • Gibberish score (оценка «мусорности» контента)
  • Решение о модификации ранжирования ресурса

2. ОБЛАСТЬ ПРИМЕНЕНИЯ И ОГРАНИЧЕНИЯ

2.1 НА ЧТО НАПРАВЛЕН ПАТЕНТ

Конкретные типы контента:
  • Веб-страницы с текстовым содержимым
  • HTML-документы с различными тегами (h1, p, и др.)
  • Страницы на разных языках (патент упоминает выбор соответствующей языковой модели)
Типы спам-контента, которые выявляет:
  • Контент, созданный низкоквалифицированной рабочей силой
  • Скрапинг с случайной модификацией и сплайсингом
  • Низкокачественные автопереводы

2.2 УСЛОВИЯ ПРИМЕНЕНИЯ

Обязательные условия:
  • Наличие текстового контента в ресурсе
  • Возможность парсинга HTML-структуры
  • Доступность языковой модели для языка контента
  • Существование query index с историей запросов
Триггеры активации:
  • Патент не указывает специфические триггеры — похоже, применяется ко всем индексируемым ресурсам

2.3 ЧТО НЕ ПОКРЫВАЕТ

Патент явно не упоминает работу с:
  • Чисто визуальным контентом (изображения без текста)
  • Видео и аудио контентом
  • Документами других форматов (PDF, DOCX и т.д.)
  • Контентом мобильных приложений
  • Структурированными данными (таблицы, базы данных)

3. КАК РАБОТАЕТ АЛГОРИТМ

Пошаговый процесс:
  1. Получение ресурса (202) - система получает веб-ресурс с текстовым контентом
  2. Парсинг контента (204) - разбор на текстовые сегменты:
    • Использование HTML-тегов для идентификации структуры
    • Фильтрация коротких фрагментов (меню, навигация)
    • Удаление стоп-слов и редких терминов
  3. Расчет Language Model Score (206):
    • Применение n-gram модели к каждому сегменту
    • Вычисление вероятности: p(e1, e2,…, ek) = ∏p(ei|ei-n+1,…,ei-1)
    • Нормализация по длине сегмента
    • Определение доли gibberish-сегментов
  4. Расчет Query Stuffing Score (208):
    • Идентификация наиболее частотных терминов
    • Поиск совпадений с query index
    • Вычисление hit ratio для каждого термина
    • Расчет среднего и максимального hit ratio
  5. Вычисление Gibberish Score (210):
    • Выбор минимума между Language Model Score и Query Stuffing Score
  6. Принятие решения (212):
    • score ≤ threshold1: удаление из индекса
    • threshold1 < score < threshold2: применение понижающего веса
    • score ≥ threshold2: без изменений

4. ЧТО СОБИРАЕТ/АНАЛИЗИРУЕТ (ДЕТАЛЬНО)

4.1 ВХОДНЫЕ ДАННЫЕ

Контентные факторы:
  • Полный текст страницы
  • Отдельные параграфы и предложения
  • Последовательности слов (n-граммы)
  • Частотность терминов
Технические факторы:
  • HTML-теги и их структура
  • Длина текстовых сегментов
  • Размер параграфов
Внешние данные:
  • Query log за определенный период (например, месяц)
  • Предобученная языковая модель
  • Индекс запросов с ключами

4.2 МЕТРИКИ И ВЫЧИСЛЕНИЯ

Language Model метрики:
Segment_score = p(word_sequence) / segment_length
LM_score = f(gibberish_terms/total_terms) × Σ(gibberish_segment_scores)
Query Stuffing метрики:
Hit_ratio = matched_queries / total_queries_for_key
Query_stuffing_score = f(avg(hit_ratios), max(hit_ratios))
Пороговые значения:
  • Порог для определения gibberish-сегмента (не указан конкретно)
  • Threshold1 для удаления из индекса
  • Threshold2 для применения веса

4.3 СПОСОБЫ ОБРАБОТКИ

  • N-gram анализ: 5-gram модель для оценки естественности
  • Статистический анализ: частотность терминов, hit ratios
  • Нормализация: деление на длину для сравнимости оценок
  • Фильтрация: удаление стоп-слов, очень частых и редких терминов

5. УРОВЕНЬ АРХИТЕКТУРЫ

🔸 Нижний уровень - патент работает на этапе первичной оценки качества контента, собирая сигналы о "мусорности" текста

6. ПРАКТИЧЕСКИЕ ВЫВОДЫ ДЛЯ SEO

6.1 ПРЯМЫЕ ВЫВОДЫ

Конкретные рекомендации из патента:
  1. Пишите естественным языком - алгоритм проверяет вероятность последовательностей слов через языковую модель
  2. Избегайте query stuffing - не вставляйте множество поисковых запросов в текст без контекста
  3. Контролируйте частотность ключевых слов - алгоритм анализирует наиболее частые термины и их контекст
  4. URL-запросы защищены - даже если страница помечена как gibberish, она показывается при прямом запросе URL

6.2 КОСВЕННЫЕ ВЫВОДЫ

  • Google использует исторические данные запросов для оценки контента
  • Система работает на уровне параграфов и предложений, а не только всей страницы
  • Качество перевода критично — плохие автопереводы могут быть помечены как gibberish

6.3 ПРАКТИЧЕСКИЕ ПРИМЕРЫ

Безопасные практики:
  • Создание оригинального контента с естественной структурой предложений
  • Использование ключевых слов в контексте, а не списками
  • Проверка читабельности текста перед публикацией
Опасные практики (прямо из патента):
  • Использование «low-cost untrained labor» для создания контента
  • «Scraping content and modifying and splicing it randomly»
  • Некачественный перевод с других языков
  • Создание страниц с «high value keywords» без полезного контента
Конкретный пример:
Если страница содержит фразы типа "купить телефон Москва дешево iPhone Samsung купить смартфон недорого" - это явный query stuffing, который будет обнаружен алгоритмом через высокий hit ratio в query index.



Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *