Несмотря на то, что существует такой прекрасный метод создания уникального контента, как рерайтинг (не говоря уже о создании уникального контента с нуля), в сети интернет все еще присутствует огромное количество дубликатов, нарушающих законные права их создателей на размещение исключительно на своих ресурсах.
Дубликаты разделяют на полные и нечеткие.
Полные дубликаты — это документы (часть контента сайта или весь контент целиком), которые поисковые системы считают уникальными, но каждый пользователь может легко заметить их совпадение.
Нечеткие дубликаты имеют незначительные отличия даже для визуального восприятия пользователя в виде перестановки блоков навигации, новостей или других элементов сайта.
Существует немало подходов к дублированию информации, а следовательно можно дифференцировать несколько источников дубликатов контента.
Как видим, методов создания дублей весьма немало.
Для того, чтобы бороться с дубликатами, нужно сначала научиться определять их, отличать от уникального контента в сети.
Существует немало синтаксических и лексических методов определения дубликатов в сети, на которых основаны современные программы по вычислению копий исходного документа или страницы в Интернете.
Рассмотрим наиболее популярные из них.