Гуглевский сервис Copyscape(http://www.copyscape.com/), который позволяет искать страницы, содержащие текст (часть текста) со страницы-оригинала (должна быть доступна в сети). Т.е. для копирайтеров и редакторов веб-изданий этот сервис неоценим. Интересно, как это сделано, хотя выглядит все очень просто и изящно. Действительно ищет, и даже - части текста.
Какой-то алгоритм поиска весов слов что ли... Работает он практически с любым языком.
Вроде как берется несколько фраз из страницы и они ищутся через Google. За объемные страницы уже надо быть пользователем со статусом "pro" - и за это надо будет платить.