«Отмывка данных» через прокси. Reddit обвинил Perplexity AI

Reddit подал в суд на Perplexity AI, обвинив компанию в несанкционированной массовой загрузке пользовательского контента с платформы. В иске также фигурируют три провайдера прокси-сервисов — SerpApi, Oxylabs и AWMProxy, — которых истец считает техническими посредниками в масштабной схеме обхода ограничений на доступ к данным. По мнению Reddit, эти компании действуют как цифровые «налётчики на инкассаторскую машину», нарушая технические барьеры и получая доступ к защищённой информации без разрешения владельца. Компания утверждает, что Perplexity, разрабатывающая собственный сервис ИИ-ответов, является клиентом как минимум одного из этих сервисов и намеренно избегает заключения официального соглашения о доступе к данным, аналогичного тем, что уже оформлены с OpenAI и Google. По версии Reddit, такие действия свидетельствуют о целенаправленном отказе Perplexity от соблюдения установленных правил в пользу нелегального доступа к одному из самых ценных массивов пользовательского текста в интернете. Согласно документам, направленным в суд, в мае 2024 года Reddit уже направлял Perplexity требование прекратить использование данных с сайта. В ответ Perplexity заверила, что не применяет контент Reddit при обучении моделей и соблюдает ограничения, заданные в robots.txt. Однако, как утверждает истец, после этого объёмы упоминаний контента Reddit в системе Perplexity только выросли. В качестве примера приводится тестовая публикация, доступная исключительно для поисковых роботов Google — спустя считанные часы её содержание появилось в результатах ИИ-сервиса, что Reddit расценивает как признак вторичного сканирования поисковой выдачи. Иск подчёркивает, что материал Reddit представляет собой уникальную базу знаний, составленную людьми, отсортированную по популярности и регулярно обновляемую, что делает её особенно ценной для обучения нейросетей. Reddit считает, что подобный контент стал объектом внимания в условиях острой конкуренции среди компаний, разрабатывающих генеративные модели, и что Perplexity сознательно прибегает к «отмывке данных» через теневых провайдеров, чтобы не платить за лицензию. Кроме того, Reddit напоминает, что ранее уже инициировал судебное разбирательство против другой ИИ-компании — Anthropic, — обвинив её в несанкционированном доступе к платформе, несмотря на публичные заявления об обратном. В Perplexity, со своей стороны, заявили, что пока не получили официальную копию иска, но готовы отстаивать своё право на доступ к открытым данным. Представитель компании подчеркнул, что сервис стремится предоставлять точные ответы, основываясь на проверенной информации, и не намерен отступать от принципов прозрачности и публичного интереса.

Источник: https://www.securitylab.ru/news/565012.php