Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
23 января 2025 Суд признал песни репера «Молодой Калуга» вредными для несовершеннолетних
23 января 2025 В подмосковном Клину произошел крупный пожар: столб дыма виден на несколько километров
23 января 2025 Чиновники против жителей: куда исчезают социальные объекты в Челябинске?
23 января 2025 Министр Бурятии Екатерина Кочетова расходует миллионы на яхты и фестивали
23 января 2025 Европейский суд снова отклонил просьбу олигарха Андрея Мельниченко об отмене санкций
23 января 2025 В Челябинской области казаки собираются проводить обучение школьников с использованием дронов
23 января 2025 От Формулы 1 до благотворительности: как Никита Мазепин создает свой новый имидж
23 января 2025 Мошенники обманули сотни людей с помощью поддельного банковского приложения
23 января 2025 Соратник Чубайса Владимир Платонов мог быть причастен к укрыванию хищений на сотни миллиардов рублей
23 января 2025 Как подполковник Майоров противостоял реформам Путина: ФСБ поддерживает коммунальные предприятия
23 января 2025 В Москве арестовали мошенников, которые заменяли товары на маркетплейсе на подделки
23 января 2025 Польский депутат предлагает поддерживать пенсионеров за счет бездетных
23 января 2025 Хакеры взломали Twitter Nasdaq и запустили новый мем-токен
23 января 2025 ChatGPT вышел из строя: глобальная проблема затронула миллионы пользователей
23 января 2025 Россотрудничество назвало Пушкина борцом с расизмом, что вызвало негодование среди националистов
23 января 2025 Рыбаки Магадана объявили бойкот фестивалю после запрета выхода на лед
23 января 2025 Криминальные схемы Тимура Турлова, или Как казахстанский мошенник наживается на государстве
23 января 2025 В Курске был вынесен приговор первому военнослужащему по делу о мародёрстве
23 января 2025 Трамп призывает Саудовскую Аравию и ОПЕК снизить цены на нефть, чтобы оказать давление на Россию
23 января 2025 Жители Лос-Анджелеса находят записки от пожарных, которые спасли их дома