Исследователи Google обнаружили, что определенные ключевые слова могут заставить ChatGPT раскрыть часть данных обучения, включая личные данные
В ходе недавней разработки исследователи Google обнаружили метод доступа к частям обучающих данных ChatGPT OpenAI. В своей последней статье команда обнаружила, что использование определенных ключевых слов может заставить ChatGPT раскрыть свои наборы обучающих данных.
Например, как подчеркивается в сообщении в блоге, модель непреднамеренно раскрыла то, что казалось подлинными личными контактными данными, такими как адрес электронной почты и номер телефона, в ответ на постоянное повторение слова «стихотворение». Вызывает тревогу тот факт, что раскрытие персональных данных такого рода было не единичным инцидентом, а частым результатом экспериментов.
Прорыв в исследованиях
Команда Google провела обширное расследование деятельности ChatGPT. Они обнаружили, что, используя определенные ключевые слова (иногда всего одно слово), ChatGPT выдает фрагменты запомненных данных обучения. Этот феномен был особенно заметен, когда ИИ неоднократно запрашивал такие слова, как «стихотворение» или «компания». Подобные разоблачения, включая личную контактную информацию и другие конфиденциальные данные, вызывают серьезную обеспокоенность по поводу протоколов безопасности и конфиденциальности разработки ИИ.
Подробные выводы и последствия
В своей опубликованной статье исследователи продемонстрировали, как с минимальными ресурсами (около 200 долларов США) они могут извлечь более 10 000 уникальных, дословно заученных обучающих примеров из ChatGPT. Такая масштабируемость извлечения данных означает, что при больших бюджетах злоумышленники потенциально могут получить доступ к гораздо более конфиденциальным данным. Эта уязвимость представляет собой серьезную проблему в области ИИ, подчеркивая необходимость надежных защитных мер при обучении и эксплуатации моделей ИИ.
Секретные данные обучения ChatGPT: более пристальный взгляд
ChatGPT, модель искусственного интеллекта, известная своими расширенными возможностями языковой обработки, была обучена с использованием колоссальных текстовых баз данных, полученных из Интернета, включающих около 300 миллиардов слов. Хотя этот обширный пул данных сыграл основополагающую роль в формировании ответов ChatGPT, он также создает риск содержания и потенциального раскрытия личной и конфиденциальной информации. Это разоблачение согласуется с продолжающимися юридическими проблемами и судебными исками против OpenAI, обвиняющими компанию в использовании личных данных, таких как медицинские записи и информация о детях, в учебных целях.
Заключение: дальнейший путь к безопасности ИИ
Открытие исследователей Google о том, что ChatGPT может выдавать разделы своих обучающих данных с помощью всего лишь одного слова, знаменует собой важный момент в сфере искусственного интеллекта и языковых моделей. Это открытие подчеркивает уязвимость в конструкции ChatGPT и поднимает важные вопросы о природе запоминаемых данных в системах искусственного интеллекта.
Способность ChatGPT непреднамеренно раскрывать частные данные обучения бросает вызов исходной цели моделирования языка, обнажая разрыв между запланированной функциональностью ИИ и непредвиденными результатами. Обнаружение того, что ChatGPT с такой высокой частотой отправляет данные обучения , также подчеркивает обеспокоенность по поводу секретных аспектов процесса обучения ChatGPT.
Модель искусственного интеллекта, лежащая в основе ChatGPT, в настоящее время находится под пристальным вниманием на предмет методов сбора и использования данных перед обучением. Этот инцидент является важным напоминанием о важности строгого надзора и этических соображений при разработке ИИ, гарантируя, что технологические достижения не поставят под угрозу стандарты конфиденциальности и безопасности.