Извините, но я продолжаю видеть посты подобного рода, поэтому мне нужно прояснить. Мы знаем, что ЛМ обратимы уже ДВА ГОДА. Я показал это во время своей аспирантуры. Цитируемая статья добавляет некоторые сложные расширения, но "Обратимость языковой модели" (Моррис и др., ICLR 2024) сделала это первой :)
Alex Imas
Alex Imas29 окт., 10:59
Чёрт возьми. Этот документ безумный. Вы можете восстановить входной текст из LLM через инверсию. Огромные последствия для того, как мы понимаем эти модели, а также для таких вещей, как конфиденциальность.
- вы можете восстановить подсказки только из выходных данных, если у вас достаточно времени для выборки - вы можете восстановить их быстрее, используя бинарный поиск по API, если он позволяет параметр 'logit bias' - есть классное расширение в (Finlayson et al., 2024): вы можете восстановить *последний слой самой модели*
Инверсия языковой модели
Логиты API-защищенных LLM утечка конфиденциальной информации
360