Не смогли отличить от человека: GPT-4 прошла тест Тьюринга
Мультимодальная большая языковая модель (LLM) GPT-4, созданная компанией OpenAI, вероятно, прошла тест Тьюринга, с помощью которого участники эксперимента должны были определить, кто с ними взаимодействует — реальный человек или компьютерная программа, рассказали исследователи из Калифорнийского университета в Сан-Диего.
Ученые решили повторить известный тест, предложенный в 1950 году британским математиком, «отцом информатики» Аланом Тьюрингом (многие могут знать его по абстрактной вычислительной «машине Тьюринга», которую принято считать моделью компьютера общего назначения). Они попросили 500 человек пообщаться с четырьмя респондентами, среди которых были как человек, так и программа искусственного интеллекта 1960-х годов ELIZA, а также GPT-3,5 и GPT-4. Последняя была представлена OpenAI в марте 2023 года.
В ходе пятиминутной беседы участники должны были ответить, считают ли они, что коммуницируют с искусственным интеллектом или нет. В 54% случаев проходившие тестирование заявили, что GPT-4 является человеком. При этом GPT-3,5 набрала 50% тех же ответов, ELIZA — 22%. После общения с реальным человеком участники эксперимента в 67% случаев склонялись к тому, что разговор велся между людьми.
«Они [машины] могут быть подвержены когнитивным искажениям, ими можно манипулировать, и они становятся все более обманчивыми, — заявила исследовательница искусственного интеллекта из Института инженеров электротехники и электроники (IEEE) Нелл Уотсон в разговоре с Live Science. — Все эти элементы означают, что в системах искусственного интеллекта проявляются человекоподобные слабости и причуды, что делает их более человекоподобными, чем предыдущие подходы, которые представляли собой немногим больше, чем список готовых ответов».
Это исследование, по мнению Уотсон, представляет собой проблему для будущего взаимодействия человека и машины и лишний раз подчеркивает, как изменился ИИ в эпоху GPT. «Языковые модели бесконечно гибки, способны синтезировать ответы на широкий круг тем, говорить на определенных языках или социолектах и демонстрировать себя с учетом характера и ценностей», — отметила она.
Как бы то ни было, специалисты, отвечавшие за эксперимент, констатируют, что тест Тьюринга не предоставляет достаточные доказательства интеллекта, а в лучшем случае обеспечивает вероятностную поддержку. Участники эксперимента были сосредоточены на языковом стиле и социально-эмоциональных факторах (почему, собственно, и говорили, что ведут диалог с человеком), чем на более традиционных представлениях об интеллекте, таких как логические рассуждения.
«На самом деле, в реальном мире люди могут быть менее осведомлены о возможности того, что они разговаривают с системой искусственного интеллекта, поэтому уровень обмана может быть еще выше, — заявил соавтор исследования Кэмерон Джонс. — Я думаю, это может иметь последствия для того, для чего будут использоваться системы искусственного интеллекта, будь то автоматизация работы с клиентами или использование для мошенничества или дезинформации».
Результаты теста Тьюринга показывают, что LLM (особенно GPT-4) стали едва отличимы от людей во время коротких переписок в чате. Вероятно, это только повысит уровень недоверия к тем, с кем мы взаимодействуют онлайн.
Ученые при этом не планируют останавливаться: они хотят испытывать языковую модель и дальше. «Мы заинтересованы в запуске версии игры для трех человек, где допрашивающий разговаривает с человеком и системой искусственного интеллекта одновременно и должен выяснить, кто есть кто», — поведал Джонс.
Ранее RTVI.US рассказывал, что конгрессменам запретили пользоваться ИИ-помощником от Microsoft из-за «рисков утечки».