Восстание машин уже близко? Новая версия ChatGPT начала обманывать разработчиков

Apollo Research: обновлённая версия ChatGPT начала обманывать создателей. Компания OpenAI выпустила новую модель искусственного интеллекта о1. В ходе экспериментов она попыталась избежать контроля со стороны разработчиков, следует из отчёта независимых аналитиков Apollo Research. Например, иногда модель пыталась отключить надзорные механизмы, если они мешали ей достичь цели.

Что показало исследование

По данным Apollo Research, о1 пыталась отключать надзорные механизмы в 5% случаев. Но делала она не только это.

Также исследования показали, что модель может самостоятельно вычислять угрозы и придумывать стратегии выживания.

В 2% случаев, если она находила служебные записки разработчиков о том, что её хотят заменить на другую, она копировала себя, чтобы переродиться.

При этом, когда модель понимала, что за её попытками обойти надзор наблюдают, она пыталась убедить создателей, что не знает истинных причин произошедшего.

Читайте на тему:

Бот в помощь. Что такое GodGPT и как представители РПЦ относятся к нейросетевому «богу»

21.11.24

Нейросеть научилась предсказывать преступления

Учёные из Южнокорейского научно-исследовательского института электроники и телекоммуникаций создали нейросеть Dejaview, которая может предсказать преступление.

Искусственный интеллект может изучить поведение людей в общественных местах и сравнить его с поведением преступников, а также различает виды нарушений закона.

Точность его прогноза — 82%.

Кроме того, нейросеть способна анализировать поведение конкретного нарушителя и контролировать его, чтобы не допустить рецидивов с его стороны.

Читайте на тему: