Самое сложное испытание, когда-либо созданное для ИИ — последний экзамен человечества — возможно, скоро будет преодолено

Искусственный интеллект развивается ошеломляющими темпами, и теперь исследователи подвергают его испытанию, которое они называют «Последний экзамен человечества » (Humanity’s Last Exam, HLE), — испытанию, призванному проверить модели ИИ с помощью самых сложных академических вопросов, которые когда-либо были составлены. Эксперты прогнозируют, что в течение следующего года ИИ сможет значительно повысить свою точность, приблизив ее к овладению знаниями на уровне человека.

Экзамен, созданный для того, чтобы превзойти ИИ

В отличие от стандартных оценок, HLE — это не просто очередной набор рутинных вопросов. Он был создан специалистами Центра безопасности искусственного интеллекта и Scale AI, коммерческой компании, которая сотрудничает с крупными технологическими фирмами для совершенствования данных для обучения искусственного интеллекта. Их цель? Разработать настолько сложный тест, чтобы даже самые продвинутые большие языковые модели (LLM), такие как ChatGPT, Gemini и DeepSeek, не смогли получить оценку выше неудовлетворительной.

HLE использует более 2 700 вопросов, присланных экспертами, которые охватывают дисциплины от математики и медицины до инженерных и гуманитарных наук. Все вопросы, на которые современные модели искусственного интеллекта могут легко ответить, были отброшены. Вместо этого на экзамене рассматриваются задачи, требующие более глубоких рассуждений, специальных знаний и сложных интерпретаций — то, с чем ИИ традиционно не справляется.

Результаты на данный момент? Модели искусственного интеллекта потерпели поражение, набрав от 3 до 14 процентов. Но, возможно, это ненадолго.

Модели искусственного интеллекта стремительно совершенствуются

Согласно последнему исследованию, к концу 2025 года магистранты смогут достигать по крайней мере 50-процентной точности при прохождении теста. Это огромный скачок, учитывая сложность вопросов.

По словам исследователей:

«HLE разрабатывается на глобальном уровне экспертами в предметной области и состоит из вопросов с несколькими вариантами ответов и коротких ответов, пригодных для автоматического оценивания. Каждый вопрос имеет известное решение, которое является однозначным и легко проверяемым, но на которое нельзя быстро ответить с помощью поиска в Интернете».

Тест построен следующим образом:

  • 41% математика
  • 11% Биология и медицина
  • 10% Компьютерные науки
  • 9% Физика
  • 9% Гуманитарные и социальные науки
  • 6% Химия
  • 5% Инженерия
  • 9% Другие темы

Среди примеров задач, с которыми сталкиваются магистры, — перевод древнеримских надписей, выявление недостающих звеньев в химических реакциях и решение сложнейших математических уравнений. Один из вопросов даже спрашивает ИИ о самом себе — проверяет, действительно ли он понимает свои собственные ограничения.

Следующий шаг ИИ: Распознавание неопределенности

Один из самых больших недостатков ИИ — излишняя самоуверенность: он часто дает ответ, даже не имея представления о том, верен ли он. Чтобы решить эту проблему, исследователи обучают модели ИИ оценивать собственную неуверенность, заставляя их оценивать уровень уверенности перед ответом.

На следующем этапе развития ИИ модели будут не только давать ответы, но и оценивать степень уверенности от 0 до 100 процентов. Идея состоит в том, чтобы уйти от слепого угадывания и перейти к подходу, который отражает человеческую неуверенность — когда признание «я не знаю» иногда является лучшим ответом.

Результаты HLE проверяются другой моделью ИИ, GPT-40, которая проверяет, сохраняются ли незначительные вариации правильного ответа. Это похоже на то, как участник игры Jeopardy! может ответить «T. rex» вместо «Tyrannosaurus rex» и все равно получить очки.

История показывает, что модели ИИ быстро преодолевают контрольные точки, иногда переходя от почти нулевой точности к почти идеальным показателям всего за несколько циклов обучения. Сегодняшние магистранты не справляются с HLE, но, возможно, это лишь вопрос времени, когда они взломают код.

Что это означает для будущего, еще предстоит обсудить. Станет ли искусственный интеллект идеальным научным инструментом, способным ответить на любой вопрос с почти идеальной точностью? Или же исследователи продолжат повышать планку, гарантируя, что человеческий интеллект останется впереди?

По мере совершенствования ИИ, его способность решать сложнейшие задачи, ранее под силу только человеку, вызывает вопросы о будущем труда и образования. Если ИИ сможет уверенно справляться с вопросами, требующими глубоких знаний и рассуждений, потребность в человеческом экспертном мнении в определенных областях может уменьшиться. Это потребует переосмысления образовательных программ и профессиональной подготовки, чтобы сосредоточиться на навыках, которые ИИ пока не может воспроизвести, таких как критическое мышление, творчество и эмоциональный интеллект.

Влияние HLE выходит за рамки академической сферы. Способность ИИ оценивать свою собственную неуверенность имеет огромное значение для отраслей, требующих принятия критически важных решений, таких как здравоохранение и финансы. Если ИИ сможет точно определять, когда он не знает ответа, это может предотвратить ошибки и повысить надежность автоматизированных систем.

Однако, несмотря на быстрый прогресс, важно помнить, что ИИ все еще остается инструментом. Его возможности ограничены данными, на которых он обучен, и алгоритмами, которые им управляют. HLE — это ценный инструмент для выявления этих ограничений и направления будущих исследований.

В конечном счете, цель состоит не в том, чтобы заменить человеческий интеллект, а в том, чтобы расширить его возможности. ИИ может стать мощным помощником, способным обрабатывать огромные объемы информации и выявлять закономерности, которые люди могут упустить. Работая вместе, люди и ИИ могут решать самые сложные проблемы, стоящие перед обществом.

  • Похожие статьи

    Свет вместо тока: революционный фотонный чип для ИИ вышел в производство

    Немецкая компания Q.ANT начала опытное производство принципиально нового типа процессоров для центров обработки данных — фотонных чипов, работающих на свету вместо электричества. Эта технология обещает 30-кратный рост энергоэффективности и 50-кратное ускорение вычислений по сравнению…

    ИИ делает нас ленивыми: как ChatGPT убивает критическое мышление

    Искусственный интеллект постепенно ослабляет наши когнитивные способности, делая пользователей менее склонными к анализу и самостоятельным рассуждениям. К такому выводу пришли исследователи из Microsoft и Университета Карнеги-Меллон, изучив, как профессионалы из…

    Добавить комментарий