вологість:
тиск:
вітер:
Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты
Самые современные модели искусственного интеллекта решили лишь 2% сложных математических задач, разработанных ведущими математиками мира.
Если в предыдущих тестах MMLU MMLU (Measuring Massive Multitask Language Understanding) — это стандартный набор тестов для оценки возможностей моделей искусственного интеллекта. Тесты охватывают более 57 предметных областей, включая математику, физику, историю, право, медицину и другие науки. Их используют для сравнения различных моделей ИИ и оценки их способности понимать и применять знания в различных сферах. модели ИИ успешно решали 98% математических задач школьного и университетского уровня, то с новыми задачами ситуация кардинально иная.
«Эти задачи чрезвычайно сложные. Сейчас их можно решить только с участием специалиста в этой области или с помощью аспиранта в смежной сфере в сочетании с современным ИИ и другими алгебраическими инструментами», — отметил лауреат Филдсовской премии 2006 года Теренс Тао.
В исследовании протестировали шесть ведущих моделей ИИ. Gemini 1.5 Pro (002) от Google и Claude 3.5 Sonnet от Anthropic показали лучший результат — 2% правильных ответов. Модели o1-preview, o1-mini и GPT-4o от OpenAI справились с 1% задач, а Grok-2 Beta от xAI не смогла решить ни одной задачи.
FrontierMath охватывает различные математические области — от теории чисел до алгебраической геометрии. Все тестовые задания доступны на сайте Epoch AI . Разработчики создали уникальные задачи, которых нет в учебных данных моделей ИИ.
Исследователи отмечают, что даже когда модель давала правильный ответ, это не всегда свидетельствовало о правильности рассуждений — иногда результат можно было получить через простые симуляции без глубокого математического понимания.
Люди не отличают стихи ChatGPT от поэзии Шекспира и Байрона (исследование)
Источник: Livescience
Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.
Джерело: itc.ua (Наука)Новини рубріки
Учені випробували ацтекські свистки смерті на сучасних людях
21 листопада 2024 р. 02:29
NASA створює платформу для прогнозування підвищення рівня моря до 2150 року
21 листопада 2024 р. 02:20
NASA зафіксувало руйнування подвійної зірки чорної діри в епічному зіткненні
21 листопада 2024 р. 02:17