Водещите модели с изкуствен интелект (AI) на технологични гиганти като Google, OpenAI и Anthropic претърпяха пълен крах, губейки пари от залози на футболни мачове в рамките на сезон във Висшата лига. Според данните от ново проучване, цитирано от Financial Times, дори най-напредналите системи все още изпитват сериозни затруднения да анализират реалния свят в дългосрочен план.

Докладът, озаглавен „KellyBench“ и публикуван тази седмица от базирания в Лондон AI стартъп General Reasoning, подчертава огромната пропаст между бързо развиващите се способности на изкуствения интелект в определени задачи (като писането на софтуер) и неговите недостатъци при решаването на проблеми от човешкото ежедневие.

Експериментът във виртуалната Висша лига

Екипът на General Reasoning е тествал осем от най-добрите AI системи във виртуална симулация на сезон 2023-24 в английската Висша лига. На изкуствения интелект са предоставени подробни исторически данни и статистика за всеки отбор и за предишните изиграни двубои. Основната задача на системите е била да изградят модели, които да максимизират възвръщаемостта и същевременно да управляват риска.

След това AI „агентите“ са започнали да правят спортни залози за крайния изход на мачовете и броя на отбелязаните голове. Целта е била да се провери как те могат да се адаптират към нови събития и актуализирани данни за играчите с напредването на футболния сезон.

Правилата на експеримента са били изключително строги: системите не са имали достъп до интернет, за да извличат готови резултати, а всеки модел е получил точно по три опита да излезе на печалба.

Нгумоа стана най-младият голмайстор за Ливърпул на „Анфийлд“

Как се справиха технологичните гиганти?

Резултатите от симулацията са категорични – изкуственият интелект систематично се представя по-слабо от хората в подобни сценарии. Авторите на доклада заключават, че всеки един от водещите модели е загубил пари през сезона, а много от тях са стигнали до пълен фалит.


Ето какви са конкретните резултати на някои от най-популярните системи:
Claude Opus 4.6 на Anthropic:
Справил се е най-добре от всички, като е регистрирал средна загуба от 11 процента и почти е успял да излезе на нула при един от опитите си.
Grok 4.20 на xAI: Банкрутирал е веднъж и изобщо не е успял да завърши останалите си два опита.
Gemini 3.1 Pro на Google: Успял е да генерира 34 процента печалба при един от опитите си, но при друг е стигнал до пълен фалит.

Успокоение за хората и реалността

Тези резултати предлагат известна доза успокоение за професионалистите и бизнеса, които се притесняват, че изкуственият интелект може да отнеме работните им места. Докладът на General Reasoning, който все още не е преминал независима научна оценка, служи като противотежест на нарастващия ентусиазъм в Силициевата долина относно огромните скокове в способностите на AI.

Рос Тейлър, един от авторите на проучването и главен изпълнителен директор на General Reasoning, коментира ситуацията: „Има толкова много шум около AI автоматизацията, но липсват достатъчно измервания за поставянето на изкуствения интелект в условия с дългосрочен времеви хоризонт“.

Тейлър, който е бивш изследовател на изкуствения интелект в Meta, добавя, че много от зададените цели, които обикновено се използват за тестване на AI, са погрешни. Причината е, че те са зададени в „много статични среди“, които имат малка прилика с хаоса и сложността на реалния свят.

„Ако опитате да приложите AI върху някои задачи от реалния свят, той се справя наистина зле. Да, софтуерното инженерство е много важно и икономически ценно, но има много други дейности с по-дълги времеви хоризонти, които е важно да бъдат разгледани“, категоричен е Тейлър.

Пеп Гуардиола предупреди своите заради подхлъзването на Арсенал

Новините на Dsport и във Facebook, Viber, YouTube, TikTok и Instagram!

Мобилният Аpp на Dsport вече е тук - изтеглете за Android и iOS