Вештачка интелигенција научила је да игра и покер: Не само да је победила најбоље покераш на свету, већ уме и да блефира

Застрашујуће...

BUKA portal / 19. август 2019

(Facebook AI Research)

 

За 14 година колико професионално игра покер, Дерен Илајас никада се није суочио ни са ким ко игра тако неустрашиво.

Типични покераш би када му поделе два жандарма – једног отвореног, другог сакривеног, рука ни добра ни лоша – наставио да игра са опрезом. Али не и Илајасов противник; чинило се да добро зна шта ради. Чак и када је Илајас одлучио да блефира, противник је пратио улог. Напослетку је и победио. Још фасцинантније: овај противник је била машина.

Аутоматизовани играч покера назван Плурибус дизајнирали су истраживачи са Универзитета Карнеги Мелон у Пенсилванији и Фејсбукова лабораторија за вештачку интелигенцију у Њујорку.

У тексту објављеном 11. јула у часопису Сциенце, истраживачи су објаснили како је Плурибус победио Илајаса и још неколико других елитних професионалаца у игри „Теxас Холд ‘Ем“, најпопуларнијој врсти покера.

Истраживачи су у последњих тридесет година изградили системе који успевају да поразе најбоље играче у шаху, игри „Го“, па чак и телевизијским квизовима. Али за разлику од ових игара, покер се темељи на скривеним информацијама. Сваки играч у рукама држи карте које противник не сме да види.

Плурибус је знао када треба да блефира, када да прати улог и када да промени понашање тако да други играчи не могу да докуче његову стратегију.

“Он ради све оно што раде најбољи играчи на свету”, каже Илајас (32), четвороструки освајач титуле на Светском првенству у покеру. “Ради, додуше, и неке ствари које људи не умеју.”

Стручњаци сматрају да би технике које покрећу овај и сличне системе могле да се успешно користе на Волстриту, аукцијама, у политичким преговорима и сајбер безбедности, односно активностима које, као и покер, подразумевају скривене информације.

Плурибус је научио нијансе у игрању „Теxас Холд’ Ем“ тако што је билионе партија одиграо против себе. После сваке руке извршио би евалуацију одлука и одредио да ли би другачији избор довео до бољег резултата.

Системима који бриљирају у тродимензионалним видео-играма попут „СтарЦрафт“ потребне су недеље, чак месеци да би научили како да играју против људи. Плурибус је вежбао свега осам дана на потпуно обичном компјутеру вредном 150 долара. Тежи део било је стварање детаљног алгоритма који је анализирао последице сваке одлуке коју систем донесе.

Плурибус је на крају научио како да примени комплексне стратегије, укључујући блефирање и непредвидивост у реалном времену. Потом је, док је играо против људи, брусио стратегије тако што је унапред анализирао могуће исходе.

Све партије одигране су онлајн, тако да систем није могао да дешифрује емоционални одговор или гестикулацију својих противника. Успех Плурибуса је показао да се покер може свести на просту математику, каже Илајас. “Чисти бројеви и проценти.”

Недељник


Бука препорука

Наука и технологија

Најновије

Посматрајте догађаје изблиза.

Пријавите се на наш Newsletter.