Artificiell intelligens, i synnerhet förstärkningsinlärning (eng. reinforcement learning (RL)), erbjuder stor potential vad gäller anpassningsförmåga, optimering och autonomt agerande. RL-metoder lär sig genom interaktion med omgivningen, men står inför utmaningar i asymmetriska situationer med heterogena agenter. Mångfalden av agenter ökar komplexiteten avsevärt, vilket försvårar inlärningen av effektiva strategier och leder till skalbarhetsproblem. Dessutom är RL:s prestanda starkt beroende av träningsdata, som i verkliga tillämpningar kan vara svår, dyr och riskfylld att samla in. Träning sker därför oftast i simulering, men skillnader mellan simulerade och verkliga miljöer kan leda till försämrad prestanda efter driftsättning. För att hantera detta krävs att agenter snabbt kan anpassa sig till nya förutsättningar, vilket är särskilt utmanande i komplexa och oförutsägbara situationer.
Operationsanalytiska metoder, såsom matematisk optimering och heuristiker, kräver ingen träning av agenter och är mindre beroende av stora datamängder. Dessa modeller kan konstrueras för att vara robusta mot osäkerhet och variationer i miljön, och de är väl lämpade för att hantera ett varierande antal heterogena agenter. Däremot är optimeringsbaserade metoder normalt sett mindre anpassade för mycket dynamiska och osäkra miljöer. Samtidigt som optimering erbjuder god tolkbarhet är datadrivna ”black-box”-metoder ofta enklare att implementera, eftersom de inte kräver förståelse för de interna mekanismerna.
Genom att kombinera RL och optimeringsmetoder kan man dra nytta av RL:s anpassningsförmåga i dynamiska miljöer och samtidigt utnyttja robustheten och tolkbarheten hos optimeringsbaserade metoder. Detta möjliggör mer effektiva och skalbara lösningar för komplexa uppdrag.