žŁÀûŒ§

Hierarkisk uppdragsplanering för autonoma agenter i osäkra miljöer

En man pÄ toppen av ett militÀrplan. Fotograf: Linus Haegermark @Saab, Copyright Saab AB

I samarbete med Saab Aeronautics utvecklar vi metoder för dynamiskt och intelligent beslutsfattande för autonoma agenter genom att kombinera optimeringsmetoder med inlärningsbaserade angreppssätt.

"Planer är värdelösa, men planering är oumbärlig." I mycket osäkra miljöer är förmågan att iterera och omarbeta den ursprungliga planen avgörande för utfallet, eftersom oväntade händelser med säkerhet kommer att inträffa.

Autonoma agenter, såsom obemannade (strids)flygplan – Unmanned (Combat) Aerial Vehicles, eller U(C)AV:er – är luftfarkoster som kan genomföra uppdrag utan direkt mänsklig styrning. Dessa mångsidiga plattformar är ovärderliga inom både militära och civila tillämpningar, särskilt i krävande miljöer. Den centrala utmaningen ligger dock i att möjliggöra snabba och intelligenta beslut under pågående uppdrag.

Förena inlärningsbaserade metoder och matematisk optimering

Artificiell intelligens, i synnerhet förstärkningsinlärning (eng. reinforcement learning (RL)), erbjuder stor potential vad gäller anpassningsförmåga, optimering och autonomt agerande. RL-metoder lär sig genom interaktion med omgivningen, men står inför utmaningar i asymmetriska situationer med heterogena agenter. Mångfalden av agenter ökar komplexiteten avsevärt, vilket försvårar inlärningen av effektiva strategier och leder till skalbarhetsproblem. Dessutom är RL:s prestanda starkt beroende av träningsdata, som i verkliga tillämpningar kan vara svår, dyr och riskfylld att samla in. Träning sker därför oftast i simulering, men skillnader mellan simulerade och verkliga miljöer kan leda till försämrad prestanda efter driftsättning. För att hantera detta krävs att agenter snabbt kan anpassa sig till nya förutsättningar, vilket är särskilt utmanande i komplexa och oförutsägbara situationer.

Operationsanalytiska metoder, såsom matematisk optimering och heuristiker, kräver ingen träning av agenter och är mindre beroende av stora datamängder. Dessa modeller kan konstrueras för att vara robusta mot osäkerhet och variationer i miljön, och de är väl lämpade för att hantera ett varierande antal heterogena agenter. Däremot är optimeringsbaserade metoder normalt sett mindre anpassade för mycket dynamiska och osäkra miljöer. Samtidigt som optimering erbjuder god tolkbarhet är datadrivna ”black-box”-metoder ofta enklare att implementera, eftersom de inte kräver förståelse för de interna mekanismerna.

Genom att kombinera RL och optimeringsmetoder kan man dra nytta av RL:s anpassningsförmåga i dynamiska miljöer och samtidigt utnyttja robustheten och tolkbarheten hos optimeringsbaserade metoder. Detta möjliggör mer effektiva och skalbara lösningar för komplexa uppdrag.

Ett hierarkiskt ramverk för uppdragsplanering

Flygplan. Fotograf: Saab
Genom att kombinera inlärningsbaserade metoder med optimeringsbaserade angreppssätt till så kallade anytime-hybridmetoder kan de resulterande algoritmerna möjliggöra snabbare beslutsfattande och exekvering, vilket är avgörande för säkerheten i tidskritiska operationer.

I osÀkra miljöer Àr dynamisk omplanering i realtid avgörande. För uppdrag med flera agenter blir denna uppgift snabbt mycket komplex. Ett hierarkiskt modellangreppssÀtt kan dÄ anvÀndas, dÀr planeringen delas upp i tvÄ nivÄer: en övergripande (hög) nivÄ och en detaljerad (lÄg) nivÄ. Metoden pÄ hög nivÄ planerar över en lÀngre tidshorisont genom resursallokering och schemalÀggning samt anpassar den initiala planen vid behov. Metoden pÄ lÄg nivÄ fattar beslut om hur uppgifter ska genomföras, med en kortare tidshorisont Àn den övergripande planeringen. RL-baserade metoder Àr vÀl lÀmpade för planering pÄ lÄg nivÄ, medan optimeringsbaserade metoder ger ett bÀttre lÄngsiktigt perspektiv för planering pÄ hög nivÄ, sÀrskilt nÀr tillgÄngen till trÀningsdata Àr begrÀnsad.

Kontakt

Organisation

Mer om forskning vid LiU