Lås upp nästa generations AI-driven programvaruutveckling: OpenDevins banbrytande uppgraderingar

Upptäck OpenDevins banbrytande AI-drivna programvaruutvecklingsverktyg, inklusive den nya CodeAct 1.0-agenten med 21% lösningsfrekvens på Sway-benchmarken. Lär dig om den förenklade utvärderingsharnesk för testning av kodningsagenter. Optimera din programvaruutveckling med dessa nästa generations framsteg.

22 april 2025

Frigör kraften i öppen källkod AI-mjukvaruutveckling med OpenDevins senaste framsteg. Upptäck hur dess toppmoderna kodningsagent, CodeAct 1.0, och förenklad utvärderingsanordning kan effektivisera din mjukvaruutvecklingsprocess och hjälpa dig att bygga och distribuera applikationer mer effektivt.

Stora uppgraderingar till OpenDevin: Introduktion av CodeAct 1.0 och den nya förenklande utvärderingsharnesk
Utforska möjligheterna med CodeAct 1.0: En toppmodern kodningsagent
Den förenklande utvärderingsharnesken: Möjliggör omfattande agentutvärdering och jämförelse
Utnyttja Kodak: Harmonisera åtgärder för stora språkmodeller för smidig mjukvaruutveckling
Varför använda Kodak? Förbättra flexibilitet och utöka funktionalitet
Slutsats

Stora uppgraderingar till OpenDevin: Introduktion av CodeAct 1.0 och den nya förenklande utvärderingsharnesk

OpenDevin, det öppna källkods-alternativet till DeepMinds DeepCode, har nyligen tillkännagivit två stora uppgraderingar av sitt ramverk. Den första är introduktionen av CodeAct 1.0, en ny toppmodern kodningsagent som uppnår en anmärkningsvärd lösningsgrad på 21% på den lättare, oassisterade versionen av SowaiBench, en förbättring på 177% jämfört med dess tidigare prestanda. Denna agent bygger vidare på CodeAct-ramverket och konsoliderar åtgärderna hos stora språkmodellsagenter till ett enhetligt kodgränssnitt.

Det andra tillkännagivandet är introduktionen av ett nytt förenklat utvärderingsramverk för testning av kodningsagenter. Detta ramverk syftar till att underlätta en omfattande och förbättrad utvärdering av agenter, vilket möjliggör bättre jämförelse och driver den kontinuerliga förbättringen av dessa AI-verktyg över tid.

Utforska möjligheterna med CodeAct 1.0: En toppmodern kodningsagent

CodeAct 1.0-agenten introducerar flera nyckelförmågor, inklusive förmågan att konversera med människor, klassificera kod, bekräfta och köra kod (både Linux bash-kommandon och Python) och utföra olika filrelaterade åtgärder som att öppna, navigera, söka och redigera. Dessa förmågor bygger på de lärdomar som dragits från det tidigare SowaiBench-agentramverket, och utökar verktygslådan ytterligare och förbättrar den övergripande prestandan.

Dessutom inkorporerar det nya utvärderingsramverket en nedräkningsmekanism, inspirerad av Mint-projektet, som uppmuntrar modellen att slutföra uppgifter inom ett fast antal interaktioner. Detta, tillsammans med processen att skriva och tolka förenklade bash-kommandon, förbättrar användarupplevelsen och tillgängligheten för ramverket.

Den förenklande utvärderingsharnesken: Möjliggör omfattande agentutvärdering och jämförelse

Dessa uppgraderingar av OpenDevin visar på de pågående ansträngningarna för att stärka mjukvaruutveckling med avancerade AI-agenter. Genom att utnyttja förträning av stora språkmodeller på koddata och fokusera på att utnyttja omfattande programvarupaket, syftar CodeAct 1.0-agenten till att hantera komplexa kodningsuppgifter och verkliga utmaningar inom mjukvaruutveckling på ett mer effektivt sätt. Det nya förenklade utvärderingsramverket kommer ytterligare att driva den kontinuerliga förbättringen av dessa agenter, vilket i slutändan kommer att gynna utvecklare och programvaruingenjörer i deras dagliga arbete.

Utnyttja Kodak: Harmonisera åtgärder för stora språkmodeller för smidig mjukvaruutveckling

OpenDev's nya CodeAct 1.0-agent är en betydande uppgradering som visar imponerande förmågor. Denna toppmoderna kodningsagent har uppnått en anmärkningsvärd lösningsgrad på 21% på den lättare, oassisterade Sway Bench-benchmarken, en förbättring på 177% jämfört med dess tidigare prestanda.

CodeAct 1.0 bygger vidare på CodeAct-ramverket och konsoliderar åtgärderna hos stora språkmodellsagenter till ett enhetligt kodgränssnitt. Detta gör att agenten kan utföra ett brett utbud av kodrelaterade uppgifter, som att konversera med människor, klassificera kod, bekräfta och köra kod (inklusive Linux bash-kommandon och Python) och mycket mer.

Varför använda Kodak? Förbättra flexibilitet och utöka funktionalitet

Agenten har förbättrats med ytterligare verktygssatser baserade på bash-kommandon, vilket gör att den kan navigera i filer, skapa och redigera filer, söka inom kataloger och utföra andra avancerade åtgärder. Dessa förmågor är resultatet av att man har tagit till sig feedback och lärdomar från den tidigare Sway-agenten.

CodeAct 1.0 introducerar också en unik nedräkningsmekanism, hämtad från Mint-projektet, som uppmuntrar modellen att slutföra uppgifter inom ett fast antal interaktioner. Dessutom har agenten en process för att skriva bash-kommandon och tolka åtgärderna, vilket gör gränssnittet mer tillgängligt och användarvänligt.

Slutsats

Introduktionen av CodeAct 1.0 är ett betydande steg framåt i att ge stora språkmodellsagenter möjlighet att hantera komplexa kodningsuppgifter. Genom att harmonisera dessa modellers åtgärder med körbar kod banar OpenDev väg för effektivare och mer mångsidiga mjukvaruutvecklingsarbetsflöden.

Den andra stora nyheten från skaparna av OpenDevon är introduktionen av ett nytt förenklat utvärderingsramverk. Detta ramverk är utformat för att underlätta en omfattande och strömlinjeformad utvärderingsprocess för kodningsagenter.

Syftet med detta utvärderingsramverk är att förbättra bedömningen och jämförelsen av olika agentmodeller över tid. Genom att tillhandahålla en standardiserad och användarvänlig ram kommer det att möjliggöra för utvecklare att grundligt testa och jämföra förmågorna hos deras kodningsagenter.

Det förenklade utvärderingsramverket fokuserar på följande nyckelaspekter:

Omfattande utvärdering: Ramverket kommer att möjliggöra en grundlig utvärdering av en agents prestanda över ett brett utbud av kodningsuppgifter och scenarier. Detta kommer att ge en mer holistisk förståelse för en agents styrkor och svagheter.
Förbättrad jämförelse: Den standardiserade utvärderingsprocessen kommer att möjliggöra en mer exakt och meningsfull jämförelse mellan olika agentmodeller. Detta kommer att hjälpa utvecklare att identifiera de mest lämpliga agenterna för deras specifika behov.
Iterativ förbättring: Genom att etablera en konsekvent utvärderingsram kommer ramverket att möjliggöra för utvecklare att följa upp utvecklingen och evolutionen av deras agenter över tid. Detta kommer att underlätta den kontinuerliga förbättringen av agentförmågor.
Tillgänglighet: Den förenklade karaktären hos utvärderingsramverket syftar till att göra bedömningsprocessen mer användarvänlig och tillgänglig för en bredare krets av utvecklare, vilket främjar ett bredare deltagande och samarbete.

Open Devon's nya Kodak 1.0-agent representerar ett betydande framsteg inom fältet för kodnings-AI. Denna toppmoderna agent uppnår en anmärkningsvärd lösningsgrad på 21% på den lättare, oassisterade Sway Bench-benchmarken, en förbättring på 177% jämfört med dess tidigare prestanda.

Kodak 1.0 bygger vidare på Codex-ramverket och konsoliderar åtgärderna hos stora språkmodellsagenter till ett enhetligt kodgränssnitt. Detta gör att agenten kan utföra ett brett utbud av kodrelaterade uppgifter, inklusive att konversera med människor, klassificera kod, bekräfta och köra kod (både Linux bash-kommandon och Python) samt navigera genom filer och kataloger.

Introduktionen av en nedräkningsmekanism, inspirerad av Mint-projektet, uppmuntrar modellen att slutföra sina uppgifter inom ett fast antal interaktioner, vilket främjar effektivitet och användarvänlighet. Dessutom har processen att skriva bash-kommandon och tolka åtgärder förenklats, vilket ytterligare förbättrar tillgängligheten för ramverket.

Kodaks förmåga att harmonisera åtgärderna hos stora språkmodeller med körbar kod skiljer den från traditionella agenter som begränsas till JSON- eller textbaserade utdata. Genom att utnyttja omfattande programvarupaket och dra nytta av förträning på koddata kan Kodak hantera komplexa operationer och kontroll- och dataflöden, vilket möjliggör utveckling av sofistikerad programvara och lösning av verkliga uppgifter på plattformar som GitHub.

Det nya förenklade utvärderingsramverket som introducerats av Open Devon kommer att underlätta en omfattande bedömning och jämförelse av kodningsagenter, vilket driver kontinuerliga förbättringar och framsteg inom området. Detta, i kombination med Kodak 1.0:s imponerande prestanda, positionerar Open Devon som en ledande aktör inom AI-driven mjukvaruutveckling.

De flesta befintliga stora språkmodellsagenter begränsas av att endast generera åtgärder i JSON- eller textformat. Här kan Kodak erbjuda mer flexibilitet genom att tillåta dig att kombinera flera verktyg för att utföra olika uppgifter.

Kodak utmärker sig genom att utnyttja befintlig förträning av stora språkmodeller på koddata. Detta gör att den kan stödja komplexa operationer genom kontroll- och dataflöden, samt utnyttja omfattande programvarupaket för att utöka sin funktionalitet.

Kodaks lovande prestanda kan hjälpa dig att utveckla olika typer av programvara och lösa verkliga uppgifter, som de som finns på GitHub. Genom att generera komplex kod strävar Kodak efter att befria användare från rutinmässiga uppgifter och ge dem ett robust kodningsassistentramverk.

Introduktionen av en ny förenklad utvärderingsmetrik kommer att hjälpa Kodak-teamet att kontinuerligt förbättra och utvärdera agentens prestanda över tid. Detta kommer att möjliggöra för dem att införa mer avancerade taktiker och algoritmer för att förbättra Kodaks förmåga att lösa komplexa utmaningar.

Introduktionen av CodeAct 1.0 och det nya förenklade utvärderingsramverket av skaparna av OpenDevon representerar betydande framsteg inom det öppna källkods-ramverket för mjukvaruutvecklingsagenter.

CodeAct 1.0 är en toppmodern kodningsagent som har uppnått en anmärkningsvärd lösningsgrad på 21% på den lättare, oassisterade Sway Bench-benchmarken, en förbättring på 177% jämfört med tidigare versioner. Denna agent konsoliderar åtgärderna hos stora språkmodeller till ett enhetligt kodgränssnitt, vilket gör att den kan utföra ett brett utbud av kodrelaterade uppgifter, som att konversera med människor, klassificera kod, bekräfta och köra kod, samt interagera med olika programmeringsspråk och verktyg.

Det nya förenklade utvärderingsramverket är utformat för att underlätta en omfattande och förbättrad utvärdering av kodningsagenter, vilket möjliggör bättre jämförelse och kontinuerlig förbättring av dessa agenter över tid. Detta kommer att hjälpa till att driva den kontinuerliga förbättringen av OpenDevon-ramverket, vilket säkerställer att användare kan få tillgång till toppklass-agenter för sina mjukvaruutvecklingsbehov.

Dessa två stora uppdateringar av OpenDevon-ramverket visar på åtagandet från dess skapare att tillhandahålla en öppen källkods-, flexibel och kraftfull plattform för mjukvaruutvecklingsagenter. Genom att utnyttja stora språkmodellers förmågor och införliva feedback och lärdomar från tidigare projekt är OpenDevon redo att ge användare möjlighet att bygga och distribuera komplexa programvarutillämpningar mer effektivt än någonsin tidigare.

FAQ

Vad är OpenDevin?

Vad är de två stora nyheterna från OpenDevin?

Vad är de viktigaste funktionerna i CodeAct 1.0?

Hur fungerar CodeAct-ramverket?

Varför använda CodeAct-ramverket?

Hur kan jag komma igång med OpenDevin?

Skapa din AI-flickvän

Bygg din idealiska följeslagare med vår AI Girlfriend Builder