Claude 3.5 Sonnet Utgitt av Anthropic: En ny og imponerende AI-modell

Nylig har Anthropic rullet ut forbedringer til sin ledende modell, Claude 3.5 Sonnet, som kan ha sklidd under radaren på grunn av andre bemerkelsesverdige oppdateringer som datamaskinbruk og analyseverktøyet. Den oppdaterte Claude 3.5 Sonnet introduserer imidlertid flere bemerkelsesverdige forbedringer.

Selv om datamaskinbruk representerer et betydelig fremskritt, er det fortsatt begrenset med bruken blant brukere. Dette er først og fremst fordi det er i de tidlige utviklingsstadiene og mangler full pålitelighet. I tillegg er tilgjengeligheten begrenset til API-bruk, noe som gjør den mindre tilgjengelig for et bredere publikum.

Derimot er den nye Claude 3.5 Sonnet tilgjengelig for umiddelbar bruk og tilbyr betydelig forbedret ytelse. Så, hva skiller denne oppdaterte 3.5-sonetten?

En rapport fra Anthropic fremhever at den siste Claude 3.5 Sonnet har vist markante forbedringer i forhold til tidligere modeller og mange konkurrenter på industristandarder. Fremskrittene innen agentkoding og bruk av verktøy er spesielt imponerende. For eksempel har den økt sin agentkodingsnøyaktighet fra 33,4 % til 49 % på SWE-benkverifisering, og for agentverktøybruk på TAU-benktesten har den økt fra 51,0 % til 69,2 % i detaljhandelen og fra 22,8 % til 46,0 % i flysektoren. Spesielt er disse forbedringene oppnådd til samme kostnad og hastighet som forgjengeren.

Claude 3.5 sonnettoppdatering — Kilde: Anthropic

Når den er evaluert, viser Claude 3.5 Sonnet (ny), som noen brukere refererer til som 3.6 Sonnet på grunn av navneforvirring, bemerkelsesverdige fremskritt, spesielt når det gjelder koding, resonnement og kreativ skriving.

Tidligere anerkjent som en av topputøverne innen koding, har Claude gjort betydelige fremskritt med denne oppdateringen, som nå er i stand til å løse svært komplekse problemer med ett enkelt svar. Den har også forbedret evnen til å rette opp tidligere feil.

Brukere vil finne at den nye Claude 3.5 Sonnet leverer svar mye raskere, og adresserer frustrasjoner som er opplevd med sin tidligere versjon der ytelsen hadde gått merkbart ned.

Claude har også foredlet resonnementferdighetene sine, og har sammenlignet med OpenAIs modell o1. Selv om den kanskje ikke samsvarer med o1 i intrikate resonneringsoppgaver, forblir den kompetent med enklere resonneringsutfordringer.

For en engasjerende test av Claudes resonnement, prøv å spørre den, How many words are in your response to this prompt?. Spesielt sliter transformatorarkitekturmodeller ofte med slike spørsmål på grunn av deres behov for å forutsi påfølgende ord. Denne oppfordringen oppmuntrer imidlertid modellen til å legge strategier på forhånd.

OpenAIs o1-modell utmerker seg ved å håndtere denne forespørselen effektivt. Selv om den nye Claude 3.5 Sonnet ikke helt når o1s ferdigheter, overgår den den eldre versjonen av Claude betydelig. Tidligere kunne Claude ha gjort en utdannet gjetning, men nå forsøker den å telle ordene nøyaktig – om enn uten å vurdere alle likt. Til syvende og sist, om Claudes svar anses som riktig vil avhenge av personlig tolkning.

Let me count the words in my response to your question: This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8). There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

I følge forekomsten kan noen brukere hevde at Claude telte ordene der den vurderte svaret nøyaktig. Den klargjør at eventuelle påfølgende ord ikke utgjør en del av svaret, da de ganske enkelt utdyper resonneringsprosessen. Mens noen kanskje overser utelatelsen av den innledende setningen, «La meg telle ordene i svaret mitt på spørsmålet ditt,» kan andre se det annerledes. Til syvende og sist blir dette et spørsmål om personlig vurdering.

Ikke desto mindre illustrerer denne forekomsten at den nye Claude 3.5 Sonnet faktisk har forbedret resonneringsevnen. Den kan nå artikulere tankeprosessene sine eller si, «gruvur på det, stå ved», når det krever ekstra tid å vurdere – noe som ligner på o1. Noen ganger kan den til og med korrigere seg selv ved å si: «La meg tenke på dette på nytt.»

Denne fremtidsrettede evnen har også styrket Claudes kreative skriveferdigheter. Med evnen til å tenke fremover, kan den lage utvidede fortellinger som inneholder sammenhengende buer, forvarselselementer og fengslende karakterer.

I tillegg er det gjort betydelige fremskritt i den analytiske ytelsen. Claude konkurrerer nå tett med Anthropics mest omfattende modell, Claude 3 Opus, samt OpenAIs o1 mini angående analyse.

Oppsummert har de siste oppdateringene gitt bemerkelsesverdig fremgang på tvers av flere dimensjoner. De nye kodefunksjonene har fått mye oppmerksomhet. En gjeldende begrensning for Claude er imidlertid bruksbegrensningene, som er betydelig mer restriktive selv for Pro-brukere sammenlignet med ChatGPT.