Nylig prøvde jeg ut Claudes nye 3.5 Sonnet-modell, som er den kraftigste AI-modellen fra Anthropic til nå, og som selskapet hevder kan utkonkurrere rivaler som OpenAIs ChatGPT. Dette er en dristig påstand, som Anthropic støtter opp med noen ganske imponerende benchmarks.
Den nye modellen har også synsfunksjoner, slik at du kan gi den bilder og dokumenter og trekke ut informasjon fra dem. Og den kan forstå følelser som humor bedre samtidig som den er mye raskere. Alle disse elementene gjør Claude 3.5 til en stor konkurrent til den nye GPT-40-drevne ChatGPT, som også er en multimodal AI-modell.
I likhet med Sonnet kan ChatGPT-40 bruke visjonsbaserte innganger i tillegg til tekstbaserte for å gi svar. Den er like god til å løse problemer og har lignende samtaleevner. Siden begge de nye modellene er så nær hverandre når det gjelder kapasitet og ytelse, er spørsmålet som er i hodet på alle, hvilken av de to er best? For å svare på det bestemte jeg meg for å sammenligne begge modellene i detalj.
Trekke ut informasjon fra dokumenter
AI-verktøy brukes ofte til å trekke ut informasjon fra dokumenter som PDF-filer og deretter oppsummere den; så jeg bestemte meg for først å sjekke hvilken av de to modellene som kunne gjøre dette mer effektivt. For det forberedte jeg et PDF-dokument om takruter jeg hadde skrevet for en tid siden og lastet det opp til ChatGPT og Claude.
Så ga jeg dem beskjeden: summarize this document and provide me with the most important points discussed in it.
Her er hva jeg oppdaget. Den nye Claude-modellen var mye raskere enn ChatGPT og begynte å generere svaret umiddelbart etter at jeg sendte inn forespørselen min. Den fulgte også oppfordringen nærmere, og listet opp de viktige punktene i en nummerert liste. Hvis du har kort tid og bare vil se på hva et dokument inneholder, er dette det du trenger.
Til tross for at jeg var tregere enn Claude, foretrakk jeg imidlertid ChatGPTs svar i dette tilfellet. Den listet ikke bare opp de viktigste punktene i dokumentet, men delte dem også inn i forskjellige seksjoner, for eksempel definisjon og viktighet, beregning, etc.
Hvis du trenger å finne spesifikk informasjon om et bestemt aspekt av emnet som diskuteres i et dokument, ser ChatGPTs måte å gjøre ting på å være mer nyttig. Du trenger ikke gå gjennom alle punktene og kan bare se på den delen som trengs. Informasjonen er gitt på en måte som er lettere å gå gjennom og fordøye.
Testing av synsevner
Siden et av hovedhøydepunktene til både Claude 3.5 og ChatGPT-40 er deres evne til å bruke visuelle input og gi informasjon basert på det, bestemte jeg meg for å teste det neste ved å be dem følge håndskrevne instruksjoner etter å ha transkribert dem. Jeg ba AI-modellene om å skrive et kort dikt som ligner på Aesops «Mauren og cricket».
Selv om jeg ikke spesifiserte det skriftlig, ønsket jeg at utgangen skulle være inspirert av diktet, men med forskjellige karakterer. Claude ba meg først bekrefte den håndskrevne forespørselen min og fortsatte deretter med den. Resultatet var ganske bra, veldig nær det originale diktet, men inneholdt de samme karakterene. AI-chatboten spurte meg også om jeg ønsket en annen tilnærming eller noen modifikasjoner av diktet etter at det var ferdig med å skrive diktet.
ChatGPT krevde ikke at jeg bekreftet forespørselen min, men fortsatte umiddelbart med å fullføre den. Diktet det skrev var også veldig imponerende, og det erstattet mauren og sirissen fra den opprinnelige skapelsen med en bie og en sommerfugl, noe Claude ikke gjorde. Jeg syntes også ChatGPTs versjon var mer poetisk.
Så i transkripsjon er det en liten forskjell i resultatene, men begge kan tyde og forstå håndskrevet og trykt tekst veldig bra, selv om bildene ikke er veldig klare. Disse kraftige synsfunksjonene betyr også at du kan bruke disse verktøyene til å hente informasjon fra grafer og diagrammer, noe som gjør dem egnet for matematiske oppgaver.
Beskriv bilder: Siden begge modellene også kan trekke ut informasjon fra bilder, måtte jeg prøve det også. Jeg ga Claude og ChatGPT et bilde av en tropisk øy og ba dem beskrive det. Som du kan se, gir Claude en levende beskrivelse av bildet, og beskriver hvert element i forgrunnen og bakgrunnen veldig tydelig, selv de jeg ikke la merke til selv.
Claudes valg av setninger og ord for å beskrive bildet føltes også mer virkningsfullt, og gjorde rettferdighet til bildet. Den gjør en god jobb med å beskrive fargene, lyssettingen og formidle den generelle følelsen av stillhet og ro bildet genererer.
Resultatene var mer kompliserte i tilfellet ChatGPT, som kan beskrive bilder, men ikke like godt som Claudes. OpenAIs modell har en tendens til å gjøre feil, og legger til elementer som ikke er tilstede, noe som viser at den fortsatt kan hallusinere. Opprinnelig prøvde det også å beskrive bildet basert på tittelen i stedet for det det avbildet, og fikk det til slutt rett etter flere forsøk.
Selv da kunne ikke beskrivelsen jeg fikk av den holde et lys for Claudes svar. Dette var ganske overraskende siden GPT-40s synsevner var et av de største høydepunktene som OpenAI viste frem ved lanseringen.
Generering og redigering av innhold
Deretter forsøkte jeg å se hvilken modell som klarte seg bedre i innholdsgenerering. For å få en klar ide om hvordan de presterer, bestemte jeg meg for å generere innhold som krever ekte fakta og data, samt fiktivt innhold som ville stole på AI-modellens kreativitet.
Først ba jeg Claude og ChatGPT om å gi meg en detaljert artikkel om forskjellige Android-skall, siden det er noe mange mennesker ønsker å vite om, men er et veldig subjektivt emne, der hver enkelt har sin egen favoritt. Jeg brukte ledeteksten Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?
Gitt hvor mye tid vi bruker med smarttelefonene våre, ønsket jeg å finne ut hvor nøyaktige modellene var og hvor mye informasjon de kunne gi om hver hud.
Som vanlig var Claude raskere med å svare. Den ga en oversikt som forklarer hva Android-skall er, noe som er fint, men fortsatte ganske enkelt med å liste opp de forskjellige skallene med funksjonene de tilbyr i en punktliste. Husk at modellen ga dette resultatet selv om jeg spesifikt oppga en «detaljert artikkel» i spørsmålet mitt.
I kontrast skapte ChatGPT en mer imponerende tittel for artikkelen og inkluderte en kort introduksjon. Etter det forklarte den hver hud i sin egen seksjon, og delte hver enkelt inn i en oversikt, nøkkelfunksjoner, fordeler og ulemper.
Dette gir ikke bare mer omfattende informasjon, men lar deg vite nøyaktig hvordan de forskjellige skallene sammenlignes med hverandre. Til slutt avsluttet den artikkelen med en skikkelig konklusjon. Mens antallet skins som ChatGPT nevnte var mindre enn de som er oppført av Claude, her betyr kvaliteten mer enn kvantiteten.
Mens ChatGPT presterte bedre enn Claude i dette tilfellet, kan sistnevnte også generere godt innhold, som jeg har funnet i min tidligere testing. Det kan avhenge av emnet eller måten du formulerer spørsmålet på. Det er derfor jeg ga begge modellene en ny oppfordring, denne gangen ved å bruke ledeteksten. Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.
Den ga meg også en mulighet til å se hvor godt modellene forstår og kan formidle humor.
Denne gangen var resultatene svært nær hverandre, med begge modellene som laget genuint morsomme historier. Begge historiene hadde felles elementer, som ironi og fysisk komedie. I skjønnlitteratur er personlige preferanser en kraftig faktor, og totalt sett fant jeg Claudes produksjon litt bedre, spesielt måten den lekte med ord for å generere humor.
Men som jeg nevnte før, var ChatGPTs historie også morsom å lese og var litt lengre enn Claudes. Slutten var også mer sunn. Dermed var både Claude og ChatGPT i stand til å generere godt fiktivt innhold mens de inkluderte humoristiske elementer i henhold til oppfordringen min.
Redigere innhold: Generering av innhold er bare én del av prosessen. For å virkelig finne ut hva en AI-modell kan gjøre når det kommer til innhold, må du også teste innholdsredigeringsmulighetene, og det var det jeg fortsatte med. For dette formålet ga jeg et tekststykke om sosial handel til Claude og ChatGPT og ga dem beskjeden,Can you expand this article while also proofreading and improving it?
Da han forbedret artikkelen, startet Claude med en introduksjon, skrev deretter om utviklingen av sosial handel, og fulgte til slutt med andre seksjoner, og utvidet hver enkelt etter behov. Modellen brukte også nummererte lister og punktpunkter der det ble ansett som nødvendig for å forbedre lesbarheten.
ChatGPTs svar var likt de tidligere, der det delte innholdet inn i forskjellige seksjoner med forskjellige underoverskrifter. Den brukte ingen lister, men holdt informasjonen i form av avsnitt. Når det gjelder endringene og forbedringene, la jeg merke til at Claude gjorde mer drastiske endringer i artikkelen enn ChatGPT, men sluttresultatet ble også mye bedre. Til syvende og sist syntes jeg at redigeringsmulighetene til Sonnet var kraftigere og mye bedre tilpasset arbeidsflyten min.
Kodeevne
Ingen sammenligning av AI-modeller er komplett uten å inkludere deres kodingsevner. Mens Claude er spesielt utviklet for å hjelpe programmerere med å skrive bedre kode raskt og enkelt, er den nye GPT-40-drevne ChatGPT heller ikke noe å se ned på når det kommer til koding.
For å teste deres evne til å generere kode, ba jeg både Claude og ChatGPT om å Generate code for a simple game that can help beginners learn programming.
Mens begge skrev koden i Python, fullførte Claude kodegenereringen raskere, som forventet. Den viste hele koden på høyre side av skjermen mens den forklarte elementer som funksjoner og variabler til venstre.
Det jeg likte best med Claudes svar er at det også inkluderte en knapp som lar deg gå til koden umiddelbart, slik at du enkelt kan sjekke den ut. I tillegg informerte chatboten meg om kravene som trengs for å kjøre koden, komplett med instruksjoner. Når det gjelder selve koden, så var den ganske enkel å forstå og fungerte også utmerket da jeg testet den.
Når jeg kom til ChatGPTs svar, var det også i stand til å generere en enkel, men funksjonell kode, slik jeg hadde bedt om. Under koden ga chatboten trinnene som trengs for å kjøre spillet, samt konseptene som koden dekker, noe som gjør det enkelt for nybegynnere å forstå. Totalt sett var resultatene ganske like for begge modellene i dette tilfellet, selv om Claude forklarte flere elementer og hadde et alternativ der du kunne be den om å forklare hvilken som helst del av koden i detalj.
Matematiske evner
Til slutt ga jeg både Claude og ChatGPT et mattespørsmål å løse, for å se hvor bra de gjorde det, og hvilket som var raskere. Spørsmålet involverte algebraiske ligninger, men var ikke spesielt utfordrende. Begge modellene startet med å forklare hva de skulle gjøre i det første trinnet, selv om tilnærmingen deres var annerledes. Claude fortsatte med å utvide ligningen og fortalte meg til slutt at det å løse problemet helt krevde å bruke en grafisk kalkulator eller et dataalgebrasystem.
Når det er sagt, oppga den antall potensielle løsninger på problemet. Derimot løste ChatGPT problemet i sin helhet og ga meg alle mulige løsninger på det. Dette indikerer at når det gjelder matematiske evner, er ChatGPT-4o foran Sonnet.
Endelig dom – Claude Sonnet 3.5 eller ChatGPT-4o: Hvem vant?
Å velge mellom Claude 3.5 og ChatGPT-4o er ikke lett, men til syvende og sist kan bare én bli en vinner, og for meg må det være den nye Sonnet-modellen. Ikke bare er det betydelig raskere enn ChatGPT, men gir også mer nøyaktige svar. Jeg likte spesielt hvor godt det kunne beskrive bilder og utføre handlinger knyttet til dem.
Claude hallusinerte heller ikke en gang i løpet av min tid med det, noe som er et annet poeng i dens favør, og svarene var generelt sett nærmere mine instruksjoner. Selv om det ikke fungerte som jeg forventet i et tilfelle der jeg ønsket detaljert innhold, var det generelt enklere å bruke det for å få informasjonen jeg ønsket og krevde mindre innsats.
Ved å prøve ut både Claude 3.5 Sonnet og ChatGPT-40, har jeg oppdaget at begge er eksepsjonelt gode AI-modeller som er svært nær hverandre i ytelse. Mens Sonnet utfører noen oppgaver bedre, leverer ChatGPT bedre resultater i andre. Du bør forstå at avgjørelsen av hvilken som er best vil avhenge av din individuelle brukssituasjon.
I tillegg er begge gratismodellene begrenset i hva de kan gjøre. Så hvis du vil bruke enten AI regelmessig, anbefaler jeg å få et betalt abonnement for de beste resultatene.
Legg att eit svar