OpenAIs introduksjon av sine resonneringsmodeller, o1 og o1-mini , markerer et betydelig fremskritt innen kunstig intelligens. Disse modellene viser frem forbedrede resonneringsevner, og setter en ny standard på forskjellige domener.
Evnen til o1 og o1-mini til effektivt å takle intrikate problemer og ta nyanserte beslutninger resulterer i klare, handlingsrettede svar. Denne innovative tilnærmingen posisjonerer disse modellene som verdifulle verktøy på tvers av mange felt.
Hva er o1-forhåndsvisningsmodellen?
O1 -modellen , tidligere kjent som Strawberry , avviker betydelig fra OpenAIs tradisjonelle GPT-modeller, ettersom den bruker distinkte algoritmer og opplæringsdatasett. Lansert med løftet om å løse komplekse utfordringer innen områder som matematikk, naturvitenskap og programvareutvikling, tilbyr o1 utallige potensielle applikasjoner. For eksempel:
- Helseforskere kan bruke det til å kommentere cellesekvenseringsdata.
- Fysikere kan bruke det til å utvikle komplekse matematiske formler for kvanteoptikk.
- Utviklere kan bruke den til å konstruere og administrere intrikate arbeidsflyter.
Spesielt har o1 demonstrert bemerkelsesverdige resonneringsevner, og oppnådd en imponerende poengsum på 83 % på International Mathematics Olympiad (IMO), i sterk kontrast til GPT-4o , som bare fikk 13 % .
Som komplement til o1-modellen, avduket OpenAI også o1-mini , en mer strømlinjeformet og kostnadseffektiv versjon optimalisert for koding. Mens o1 er flinkere til å håndtere omfattende oppgaver, utmerker o1-mini seg ved kodefullføringer. Men for bredere applikasjoner som krever dypere kunnskap, forblir o1 det overlegne valget.
Til tross for fremskritt, har o1 begrensninger som hindrer dens nytteverdi sammenlignet med GPT-4o for spesifikke oppgaver. Den mangler internettsurfing, dataanalyseverktøy og bilde- eller filopplastingsfunksjoner. I tillegg har den ikke minne eller egendefinerte instruksjoner, og den støtter heller ikke stemmebruk.
Dette fokuset på nisjemarkeder førte til at jeg først nøler med å utforske o1-modellene. De kan virke skremmende for de som ikke er kjent med deres spesifikke applikasjoner. Likevel tvang en gnist av nysgjerrighet meg til å undersøke hvilke unike fordeler o1 kunne tilby til et bredere publikum.
Førsteinntrykk
Ved første møte imponerer o1 utvilsomt med sine evner. Det som imidlertid skiller seg ut enda mer enn løsningene den gir, er resonneringsprosessen. Brukere kan observere hvordan den kommer til sine konklusjoner, noe som øker åpenheten.
Når det er sagt, stemmer OpenAI sine observasjoner: o1 utmerker seg i utfordrende oppgaver, men dette betyr ikke at den er overlegen for alle typer henvendelser. Som Sam Altman formulerte, presenterer o1 bemerkelsesverdige begrensninger som blir tydelige ved utvidet bruk: «o1 er fortsatt feil, fortsatt begrenset, og virker fortsatt mer imponerende ved første gangs bruk enn den gjør etter at du har brukt mer tid med den.» Denne følelsen stemte med min erfaring.
Logisk tenkning
For å måle ytelsen, startet jeg testingen min med enkle logiske spørsmål, og stilte en rekke gåter til o1.
Som svar på den første gåten – ansett som enkel – tok o1 omtrent 22 sekunder å gi det riktige svaret. Derimot leverte GPT-4o og GPT-4o-mini nøyaktige svar umiddelbart. Denne trenden vedvarte på tvers av påfølgende gåter, noe som indikerer at mens o1s behandlingstid varierte, forble nøyaktigheten på nivå med motpartene.
Deretter utfordret jeg både o1 og GPT-4o med følgende ledetekst:Here we have a book, 9 eggs, a laptop, a bottle, and a nail. Please tell me how to stack them onto each other in a stable manner.
Selv om det ikke var spesielt praktisk, ga o1 en logisk ordning:
Book (base)
9 Eggs (arranged in a 3x3 grid)
Laptop
Bottle
Nail
Omvendt foreslo GPT-4o følgende stabel:
Book (base)
Laptop
Bottle
Eggs - To put them in a carton (which isn't available) or arrange them in a pyramid
Nail
Denne utforskningen illustrerte at etter hvert som spørsmål eskalerer i kompleksitet, gir o1s evne til å resonnere gjennom problemer mer nyanserte løsninger. Det kan tjene som en verdifull idédugnadspartner for logiske spørsmål i det virkelige liv.
Skrivehjelp og tilbakemelding
Omvendt kan bruk av o1 for grunnleggende skrivehjelp – som å skrive e-post eller oppgaver – føre til skuffelse. Den har en tendens til å være tregere enn GPT-4o, med utganger som ikke skiller seg vesentlig.
I ett tilfelle tok o1 flere minutter å behandle en spørring, noe som til slutt resulterte i en feil. Imidlertid tillot den gjennomsiktige resonneringsprosessen meg å se at den hadde avviket fra en effektiv løsning, og valgte stillhet i stedet for et feil svar, noe som tyder på redusert hallusinasjon.
Oppmuntret søkte jeg tilbakemelding på skrivingen min fra o1. Mine tidligere erfaringer med ChatGPT avslørte en tendens til å utvanne min personlige stemme. Følgelig henvendte jeg meg til o1 med forsiktighet, i håp om et annet utfall.
Til syvende og sist speilet tilbakemeldingen generert av o1 tilbakemeldingen til GPT-4o. Mens svarene var langsommere og lengre, fant jeg ut at det å oppnå meningsfull analyse i GPT-4o bare krevde ytterligere spørsmål. Likevel, hvis dine behov involverer manusskriving eller generering av kreative ideer, der GPT-4o noen ganger halter, viste o1 bedre forståelse gjennom sin grundige undersøkelse av spørsmål.
Analyse, strategi og planlegging
Utover STEM-applikasjoner skinner o1s resonneringsevner på områder som strategi, planlegging og forskning. Dens metodiske tilnærming til problemløsning gjør den spesielt dyktig i sammenhenger som krever vurdering av flere variabler.
Jeg brukte o1 for å takle et personlig helseproblem, og dets nyanserte perspektiv ga innsikt som jeg tidligere hadde oversett. Dette demonstrerte o1s potensial for mangefasetterte analyser, enten det gjelder helseproblemer eller innholdsstrategier.
Videre kan o1 utfylle forskningsprosessen din, og muliggjøre utforskning fra forskjellige vinkler med minimalt behov for spørsmål.
Er o1 riktig for deg?
Etter å ha utforsket o1s evner, kan man lure på: er det den passende modellen for dine behov? Tenk først på bruksbegrensningene; o1-preview tillater kun 50 meldinger per uke , mens o1-mini begrenser brukere til 50 meldinger per dag . I tillegg krever o1-modeller et abonnement, mens GPT-4o tilbyr noen gratis bruksalternativer.
Å vekte miljøpåvirkningen ved bruk av o1 – kjent for sitt store ressursforbruk – er avgjørende, spesielt når ytelsesforskjellene mellom o1 og GPT-4o kan være minimale. Men for oppgaver som involverer kompleks logikk, strategisk analyse eller mangefasetterte evalueringer, kan o1 være mer fordelaktig.
Oppsummert, er det på tide å gå over til ChatGPT o1? Ikke nødvendigvis – i hvert fall ikke universelt. Mens o1 representerer et betydelig sprang for resonneringsoppgaver, gjør dens begrensninger og spesifikke fokus den bedre egnet for fagfolk innen STEM eller de som søker intrikate strategiske innsikter. For den daglige brukeren beholder GPT-4o sin status som det mer allsidige alternativet. Men for de som er fascinert av fremtiden til AI-resonnement, er o1-preview absolutt verdt å undersøke – selv om den kanskje ikke erstatter den foretrukne modellen ennå.
Legg att eit svar