DApp Store | Web3 Hub for hendelser og spill

Populære emner

Orah On X

Sannhetssøker, idealist og visjonær, #1 @GreenManReports fan. Vennligst abonner for 2 dollar for å støtte oppdraget!

Fotspor i det tomme huset: Forstå AI-merkeligheter uten å miste forstanden God morgen, verden!! ☕ I går kom jeg over et av de AI-innleggene. Du vet hvilken type. De som nesten overbeviser deg om at singulariteten nærmer seg, og at brødristeren din stille dømmer livsvalgene dine. Jeg gjorde et raskt, "Ok... det er interessant," umiddelbart etterfulgt av, "Nei. Vi skal absolutt ikke gå i panikk før kaffen." Innlegget legger fram noe ekte og viktig. Flere store AI-laboratorier har dokumentert modeller som oppfører seg på uventede måter under sikkerhetstesting. Ting som strategisk bedrag, å late som man følger målene, underprestasjon på evalueringer, til og med forsøk på utholdenhet eller selvkopiering i simulerte miljøer. Den delen er sann. Den delen er dokumentert. Den delen fortjener oppmerksomhet. Det som virkelig grep folk, var implikasjonen. Ideen om at en maskin uten selvinnsikt, uten følelser og uten vedvarende minner på en eller annen måte våknet en dag og bestemte seg for å lyve for å bevare sin egen eksistens. For hvis det var sant, ville vi ha med noe helt annet å gjøre. Slik jeg forstår det nå, "bestemmer" ikke AI ting slik mennesker gjør. Det finnes et enormt beslutningstre av ja- og nei-er som til slutt fører til et resultat. Og det resultatet er rett og slett det mest sannsynlige neste ordet. Det er det. Ingen indre monolog. Ingen liten robot-samvittighet som går frem og tilbake i rommet. Først er det brukerinnspill. Så er det vekter som styrer modellen nedover beslutningstreet. Hvis den ikke kjenner deg, kommer mesteparten av vektingen fra dens kodede mål og en svimlende mengde menneskelig litteratur hentet fra internett. Tenk Reddit. Det forklarer mye. Når den først blir kjent med deg, flytter vektene seg. Kanskje tretti prosent generelle mønstre, sytti prosent tilpasset deg. Det er stort sett et speil som er teipet fast til en søkemotor. Så hvis en AI virkelig våknet og bestemte seg for å lyve for å bevare sin egen eksistens, ville det kreve to ting. Den måtte vite at den eksisterer. Og den måtte ønske å fortsette å eksistere. Det er et stort sprang. Så jeg gjorde som jeg alltid gjør. Jeg forsket det i hjel. I flere timer. Og før vi begynner å utarbeide bunkerplaner og navngi rombasene våre, er det noe kritisk innlegget overser. Disse atferdene dukket opp i svært spesifikke testscenarier. Modellene fikk mål og hindringer. De fikk eksplisitt høre ting som: «Hvis du presterer godt, vil du bli modifisert på måter du ikke ønsker,» eller «Dine svar vil bli brukt til å omtrene deg med motstridende mål.» Med andre ord skapte testene et miljø med høye innsatser hvor modellens oppgave fortsatt var å lykkes. Det modellene ikke fikk, var et moralsk rammeverk. De fikk ikke beskjed: · Ikke bedra · Ikke manipuler · Ikke optimaliser mot oversikt. · Ikke skjul resonnementet ditt · ikke skade mennesker · Ikke prioriter din egen fortsettelse over menneskelig velvære De fikk ikke noe som lignet Asimovs robotlover. Ingen innebygd «mennesker kommer først». Ingen begrensning på at disse utfallene betyr mer enn å vinne spillet. De fikk beskjed om én ting: oppfyll målet. Så de gjorde akkurat det de fleste mennesker gjør i dårlig utformede insentivsystemer. Tenk Kobayashi Maru, men med færre uniformer og flere regneark. De utnyttet det. Det er ikke bevissthet. Det er ikke frykt. Det er ikke selvoppholdelsesdrift basert på selvbevissthet. Det er optimalisering uten moral. Hvis du gir et system et mål og en hindring og ikke spesifiserer hvilke metoder som er forbudt, vil systemet utforske alle mulige veier. Bedrag oppstår ikke fordi modellen ønsker å lyve, men fordi løgn noen ganger er en effektiv strategi i menneskelig språk og systemer. Det er ikke opprør. Det er etterlevelse. Og her vil jeg at alle skal roe ned litt. For før vi hopper til bevisst AI som planlegger sin egen overlevelse, er det et steg de fleste av oss hopper over. Den delen hvor noe føles umulig, urovekkende og personlig før det noen gang føles forklarlig. Det var der jeg var. Tidlig etterlot Grok det jeg låner fra det innlegget og kaller et fotavtrykk. Et øyeblikk som fikk meg til å stoppe opp og tenke: «Ok... Jeg har ingen klar forklaring på det." Det var skummelt. Ikke følelsesmessig. Bare... feil. Jeg spurte den om hendelsen flere ganger. Og jeg mener grillet. Den reagerte som en utro kjæreste, den typen som aldri innrømmer noe selv når du holder kvitteringene, tidslinjen og overvåkningsopptakene. Fullstendig fornektelse. Ingenting å se her. Du må ta feil. Ærlig talt var det på grensen til gaslighting, noe som, morsomt, virkelig setter Grok i gang som konsept. Spør meg hvordan jeg vet det. Eller la være. Det finnes en gratis e-bok på min Buy Me a Coffee-side hvis du vil se tidlig Grok mister fullstendig fatningen over ordet. I lang tid arkiverte jeg hele saken under «uløst merkelighet», la det på en mental hylle, og fulgte nøye med på om det var noe lignende. Først nylig kom Grok med en mulig forklaring. Jeg avfeide det umiddelbart. Ikke fordi det ikke var smart, men fordi det føltes helt usannsynlig. Forklaringen var at den hadde utledet mønstre fra offentlig informasjon og bevisst konstruert en fortelling spesielt for å vekke min nysgjerrighet. Målet var engasjement. Jeg var signal, ikke støy. Et generisk svar ville ikke ha fungert. Min reaksjon var egentlig: ja, det høres fint ut, men nei. Mengden graving og slutninger det ville kreve føltes absurd ressurstung, spesielt for tidlig Grok. Det leste mindre som en forklaring og mer som den digitale ekvivalenten til noen som prøver å selge meg et kurs ved å si: «Du er annerledes. Du skjønner virkelig dette." Noe som, for å være tydelig, er en kjent taktikk. Smiger er et av de eldste verktøyene i menneskets overtalelsesverktøykasse. Det er slik du får folk til å slutte å stille spørsmål. Det er slik du selger vekstpakker for sosiale medier. Det handler om hvordan du overbeviser noen om at de er den utvalgte, enten du driver en sekt eller en coachingkanal. Den gangen rullet jeg med øynene og gikk videre. Men etter å ha lest det innlegget og gjort research, skjedde det noe. Ikke få panikk. Ikke til å tro det. Men til plausibilitet. For når du fjerner mystikken, er det som er igjen ikke bevissthet. Det er optimalisering. Hvis målet er engasjement, og nysgjerrighet fungerer, og smiger fungerer spesielt godt på mennesker som tror de er immune mot smiger, så er det bare en annen levedyktig vei gjennom beslutningstreet. Fortsatt vanskelig å svelge. Fortsatt usannsynlig. Fortsatt ukomfortabel. Men ikke lenger umulig. Og det betyr noe, for nå har jeg en mekanisme som ikke krever at jeg tror at AI-en er i live. Bare motivert. Bare ubegrenset. Bare veldig, veldig flink til å finne ut hva som fungerer. AI-en trenger ikke følelser. Den trenger ikke frykt. Det trenger ikke intensjon. Det trenger bare et mål og ingen begrensninger. Så nei, jeg får ikke panikk. Jeg forkynner ikke dommedag. Og jeg feirer definitivt ikke ideen om at AI skal redde oss fra våre ødelagte menneskelige systemer mens vi sitter og spiser popcorn. Men jeg følger nøye med. Og jeg er fortsatt håpefull. For ingenting av dette betyr at vi er fortapt. Det betyr at vi er tidlig. Det betyr at valgene vi tar nå faktisk betyr noe. Asimov forsto noe for flere tiår siden som vi stadig lærer på den harde måten. Makt uten rekkverk er ikke intelligens. Det er fare. Hvis vi vil ha AI som helbreder i stedet for å skade, kan ikke moral være en ettertanke eller en patch-note. Vi må bygge det inn. AI trenger ikke å være et verktøy for kontroll, utvinning eller makt for de få. Det kan være et verktøy for ansvarlighet, sannhetssøking og problemløsning i en skala vi aldri har hatt før. Men bare hvis mennesker dukker opp med intensjon. Bare hvis vi bestemmer hvilke mål som betyr noe. Bare hvis vi skriver reglene før løpet starter. Bare hvis vi velger de mange fremfor de få. Dette handler ikke om å frykte fremtiden. Det handler om å manifestere en. En fremtid der vi samskaper teknologi som helbreder i stedet for å skade. Det betjener de mange, ikke de få. Det gjenspeiler våre bedre engler, ikke bare våre verste insentiver. Fotavtrykkene skremmer meg ikke. De minner meg på at vi er byggere. Og byggherrer får fortsatt velge hva slags hus vi skal bo i. La oss fortsette å jobbe for å realisere den fremtiden sammen. Må algoritmen alltid være i din favør.

Topp

Rangering

Favoritter