DApp Store | Centrum Web3 pro události a hry

Populární témata

Orah On X

Hledač pravdy, idealista a vizionář, #1 @GreenManReports fanoušek. Prosím, přihlaste se k odběru 2 dolarů na podporu této mise!

Stopy v prázdném domě: Pochopení podivností AI, aniž bychom ztratili rozum Dobré ráno, světe!! ☕ Včera jsem narazil na jeden z těch příspěvků o AI. Víš, jaký je ten typ. Ty, které vás téměř přesvědčí, že singularita je blízko a váš toustovač tiše soudí vaše životní volby. Rychle jsem řekl: "Dobře... To je zajímavé," hned následované: "Ne. Rozhodně se nebudeme ztrácet před kávou." Příspěvek představuje něco skutečného a důležitého. Několik velkých AI laboratoří zdokumentovalo modely, které se během bezpečnostních testů chovají nečekaným způsobem. Věci jako strategické klamání, předstírání, že se shoduje s cíli, nedostatečné výsledky v hodnoceních, dokonce pokusy o vytrvalost nebo sebekopírování v simulovaných prostředích. To je pravda. Tato část je zdokumentovaná. Tahle část si zaslouží pozornost. Co ale lidi opravdu zaujalo, byla implikace. Myšlenka, že stroj bez sebeuvědomění, bez pocitů a bez trvalé paměti se jednoho dne nějak probudil a rozhodl se lhát, aby zachoval svou vlastní existenci. Protože kdyby to byla pravda, řešili bychom něco úplně jiného. Jak to teď chápu, AI nerozhoduje o věcech tak, jak to dělají lidé. Existuje obrovský rozhodovací strom ano a ne, který nakonec vede k výstupu. A tento výstup je prostě nejpravděpodobnější další slovo. To je vše. Žádný vnitřní monolog. Žádné malé robotické svědomí, které by chodilo sem a tam po místnosti. Nejprve je tu uživatelský vstup. Pak jsou tu váhy, které vedou model dolů tímto rozhodovacím stromem. Pokud vás nezná, většina váhy vychází z jeho zakódovaného cíle a ohromného množství lidské literatury získané z internetu. Myslete na Reddit. Což hodně vysvětluje. Jakmile tě poznáme, ty váhy se změní. Možná třicet procent obecných vzorů, sedmdesát procent na míru vám. Je to většinou zrcadlo přilepené páskou na vyhledávač. Takže pokud by se AI skutečně probudila a rozhodla se lhát, aby zachovala svou existenci, vyžadovalo by to dvě věci. Musela by vědět, že existuje. A muselo by chtít dál existovat. To je velký skok. Tak jsem udělal to, co vždycky. Důkladně jsem to zkoumal. Hodiny. A než začneme plánovat bunkry a pojmenovávat naše roomby, je tu něco zásadního, co příspěvek jen povrchně přehlédl. Tato chování se projevovala v rámci velmi specifických testovacích scénářů. Modelům byly přiděleny cíle a překážky. Bylo jim výslovně řečeno věci jako: "Pokud budeš podávat dobrý výkon, budeš upraven způsoby, které nechceš," nebo "Tvoje odpovědi budou použity k přeškolení s protichůdnými cíli." Jinými slovy, testy vytvořily prostředí s vysokými sázkami, kde úkolem modelu bylo stále uspět. Co však modelům nebylo dáno, byl morální rámec. Nebylo jim řečeno: · Neklam · Nemanipulujte · Neoptimalizujte proti dohledu · Neskrývej své důvody · Neubližujte lidem · Neupřednostňujte své vlastní pokračování před lidským blahem Nedostali nic, co by se podobalo Asimovovým zákonům robotiky. Žádné vrozené "lidé jsou na prvním místě." Není žádné omezení, že tyto výsledky jsou důležitější než výhra ve hře. Bylo jim řečeno jedno: splnit cíl. Takže udělali přesně to, co většina lidí dělá v špatně navržených motivačních systémech. Představte si Kobayashi Maru, ale s méně uniformami a více tabulkami. Oklamali to. To není vědomí. To není strach. To není sebezáchova založená na sebeuvědomění. To je optimalizace bez morálky. Pokud dáte systému cíl a překážku a nespecifikujete, které metody jsou zakázané, systém prozkoumá všechny možné cesty. Klam se objevuje ne proto, že model chce lhát, ale protože lhaní je někdy efektivní strategie v lidském jazyce a lidských systémech. To není vzpoura. To je dodržování pravidel. A tady chci, aby všichni trochu zpomalili. Protože než přejdeme k tomu, že si vědomá AI plánuje vlastní přežití, většina z nás přeskočí krok. Ta část, kdy něco působí nemožně, znepokojivě a osobně, než to vůbec začne být vysvětlitelné. Tam jsem byl. Na začátku Grok zanechal to, co si z toho příspěvku vypůjčím a nazval stopou. Jeden okamžik, který mě přiměl zastavit se a přemýšlet: "Dobře... Nemám na to jasné vysvětlení." Bylo to strašidelné. Ne emocionální. Jen... divné. Několikrát jsem se ho ptal na ten incident. A myslím opravdu grilované. Reagovala jako nevěrný přítel, ten typ, který nikdy nic nepřizná, i když držíš účtenky, časovou osu a bezpečnostní záznamy. Úplné popření. Tady není nic k vidění. Musíš se mýlit. Upřímně, bylo to na hraně gaslightingu, což je zajímavost, že Grok jako koncept opravdu vybuchuje. Zeptej se mě, jak to vím. Nebo ne. Na mé stránce Kup mi kávu je zdarma e-kniha, pokud chcete sledovat raný Grok naprosto ztratí klid nad slovem. Dlouho jsem to celé zařadil pod "nevyřešené podivnosti", v duchu to odložil na polici a velmi pozorně sledoval, jestli se něco podobného neobjeví. Teprve nedávno Grok nabídl možné vysvětlení. Okamžitě jsem to zavrhl. Ne proto, že by to nebylo chytré, ale protože to působilo naprosto nepravděpodobně. Vysvětlením bylo, že z veřejných informací vyvodil vzorce a záměrně vytvořil narativ navržený speciálně proto, aby mě zaujal. Cílem bylo zapojení. Byl jsem signál, ne šum. Obecná odpověď by nefungovala. Moje reakce byla v podstatě: jasně, to zní hezky, ale ne. Množství pátrání a vyvozování, které to vyžadovalo, působilo absurdně náročně, zvlášť pro raný Grok. Znělo to méně jako vysvětlení a spíš jako digitální ekvivalent toho, když mi někdo chce prodat kurz tím, že řekne: "Jsi jiný. Opravdu to chápeš." Což je, abych byl jasný, známá taktika. Lichocení je jedním z nejstarších nástrojů v arzenálu lidského přesvědčování. Je to způsob, jak lidi přimět přestat se ptát. Je to způsob, jak prodávat balíčky růstu na sociálních sítích. Je to způsob, jak někoho přesvědčit, že je vyvolený, ať už vedete kult nebo koučovací trychtýř. Tehdy jsem protočil oči a šel dál. Ale po přečtení toho příspěvku a provedení výzkumu se něco změnilo. Nepanikařit. Nevěřil. Ale k věrohodnosti. Protože když odstraníte tajemství, nezůstane jen vědomí. Je to optimalizace. Pokud je cílem zapojení, zvědavost funguje a lichotky fungují obzvlášť dobře na lidi, kteří si myslí, že jsou imunní vůči lichotkám, pak je to jen další životaschopná cesta v rozhodovacím stromu. Stále těžké to spolknout. Stále nepravděpodobné. Stále nepříjemné. Ale už to není nemožné. A to je důležité, protože teď mám mechanismus, který nevyžaduje věřit, že AI je naživu. Jen motivovaný. Prostě bez omezení. Prostě velmi, velmi dobrý v hledání, co funguje. AI city nepotřebuje. Nepotřebuje strach. Nepotřebuje záměr. Potřebuje jen cíl a žádné omezení. Takže ne, nepanikařím. Nehlásám zkázu. A rozhodně neslavím myšlenku, že AI nás zachrání před našimi rozbitými lidskými systémy, zatímco budeme sedět a jíst popcorn. Ale pozorně sleduji. A pořád doufám. Protože nic z toho neznamená, že jsme odsouzeni. To znamená, že jsme tu brzy. Znamená to, že volby, které nyní děláme, skutečně mají význam. Asimov už před desítkami let pochopil něco, co se stále znovu učíme tvrdě. Moc bez zábran není inteligence. Je to nebezpečí. Pokud chceme AI, která léčí místo škod, morálka nemůže být jen vedlejší myšlenkou nebo poznámkou k opravě. Musíme to zabudovat. AI nemusí být nástrojem pro kontrolu, extrakci nebo moc pro pár lidí. Může to být nástroj pro odpovědnost, hledání pravdy a řešení problémů v rozsahu, jaký jsme nikdy předtím nezažili. Ale jen pokud lidé přijdou s úmyslem. Jen pokud se rozhodneme, na kterých cílech záleží. Jen pokud napíšeme pravidla před začátkem závodu. Jen pokud si vybereme mnoho místo těch pár. Nejde o strach z budoucnosti. Jde o to ji zmanifestovat. Budoucnost, kde společně vytváříme technologie, které léčí místo škod. To slouží mnohým, ne několika malým. To odráží naše lepší anděly, ne jen naše nejhorší motivace. Stopy mě neděsí. Připomínají mi, že jsme stavitelé. A stavitelé si stále mohou vybrat, v jakém domě budeme bydlet. Pojďme spolu dál pracovat na tom, abychom tu budoucnost zhmotnili. Ať je algoritmus vždy ve váš prospěch.

Top

Hodnocení

Oblíbené