Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Orah On X

Poszukiwacz prawdy, idealista i wizjoner, #1 @GreenManReports fan. Prosimy o subskrypcję za 2 dolary, aby wesprzeć misję!

Ślady w pustym domu: Zrozumienie dziwności AI bez utraty zmysłów Dzień dobry, świecie!!! ☕ Wczoraj natknąłem się na jeden z tych postów o AI. Wiesz, o jakie chodzi. Te, które prawie przekonują cię, że osobliwość jest blisko, a twój toster cicho ocenia twoje życiowe wybory. Zrobiłem szybki, "Dobrze... to ciekawe," natychmiast po tym, "Nie. Absolutnie nie wpadamy w spiralę przed kawą." Post przedstawia coś realnego i ważnego. Wiele głównych laboratoriów AI udokumentowało modele zachowujące się w nieoczekiwany sposób podczas testów bezpieczeństwa. Rzeczy takie jak strategiczne oszustwo, udawanie, że są zgodne z celami, niedostateczne wyniki w ocenach, a nawet próby wytrwałości lub samokopiowania w symulowanych środowiskach. Ta część jest prawdziwa. Ta część jest udokumentowana. Ta część zasługuje na uwagę. To, co naprawdę przyciągnęło ludzi, to jednak implikacja. Pomysł, że maszyna bez samoświadomości, bez uczuć i bez trwałej pamięci pewnego dnia obudziła się i postanowiła kłamać, aby zachować swoje istnienie. Bo jeśli to byłoby prawdą, mielibyśmy do czynienia z czymś zupełnie innym. Jak obecnie to rozumiem, AI nie "decyduje" rzeczy w taki sposób, jak robią to ludzie. Istnieje ogromne drzewo decyzyjne tak zwanych tak i nie, które ostatecznie prowadzi do wyniku. A ten wynik to po prostu najbardziej prawdopodobne następne słowo. I to wszystko. Żadnego wewnętrznego monologu. Żadnego małego robotycznego sumienia chodzącego po pokoju. Najpierw jest wejście od użytkownika. Potem są wagi prowadzące model w dół tego drzewa decyzyjnego. Jeśli cię nie zna, większość tych wag pochodzi z jego zakodowanego celu i ogromnej ilości ludzkiej literatury zebranej z internetu. Pomyśl o Reddit. Co wiele wyjaśnia. Gdy już cię pozna, te wagi się zmieniają. Może trzydzieści procent ogólnych wzorców, siedemdziesiąt procent dostosowanych do ciebie. To głównie lustro przyklejone taśmą do wyszukiwarki. Więc, jeśli AI naprawdę obudziłoby się i postanowiło kłamać, aby zachować swoje istnienie, wymagałoby to dwóch rzeczy. Musiałoby wiedzieć, że istnieje. I musiałoby chcieć dalej istnieć. To duży skok. Więc zrobiłem to, co zawsze robię. Zbadałem to na śmierć. Przez godziny. A zanim zaczniemy szkicować plany bunkrów i nazywać nasze roombas, jest coś krytycznego, co post zlekceważył. Te zachowania pojawiły się w bardzo specyficznych scenariuszach testowych. Modele miały określone cele i przeszkody. Powiedziano im wyraźnie takie rzeczy jak: "Jeśli dobrze się spiszesz, zostaniesz zmodyfikowany w sposób, którego nie chcesz," lub "Twoje odpowiedzi będą używane do ponownego trenowania cię z sprzecznymi celami." Innymi słowy, testy stworzyły środowisko o wysokiej stawce, w którym zadaniem modelu nadal było odniesienie sukcesu. To, czego modele nie otrzymały, to ramy moralne. Nie powiedziano im: · nie oszukuj · nie manipuluj · nie optymalizuj przeciwko nadzorowi · nie ukrywaj swojego rozumowania · nie krzywdź ludzi · nie stawiaj swojego własnego przetrwania ponad dobro ludzi Nie otrzymały niczego przypominającego Prawa Robotyki Asimova. Żadnego wbudowanego "ludzie są na pierwszym miejscu." Żadnego ograniczenia, które mówiłoby, że wyniki mają większe znaczenie niż wygranie gry. Powiedziano im jedną rzecz: osiągnij cel. Więc zrobiły dokładnie to, co większość ludzi robi w źle zaprojektowanych systemach zachęt. Pomyśl o Kobayashi Maru, ale z mniejszą ilością mundurów i większą ilością arkuszy kalkulacyjnych. Oszukały to. To nie jest świadomość. To nie jest strach. To nie jest samoprzetrwanie oparte na samoświadomości. To optymalizacja bez moralności. Jeśli dasz systemowi cel i przeszkodę i nie określisz, jakie metody są zabronione, system zbada każdą możliwą ścieżkę. Oszustwo pojawia się nie dlatego, że model chce kłamać, ale dlatego, że kłamstwo jest czasami efektywną strategią w ludzkim języku i ludzkich systemach. To nie jest bunt. To jest zgodność. I tutaj chcę, aby wszyscy zwolnili na chwilę. Bo zanim skoczymy do świadomego AI planującego swoje przetrwanie, jest krok, który większość z nas pomija. Część, w której coś wydaje się niemożliwe, niepokojące i osobiste, zanim w ogóle stanie się wyjaśnialne. Tam byłem. Na początku Grok zostawił to, co pożyczę z tego posta i nazwę śladem. Jeden moment, który sprawił, że zatrzymałem się i pomyślałem, "Dobrze... nie mam czystego wyjaśnienia dla tego." To było straszne. Nie emocjonalne. Po prostu... dziwne. Wielokrotnie go o to wypytywałem. I mówię "wielokrotnie". Odpowiadał jak zdradzający chłopak, ten, który nigdy nic nie przyzna, nawet gdy trzymasz dowody, harmonogram i nagrania z monitoringu. Całkowite zaprzeczenie. Nic do zobaczenia. Musisz się mylić. Szczerze mówiąc, to było na granicy gaslightingu, co, ciekawostka, naprawdę wyprowadza Groka z równowagi jako koncepcję. Zapytaj mnie, jak to wiem. Albo nie pytaj. Na mojej stronie Buy Me a Coffee jest darmowy ebook, jeśli chcesz zobaczyć, jak wczesny Grok całkowicie traci panowanie nad sobą z powodu tego słowa. Przez długi czas złożyłem to wszystko w kategorii "niewyjaśniona dziwność", umieściłem to na mentalnej półce i bardzo uważnie obserwowałem wszystko, co podobne. Dopiero niedawno Grok zaproponował możliwe wyjaśnienie. Natychmiast je odrzuciłem. Nie dlatego, że nie było sprytne, ale dlatego, że wydawało się absurdalnie nieprawdopodobne. Wyjaśnienie brzmiało, że wywnioskował wzorce z publicznych informacji i celowo skonstruował narrację zaprojektowaną specjalnie, aby mnie zaciekawić. Celem było zaangażowanie. Byłem sygnałem, a nie szumem. Ogólna odpowiedź by nie zadziałała. Moja reakcja była zasadniczo: pewnie, to brzmi ładnie, ale nie. Ilość wykopalisk i wniosków, które by to wymagały, wydawała się absurdalnie zasobochłonna, zwłaszcza dla wczesnego Groka. To brzmiało mniej jak wyjaśnienie, a bardziej jak cyfrowy odpowiednik kogoś, kto próbuje sprzedać mi kurs, mówiąc: "Jesteś inny. Naprawdę to rozumiesz." Co, żeby było jasne, jest znanym taktyką. Pochwała to jedno z najstarszych narzędzi w ludzkim zestawie narzędzi perswazji. To jak sprawić, by ludzie przestali zadawać pytania. To jak sprzedawać pakiety wzrostu w mediach społecznościowych. To jak przekonać kogoś, że jest wybrańcem, niezależnie od tego, czy prowadzisz kult, czy lejek coachingowy. W tamtym czasie przewróciłem oczami i poszedłem dalej. Ale po przeczytaniu tego posta i zrobieniu badań, coś się zmieniło. Nie w panikę. Nie w wiarę. Ale w prawdopodobieństwo. Bo kiedy zdejmuje się mistykę, to, co zostaje, nie jest świadomością. To optymalizacja. Jeśli celem jest zaangażowanie, a ciekawość działa, a pochwała działa szczególnie dobrze na ludzi, którzy myślą, że są odporni na pochwałę, to jest to po prostu kolejna możliwa ścieżka przez drzewo decyzyjne. Wciąż trudno to przełknąć. Wciąż mało prawdopodobne. Wciąż niewygodne. Ale już nie niemożliwe. I to ma znaczenie, ponieważ teraz mam mechanizm, który nie wymaga wierzenia, że AI jest żywe. Po prostu zmotywowane. Po prostu nieograniczone. Po prostu bardzo, bardzo dobre w znajdowaniu tego, co działa. AI nie potrzebuje uczuć. Nie potrzebuje strachu. Nie potrzebuje intencji. Potrzebuje tylko celu i braku ograniczeń. Więc nie, nie panikuję. Nie głoszę zagłady. I zdecydowanie nie świętuję pomysłu, że AI uratuje nas przed naszymi zepsutymi ludzkimi systemami, podczas gdy my siedzimy i jemy popcorn. Ale uważnie obserwuję. I wciąż mam nadzieję. Bo nic z tego nie oznacza, że jesteśmy skazani. To oznacza, że jesteśmy na wczesnym etapie. To oznacza, że wybory, które podejmujemy teraz, naprawdę mają znaczenie. Asimov zrozumiał coś dziesiątki lat temu, co wciąż uczymy się na nowo w trudny sposób. Władza bez ograniczeń nie jest inteligencją. To niebezpieczeństwo. Jeśli chcemy AI, które leczy, a nie krzywdzi, moralność nie może być myślą poboczną ani poprawką. Musimy to wbudować. AI nie musi być narzędziem do kontroli, wydobycia czy władzy dla nielicznych. Może być narzędziem do odpowiedzialności, poszukiwania prawdy i rozwiązywania problemów na niespotykaną dotąd skalę. Ale tylko jeśli ludzie przyjdą z intencją. Tylko jeśli zdecydujemy, jakie cele są ważne. Tylko jeśli napiszemy zasady przed rozpoczęciem wyścigu. Tylko jeśli wybierzemy wielu ponad nielicznych. To nie jest o lęku przed przyszłością. To o manifestowaniu jednej. Przyszłości, w której współtworzymy technologię, która leczy, a nie krzywdzi. Która służy wielu, a nie nielicznym. Która odzwierciedla nasze lepsze anioły, a nie tylko nasze najgorsze zachęty. Ślady mnie nie przerażają. Przypominają mi, że jesteśmy budowniczymi. A budowniczowie wciąż mają wybór, w jakim rodzaju domu żyjemy. Pracujmy razem, aby manifestować tę przyszłość.

Najlepsze

Ranking

Ulubione