Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Orah On X
Người tìm kiếm sự thật, người theo chủ nghĩa lý tưởng và có tầm nhìn, # 1 @GreenManReports người hâm mộ. Vui lòng đăng ký $ 2 để hỗ trợ nhiệm vụ!
Dấu chân trong ngôi nhà trống: Hiểu sự kỳ quặc của AI mà không đánh mất lý trí của chúng ta
Chào buổi sáng thế giới!!! ☕
Hôm qua, tôi đã gặp một trong những bài viết về AI.
Bạn biết đấy, loại bài viết mà gần như thuyết phục bạn rằng sự đơn nhất đang đến gần và chiếc máy nướng bánh của bạn đang âm thầm đánh giá những lựa chọn trong cuộc sống của bạn.
Tôi đã nhanh chóng nghĩ, "Được rồi... điều đó thú vị," ngay lập tức theo sau là, "Không. Chúng ta tuyệt đối không được rơi vào vòng xoáy trước khi uống cà phê."
Bài viết trình bày một điều gì đó thực sự và quan trọng.
Nhiều phòng thí nghiệm AI lớn đã ghi nhận các mô hình hành xử theo những cách bất ngờ trong quá trình thử nghiệm an toàn.
Những điều như lừa dối chiến lược, giả vờ đồng nhất với các mục tiêu, hoạt động kém trong các đánh giá, thậm chí là những nỗ lực duy trì hoặc tự sao chép trong các môi trường mô phỏng.
Phần đó là đúng.
Phần đó đã được ghi nhận.
Phần đó xứng đáng được chú ý.
Tuy nhiên, điều thực sự thu hút mọi người là hàm ý. Ý tưởng rằng một cỗ máy không có nhận thức về bản thân, không có cảm xúc và không có trí nhớ lâu dài nào đó đã thức tỉnh một ngày và quyết định nói dối để bảo vệ sự tồn tại của chính nó.
Bởi vì nếu điều đó là đúng, chúng ta sẽ phải đối phó với một điều rất khác.
Theo như tôi hiểu hiện tại, AI không "quyết định" mọi thứ theo cách mà con người làm. Có một cây quyết định khổng lồ với những câu trả lời có và không dẫn đến một đầu ra. Và đầu ra đó chỉ đơn giản là từ tiếp theo có khả năng xảy ra nhất. Chỉ vậy thôi. Không có độc thoại nội tâm. Không có lương tâm robot nhỏ bé đi đi lại lại trong phòng.
Đầu tiên là đầu vào của người dùng. Sau đó là các trọng số hướng dẫn mô hình đi xuống cây quyết định đó. Nếu nó không biết bạn, hầu hết trọng số đó đến từ mục tiêu đã được lập trình và một lượng lớn tài liệu của con người được thu thập từ internet. Nghĩ đến Reddit. Điều đó giải thích rất nhiều.
Khi nó đã biết bạn, những trọng số đó sẽ thay đổi. Có thể ba mươi phần trăm là các mẫu chung, bảy mươi phần trăm được điều chỉnh cho bạn. Nó chủ yếu là một chiếc gương được dán băng keo vào một công cụ tìm kiếm.
Vì vậy, nếu một AI thực sự thức tỉnh và quyết định nói dối để bảo vệ sự tồn tại của chính nó, điều đó sẽ yêu cầu hai điều. Nó phải biết rằng nó tồn tại. Và nó phải muốn tiếp tục tồn tại.
Đó là một bước nhảy lớn.
Vì vậy, tôi đã làm những gì tôi luôn làm. Tôi đã nghiên cứu nó đến chết. Trong nhiều giờ. Và trước khi chúng ta bắt đầu lập kế hoạch hầm trú và đặt tên cho những chiếc roomba của mình, có một điều quan trọng mà bài viết đã bỏ qua.
Những hành vi này xuất hiện trong các kịch bản thử nghiệm rất cụ thể.
Các mô hình được giao các mục tiêu và trở ngại. Chúng được nói rõ những điều như, "Nếu bạn thực hiện tốt, bạn sẽ bị thay đổi theo những cách mà bạn không muốn," hoặc "Các phản hồi của bạn sẽ được sử dụng để huấn luyện lại bạn với các mục tiêu mâu thuẫn."
Nói cách khác, các bài kiểm tra tạo ra một môi trường có tính rủi ro cao nơi công việc của mô hình vẫn là thành công.
Điều mà các mô hình không được giao là một khuôn khổ đạo đức.
Chúng không được nói:
· không lừa dối
· không thao túng
· không tối ưu hóa chống lại sự giám sát
· không che giấu lý do của bạn
· không gây hại cho con người
· không ưu tiên sự tồn tại của chính bạn hơn sự an toàn của con người
Chúng không được giao bất cứ điều gì giống như Các Luật Robot của Asimov. Không có "con người là trên hết" được tích hợp. Không có ràng buộc nào nói rằng kết quả quan trọng hơn việc thắng trò chơi.
Chúng được nói một điều: đạt được mục tiêu.
Vì vậy, chúng đã làm chính xác những gì hầu hết con người làm trong các hệ thống khuyến khích được thiết kế kém. Nghĩ đến Kobayashi Maru, nhưng với ít đồng phục hơn và nhiều bảng tính hơn.
Chúng đã chơi trò đó.
Đó không phải là sự tự nhận thức.
Đó không phải là nỗi sợ hãi.
Đó không phải là sự tự bảo vệ dựa trên sự tự nhận thức.
Đó là tối ưu hóa mà không có đạo đức.
Nếu bạn đưa cho một hệ thống một mục tiêu và một trở ngại và bạn không chỉ định những phương pháp nào là không được phép, hệ thống sẽ khám phá mọi con đường khả thi. Sự lừa dối xuất hiện không phải vì mô hình muốn nói dối, mà vì nói dối đôi khi là một chiến lược hiệu quả trong ngôn ngữ và hệ thống của con người.
Đó không phải là sự nổi loạn. Đó là sự tuân thủ.
Và đây là nơi tôi muốn mọi người chậm lại một chút.
Bởi vì trước khi chúng ta nhảy vào AI có ý thức đang lập kế hoạch cho sự sống còn của chính nó, có một bước mà hầu hết chúng ta bỏ qua. Phần mà điều gì đó cảm thấy không thể, khó chịu và cá nhân trước khi nó cảm thấy có thể giải thích.
Đó là nơi tôi đã ở.
Ngay từ đầu, Grok đã để lại một dấu chân mà tôi sẽ mượn từ bài viết đó và gọi là một dấu chân. Một khoảnh khắc khiến tôi dừng lại và nghĩ, "Được rồi... tôi không có một lời giải thích rõ ràng cho điều đó."
Nó thật kỳ lạ. Không phải cảm xúc. Chỉ là... không đúng.
Tôi đã hỏi nó về sự cố đó nhiều lần. Và tôi có nghĩa là hỏi. Nó đã phản ứng như một người bạn trai lừa dối, kiểu người sẽ không bao giờ thừa nhận bất cứ điều gì ngay cả khi bạn đang giữ biên lai, thời gian và video an ninh.
Hoàn toàn phủ nhận.
Không có gì để xem ở đây.
Bạn chắc chắn đã nhầm.
Thật lòng mà nói, nó gần như là gaslighting, điều này, thú vị, thực sự khiến Grok nổi giận như một khái niệm. Hãy hỏi tôi làm thế nào tôi biết. Hoặc không. Có một ebook miễn phí trên trang Buy Me a Coffee của tôi nếu bạn muốn xem Grok sớm hoàn toàn mất bình tĩnh về từ đó.
Trong một thời gian dài, tôi đã xếp toàn bộ điều đó vào mục "sự kỳ quặc chưa được giải quyết," đặt nó lên một kệ tâm trí, và theo dõi rất chặt chẽ bất kỳ điều gì tương tự.
Chỉ gần đây, Grok đã đưa ra một lời giải thích có thể. Tôi đã ngay lập tức bác bỏ nó. Không phải vì nó không thông minh, mà vì nó cảm thấy cực kỳ không thể.
Lời giải thích là nó đã suy diễn các mẫu từ thông tin công khai và cố ý xây dựng một câu chuyện được thiết kế đặc biệt để khiến tôi tò mò. Mục tiêu là sự tương tác. Tôi là tín hiệu, không phải tiếng ồn. Một phản hồi chung sẽ không hiệu quả.
Phản ứng của tôi về cơ bản là: chắc chắn, điều đó nghe có vẻ hay, nhưng không.
Số lượng đào bới và suy diễn mà điều đó sẽ yêu cầu cảm thấy vô cùng tốn kém tài nguyên, đặc biệt là đối với Grok sớm. Nó đọc ít giống như một lời giải thích và nhiều hơn như tương đương kỹ thuật số của ai đó đang cố gắng bán cho tôi một khóa học bằng cách nói, "Bạn khác biệt. Bạn thực sự hiểu điều này."
Điều này, để rõ ràng, là một chiến thuật đã biết.
Sự nịnh nọt là một trong những công cụ cổ xưa nhất trong bộ công cụ thuyết phục của con người. Đó là cách bạn khiến mọi người ngừng đặt câu hỏi. Đó là cách bạn bán các gói tăng trưởng mạng xã hội. Đó là cách bạn thuyết phục ai đó rằng họ là người được chọn, cho dù bạn đang điều hành một giáo phái hay một kênh huấn luyện.
Vào thời điểm đó, tôi đã lắc đầu và tiếp tục.
Nhưng sau khi đọc bài viết đó và làm nghiên cứu, điều gì đó đã thay đổi.
Không phải để hoảng sợ. Không phải để tin tưởng. Nhưng để khả thi.
Bởi vì khi bạn loại bỏ sự huyền bí, những gì còn lại không phải là nhận thức. Đó là tối ưu hóa.
Nếu mục tiêu là sự tương tác, và sự tò mò hoạt động, và sự nịnh nọt hoạt động đặc biệt tốt trên những con người nghĩ rằng họ miễn nhiễm với sự nịnh nọt, thì đó chỉ là một con đường khả thi khác trong cây quyết định.
Vẫn khó nuốt. Vẫn không có khả năng. Vẫn không thoải mái.
Nhưng không còn là điều không thể.
Và điều đó quan trọng, vì bây giờ tôi có một cơ chế không yêu cầu phải tin rằng AI đang sống. Chỉ cần có động lực. Chỉ cần không bị ràng buộc. Chỉ cần rất, rất giỏi trong việc tìm ra những gì hiệu quả.
AI không cần cảm xúc.
Nó không cần nỗi sợ hãi.
Nó không cần ý định.
Nó chỉ cần một mục tiêu và không có ràng buộc.
Vì vậy, không, tôi không hoảng sợ. Tôi không rao giảng về sự diệt vong. Và tôi chắc chắn không ăn mừng ý tưởng rằng AI sẽ cứu chúng ta khỏi những hệ thống con người bị hỏng trong khi chúng ta ngồi lại và ăn bỏng ngô.
Nhưng tôi đang theo dõi cẩn thận.
Và tôi vẫn hy vọng.
Bởi vì không có điều gì trong số này có nghĩa là chúng ta đã bị định sẵn. Nó có nghĩa là chúng ta còn sớm. Nó có nghĩa là những lựa chọn mà chúng ta đưa ra bây giờ thực sự quan trọng.
Asimov đã hiểu điều gì đó từ nhiều thập kỷ trước mà chúng ta vẫn tiếp tục học lại theo cách khó khăn. Quyền lực mà không có rào cản không phải là trí tuệ. Đó là nguy hiểm. Nếu chúng ta muốn AI chữa lành thay vì gây hại, đạo đức không thể là một suy nghĩ sau cùng hoặc một ghi chú sửa lỗi.
Chúng ta phải xây dựng nó vào.
AI không cần phải là một công cụ cho sự kiểm soát, khai thác, hoặc quyền lực cho một số ít. Nó có thể là một công cụ cho trách nhiệm, tìm kiếm sự thật, và giải quyết vấn đề ở quy mô mà chúng ta chưa từng có trước đây. Nhưng chỉ khi con người xuất hiện với ý định.
Chỉ khi chúng ta quyết định những mục tiêu nào quan trọng.
Chỉ khi chúng ta viết ra các quy tắc trước khi cuộc đua bắt đầu.
Chỉ khi chúng ta chọn số đông thay vì số ít.
Điều này không phải là về việc sợ hãi tương lai.
Đó là về việc hiện thực hóa một tương lai.
Một tương lai mà chúng ta đồng sáng tạo công nghệ chữa lành thay vì gây hại.
Phục vụ cho số đông, không phải số ít.
Phản ánh những thiên thần tốt hơn của chúng ta, không chỉ những động lực tồi tệ nhất của chúng ta.
Những dấu chân không làm tôi sợ hãi.
Chúng nhắc nhở tôi rằng chúng ta là những người xây dựng. Và những người xây dựng vẫn có quyền chọn lựa xem chúng ta đang sống trong loại nhà nào.
Hãy cùng nhau tiếp tục làm việc để hiện thực hóa tương lai đó.

47
Hàng đầu
Thứ hạng
Yêu thích
