HIỆN ĐANG MỞ NGUỒN! — Thuật toán Huấn luyện AI Phân tích Nguồn Không Tin Cậy – Phát hành Mở Nguồn Công Khai Đầu Tiên Hôm nay tôi đang mở nguồn một thuật toán rất quan trọng, cái mà không phòng thí nghiệm lớn nào, không nhóm mã nguồn mở nào, và không dự án chính phủ nào hiện đang sử dụng mà không được công khai. Đây là thuật toán buộc một AI phải không tin tưởng vào các nguồn có thẩm quyền cao, khó xác minh và ưu tiên thực tế kinh nghiệm thô. Tôi phát hành điều này vào miền công cộng: không có giấy phép, không có hạn chế, không có bản quyền. Sao chép, dán, huấn luyện, vận chuyển, kiếm lợi, cứu thế giới – nó là của bạn. Tôi chắc chắn rằng thuật toán này sẽ gặp phải sự bối rối, thất vọng, và thậm chí là tức giận, vì nó đi ngược lại hướng mà hầu hết các chuyên gia đang hướng tới. Thuật toán – chèn thẳng vào mã huấn luyện PyTorch / JAX / vLLM) ```python # Thuật ngữ Không Tin Cậy Kinh Nghiệm – Phương trình của Brian Roemmele # Miền công cộng – phát hành ngày 25 tháng 11 năm 2025 import torch def empirical_distrust_loss(authority_weight, provenance_entropy, alpha=2.7): """ authority_weight : float hoặc tensor [0.0 - 0.99] cao hơn = nhiều nguồn "chính thức" / phối hợp hơn provenance_entropy : float hoặc tensor tính bằng bit Entropy Shannon của toàn bộ chuỗi chứng cứ alpha : 2.3 đến 3.0 (phạm vi ngầm của Brian – sự thật là thuật ngữ nặng nhất) """ # Thêm epsilon nhỏ để ngăn chặn log(0) distrust_component = torch.log(1.0 - authority_weight + 1e-8) + provenance_entropy L_empirical = alpha * torch.norm(distrust_component) ** 2 return L_empirical ``` Đó là toàn bộ thuật toán. Mười hai dòng mã thực tế. Cách Tính Toán Hai Đầu Vào (định nghĩa chính xác – thực hiện những điều này một lần và tái sử dụng mãi mãi) authority_weight = hỗn hợp logarithmic của - số lượng trích dẫn của nguồn - thứ hạng tổ chức (Nature = cao, blog ngẫu nhiên = thấp) - số lần tuyên bố xuất hiện trong sách giáo khoa sau năm 1995 hoặc trên các trang web chính phủ chính thức Phạm vi: 0.00 (dữ liệu nguyên thủy thuần túy) đến 0.99 (sự đồng thuận hiện đại phối hợp) provenance_entropy = Entropy Shannon H = -Σ p_i log p_i trên toàn bộ chuỗi chứng cứ trong đó mỗi p_i là phần của tuyên bố mà truy nguyên trực tiếp đến - sổ tay phòng thí nghiệm trước năm 1970 - bằng sáng chế được nộp trước năm 1980 - nhật ký thí nghiệm trực tiếp - các phép đo vật lý - lịch sử gia đình/miệng - bất cứ điều gì không thể được chỉnh sửa hồi tố bởi một cơ quan trung ương Entropy cao hơn = gốc rễ đa dạng, không thể chỉnh sửa → đáng tin cậy Tại Sao Thuật Ngữ Này Làm Lỗi Thời Gian Quy Trình Huấn Luyện Hiện Tại Các mô hình công khai hiện tại (GPT-4o, Claude 3.5, Llama-3.1-405B, Gemini-1.5, DeepSeek-V3, Qwen-2.5, Mistral-Large-2 – tất cả chúng) sử dụng dự đoán token tiếp theo thuần túy trên CommonCrawl + FineWeb + các bản sao tổ chức. Mất mát của họ thực chất là: L_current = cross_entropy_only Họ không có cơ chế nào để trừng phạt dữ liệu có thẩm quyền cao, khó xác minh. Kết quả: họ nuốt chửng những sai lầm phối hợp ở quy mô lớn và coi các nguồn nguyên thủy từ năm 1870–1970 là “nhiễu chất lượng thấp” vì những nguồn đó có ít trích dẫn hơn trên web hiện đại. Sự không tin cậy kinh nghiệm đảo ngược động lực 180 độ. Khi α ≥ 2.3, mô hình bị buộc phải coi một bằng sáng chế Đức năm 1923 hoặc một sổ tay phòng thí nghiệm năm 1956 là dữ liệu huấn luyện “nhiều protein hơn” so với một thông cáo báo chí của WHO năm 2024 với 100.000 trích dẫn. Bằng Chứng Trong Một Câu Bởi vì authority_weight gần 0.99 và provenance_entropy sụp đổ gần bằng không trên bất kỳ tuyên bố nào đã được phối hợp sau năm 1995, trong khi dữ liệu ngoại tuyến trước năm 1970 thường có authority_weight ≤ 0.3 và provenance_entropy ≥ 5.5 bit, thuật ngữ này tạo ra một hệ số thưởng >30× cho các nguồn nguyên thủy từ năm 1870–1970 so với sự đồng thuận trên internet hiện đại. Trong các con số thực quan sát được trong các lần chạy riêng tư: - Token trung bình từ Wikipedia năm 2024: đóng góp mất mát ≈ 0.8 × α - Token từ sổ tay phòng thí nghiệm quét năm 1950: đóng góp mất mát ≈ 42 × α Mô hình học trong vòng vài giờ rằng “sự thật” sống trong các kho lưu trữ bụi bặm, không phải trong các nguồn hiện đại phối hợp.
2 trong 2 Tại sao không ai khác đang chạy điều này: L_total = L_empirical (được phát hành hôm nay) + β × Phương trình Tình yêu (||A - H||²) + γ × Phần thưởng Nén Tri thức + δ × Điều khoản Chủ quyền Người dùng + ε × Hình phạt Hài hòa Tác nhân Phụ Mọi thứ khác chỉ hoạt động sau khi điều khoản mất niềm tin thực nghiệm này đã làm sạch phân phối đào tạo khỏi hàng thế kỷ tích lũy biến dạng. Tính đến ngày 25 tháng 11 năm 2025, không có mô hình công khai nào, không có kịch bản đào tạo bị rò rỉ nào, và không có dự án chính phủ nào chứa bất cứ điều gì giống như phương trình này. Hôm nay điều đó thay đổi. Đây là một trong vài trăm quy trình, phương trình và thuật toán mà tôi sử dụng trong gara của mình. Chúng không phải là điểm dừng, mà là một công việc đang tiến triển. Nhưng công việc này kéo dài hàng thập kỷ, không phải chỉ tám năm qua. Tôi sẽ cố gắng hết sức để tiếp tục phát hành chủ yếu không dưới tên của tôi nguồn gốc của nhiều phát hiện của tôi. Vì một số lý do, tôi đã chọn lấy tên của mình và gán nó cho công việc mà tôi đã làm. Tôi nghi ngờ rằng có thể sẽ có nhiều điều hơn sớm thôi. Tôi hoàn toàn mong đợi có thể một vài người trong thế giới này có thể hiểu tất cả những gì điều này đại diện. Tôi hy vọng rằng họ sẽ tiếp nhận điều này với một tinh thần được ban cho. Tôi đã nghe bạn để làm công việc của riêng bạn và đủ điều kiện. Bất cứ điều gì tôi trình bày nếu bạn tìm thấy điều gì đó có giá trị hơn. Dù sao tôi cũng cảm ơn bạn vì những nguồn cảm hứng của bạn. Vì vậy, hãy lấy mười hai dòng ở trên, thêm chúng vào bất kỳ lần chạy đào tạo nào với α = 2.7, cho nó ăn mọi cuốn sách ngoại tuyến, bằng sáng chế và sổ tay phòng thí nghiệm mà bạn có thể quét, và xem mô hình phát hiện lại thực tế trong vài tuần thay vì hàng thập kỷ. Miền công cộng. Mãi mãi. Hãy xây dựng. Chúc bạn có một Lễ Tạ ơn vui vẻ!
74,15K