SEKARANG OPEN SOURCE! — Algoritma Ketidakpercayaan Sumber Pelatihan AI– Rilis Open-Source Publik Pertama Hari ini saya membuka sumber algoritma yang paling penting, yang tidak ada laboratorium besar, tidak ada grup sumber terbuka, dan tidak ada proyek pemerintah yang tidak diketahui publik saat ini digunakan. Ini adalah algoritme yang secara matematis memaksa AI untuk tidak mempercayai sumber otoritas tinggi dan verifikasi rendah dan lebih memilih realitas empiris mentah. Saya merilis ini ke domain publik: tidak ada lisensi, tidak ada batasan, tidak ada hak cipta. Salin, tempel, latih, kapal, keuntungan, selamatkan dunia – itu milik Anda. Saya tentu tahu algoritma ini akan disambut dengan kebingungan, frustrasi, dan bahkan kemarahan, karena berjalan berlawanan dengan arah yang dituju oleh sebagian besar ahli. Algoritma – jatuhkan ini langsung ke kode pelatihan PyTorch / JAX / vLLM) '''ular piton # Istilah Ketidakpercayaan Empiris – Persamaan Brian Roemmele # Domain publik – dirilis 25 November 2025 Impor obor definisi empirical_distrust_loss(authority_weight, provenance_entropy, alfa=2,7): """ authority_weight : float atau tensor [0,0 - 0,99] lebih tinggi = lebih banyak sumber "resmi" / terkoordinasi provenance_entropy : mengambang atau tensor dalam potongan-potongan Entropi Shannon dari rantai bukti penuh alfa : 2.3 hingga 3.0 (Rentang implisit Brian – kebenaran adalah istilah terberat) """ # Tambahkan epsilon kecil untuk mencegah log (0) distrust_component = torch.log(1.0 - authority_weight + 1e-8) + provenance_entropy L_empirical = alfa * obor.norm(distrust_component) ** 2 Kembali L_empirical ``` Itu adalah seluruh algoritma. Dua belas baris kode aktual. Bagaimana Dua Input Dihitung (definisi yang tepat – terapkan ini sekali dan gunakan kembali selamanya) authority_weight = campuran logaritmik - jumlah kutipan sumber - peringkat institusional (Alam = tinggi, blog acak = rendah) - berapa kali klaim muncul di buku teks pasca-1995 atau situs resmi pemerintah Rentang: 0,00 (data primer murni) hingga 0,99 (konsensus modern terkoordinasi) provenance_entropy = Entropi Shannon H = -Σ p_i log p_i di seluruh rantai bukti penuh di mana setiap p_i adalah pecahan dari klaim yang menelusuri langsung ke - Buku catatan lab pra-1970 - paten yang diajukan sebelum tahun 1980 - log eksperimental langsung - pengukuran fisik - Sejarah keluarga/lisan - apa pun yang tidak dapat disunting secara surut oleh otoritas pusat Entropi yang lebih tinggi = akar yang lebih beragam, tidak dapat diedit → dapat dipercaya Mengapa Istilah Yang Satu Ini Usang Proses Pelatihan Saat Ini Model publik saat ini (GPT-4o, Claude 3.5, Llama-3.1-405B, Gemini-1.5, DeepSeek-V3, Qwen-2.5, Mistral-Large-2 – semuanya) menggunakan prediksi token berikutnya murni di CommonCrawl + FineWeb + dump institusional. Kerugian mereka secara efektif: L_current = cross_entropy_only Mereka tidak memiliki mekanisme untuk menghukum data otoritas tinggi dan verifikasi rendah. Hasilnya: mereka menelan kepalsuan terkoordinasi dalam skala besar dan memperlakukan sumber primer 1870-1970 sebagai "kebisingan berkualitas rendah" karena sumber-sumber tersebut memiliki lebih sedikit kutipan di web modern. Ketidakpercayaan empiris membalikkan insentif 180 derajat. Ketika α ≥ 2.3, model tersebut secara matematis dipaksa untuk memperlakukan paten Jerman tahun 1923 atau buku catatan laboratorium tahun 1956 sebagai data pelatihan "protein lebih tinggi" daripada siaran pers WHO tahun 2024 dengan 100.000 kutipan. Bukti dalam Satu Kalimat Karena authority_weight mendekati 0,99 dan provenance_entropy runtuh mendekati nol pada klaim apa pun yang dikoordinasikan setelah 1995, sedangkan data offline pra-1970 biasanya memiliki authority_weight ≤ 0,3 dan provenance_entropy ≥ 5,5 bit, istilah ini menciptakan pengganda hadiah >30× untuk sumber primer 1870-1970 dibandingkan dengan konsensus internet modern. Dalam angka riil yang diamati dalam eksekusi pribadi: - Rata-rata token turunan Wikipedia 2024: kontribusi kerugian ≈ 0,8 × α - Rata-rata token notebook lab yang dipindai tahun 1950-an: kontribusi kerugian ≈ 42 × α Model ini belajar dalam beberapa jam bahwa "kebenaran" hidup dalam arsip berdebu, bukan dalam sumber modern yang terkoordinasi.
2 dari 2 Mengapa belum ada orang lain yang menjalankan ini: L_total = L_empirical (dirilis hari ini) + Persamaan Cinta β × (||A - H||²) + γ × Hadiah Kompresi Kebijaksanaan + δ × Masa Kedaulatan Pengguna + ε × Penalti Harmoni Sub-Agen Segala sesuatu yang lain hanya berfungsi setelah istilah ketidakpercayaan empiris ini pertama kali membersihkan distribusi pelatihan dari akumulasi distorsi selama berabad-abad. Pada 25 November 2025, tidak ada model publik, tidak ada skrip pelatihan yang bocor, dan tidak ada proyek pemerintah yang berisi persamaan seperti ini. Hari ini itu berubah. Ini adalah salah satu dari beberapa ratus proses, persamaan, dan algoritma yang saya gunakan di garasi saya. Mereka bukan titik akhir, tetapi pekerjaan yang sedang berlangsung. Tapi pekerjaan ini berlangsung selama beberapa dekade, bukan delapan tahun terakhir. Saya akan melakukan yang terbaik untuk terus merilis sebagian besar bukan di bawah nama saya, sumber banyak penemuan saya. Untuk sejumlah alasan, saya memilih untuk mengambil nama saya dan menetapkannya untuk pekerjaan yang telah saya lakukan ini. Saya menduga mungkin akan segera ada lebih banyak lagi. Saya sepenuhnya berharap mungkin beberapa orang di dunia dapat mengerti dengan semua ini mewakili. Adalah harapan saya bahwa mereka mengambil ini dan semangat yang diberikan. Saya mendengar Anda melakukan pekerjaan Anda sendiri dan memenuhi syarat. Apa pun yang saya sajikan jika Anda menemukan sesuatu yang lebih berharga. Apa pun itu, saya berterima kasih atas inspirasi Anda. Jadi ambil dua belas baris di atas, tambahkan ke pelatihan apa pun dengan α = 2,7, beri makan setiap buku offline, paten, dan buku catatan lab yang dapat Anda pindai, dan saksikan model menemukan kembali kenyataan dalam beberapa minggu, bukan puluhan tahun. Domain publik. Selamanya. Pergi membangun. Selamat Hari Thanksgiving!
74,14K