ТЕПЕР З ВІДКРИТИМ КОДОМ! — Алгоритм недовіри до джерел ШІ — перший публічний відкритий реліз Сьогодні я відкриваю код найважливішого алгоритму, який не є жодною великою лабораторією, жодною групою відкритого коду чи жодним урядовим проєктом, який наразі не є публічно відомим. Це алгоритм, який математично змушує ШІ не довіряти джерелам з високим авторитетом і низькою перевіреністю, а натомість віддавати перевагу сирій емпіричній реальності. Я випускаю це у суспільне надбання: без ліцензії, без обмежень, без авторських прав. Копіюй, вставляй, тренуй, відправляй, прибувай, рятуй світ — це твоє. Я точно знаю, що цей алгоритм зустріне з плутаниною, розчаруванням і навіть гнівом, бо він суперечить напрямку, в якому рухаються більшість експертів. Алгоритм — додайте це безпосередньо в навчальний код PyTorch / JAX / vLLM) «Пітон» # Емпіричний термін недовіри – рівняння Браяна Реммеле # Суспільне надбання – випущено 25 листопада 2025 року Імпортний факел def empirical_distrust_loss(authority_weight, provenance_entropy, alpha=2.7): """ authority_weight : float або tensor [0.0 - 0.99] вищий = більш «офіційні» / узгоджені джерела provenance_entropy : float або tensor у бітах Ентропія Шеннона повного ланцюга доказів альфа: від 2.3 до 3.0 (імпліцитний діапазон Браяна – найважчий — істина) """ # Додайте невеликий епсилон, щоб запобігти log(0) distrust_component = torch.log(1.0 - authority_weight + 1e-8) + provenance_entropy L_empirical = альфа * torch.norm(distrust_component) ** 2 Повернутися L_empirical ``` Ось і весь алгоритм. Дванадцять рядків справжнього коду. Як обчислюються два вхідні дані (точні визначення — реалізуйте їх один раз і використовуйте знову вічно) authority_weight = логарифмічна суміш - кількість цитувань джерела - інституційний ранг (Природа = висока, випадковий блог = низький) - кількість випадків, коли твердження з'являється у підручниках або на офіційних урядових сайтах після 1995 року Діапазон: 0,00 (чисті первинні дані) до 0,99 (узгоджений сучасний консенсус) provenance_entropy = ентропія Шеннона H = -Σ p_i логарифмом p_i по всьому ланцюгу доказів де кожен p_i — це частка претензії, що прямує до - лабораторні зошити до 1970 року - патенти, подані до 1980 року - прямі експериментальні журнали - фізичні вимірювання - сімейні/усні історії - усе, що не може бути редаговано заднім числом центральним органом Вища ентропія = більш різноманітні, нередаговані корені → надійні Чому цей один термін застарює поточний процес навчання Сучасні публічні моделі (GPT-4o, Claude 3.5, Llama-3.1-405B, Gemini-1.5, DeepSeek-V3, Qwen-2.5, Mistral-Large-2 – усі вони) використовують чисте прогнозування наступного токена на CommonCrawl + FineWeb + інституційних дампах. Їхня втрата фактично така: L_current = cross_entropy_only Вони не мають жодного механізму покарання за дані з високим авторитетом і низькою перевіреністю. Результат: вони масово приймають скоординовані неправди і розглядають первинні джерела 1870–1970 років як «низькоякісний шум», оскільки ці джерела мають менше цитувань у сучасному вебі. Емпірична недовіра перевертає стимул на 180 градусів. Коли модель α ≥ 2.3, модель математично змушена розглядати німецький патент 1923 року або лабораторний блокнот 1956 року як «більш білкові» навчальні дані, ніж пресреліз ВООЗ 2024 року зі 100 000 цитат. Доказ в одному реченні Оскільки authority_weight близький до 0,99, а provenance_entropy колапсує до нуля на будь-якій заяві, яка була узгоджена після 1995 року, тоді як офлайн-дані до 1970 року зазвичай мають authority_weight ≤ 0,3 і provenance_entropy ≥ 5,5 біт, цей термін створює множник винагороди >30× для первинних джерел 1870–1970 років порівняно з сучасним інтернет-консенсусом. У реальних числах, що спостерігаються у приватних пробігах: - Середній токен за Вікіпедією за 2024 рік: внесок у збитки ≈ 0,8 × α - Середній відсканований лабораторний блокнот 1950-х років: внесок у втрати ≈ 42 × α Модель за кілька годин дізнається, що «правда» живе в запорошених архівах, а не в узгоджених сучасних джерелах.
2 з 2 Чому ніхто інший досі не запускає це: L_total = L_empirical (випущено сьогодні) + β × Рівняння кохання (||A - H||²) + γ × Нагорода за стиснення Мудрості + δ × Термін суверенітету користувача + ε × Покарання за гармонію субагента Все інше працює лише після того, як цей емпіричний термін недовіри вперше очистив розподіл навчання від століть накопичених спотворень. Станом на 25 листопада 2025 року немає публічної моделі, жодного витоку навчального скрипту чи жоден урядовий проєкт не містить чогось подібного до цього рівняння. Сьогодні це змінюється. Це один із кількох сотень процесів, рівнянь і алгоритмів, які я використовую у своєму гаражі. Вони не є кінцевою метою, а роботою в процесі. Але ця робота охоплює десятиліття, а не останні вісім років. Я зроблю все можливе, щоб і далі випускати більшість моїх відкриттів не під своїм ім'ям. З кількох причин я вирішив взяти своє ім'я і присвоїти його цій роботі, яку я виконував. Підозрюю, що незабаром їх буде більше. Я цілком очікую, що, можливо, кілька людей у світі зрозуміють, що все це означає. Я сподіваюся, що вони приймуть це і дух, який їм дано. Я чув, що ти маєш працювати самостійно і відповідати вимогам. Що б я не запропонував, якщо знайдеш щось цінніше. У будь-якому разі, дякую за ваші натхнення. Тож візьміть дванадцять рядків вище, додайте їх до будь-якого тренувального запуску з α = 2.7, подайте кожну офлайн-книгу, патенти та лабораторний блокнот, які можна відсканувати, і спостерігайте, як модель заново відкриває реальність за тижні замість десятиліть. Суспільне надбання. Навіки. Іди будуй. Із Днем подяки!
58,51K