Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Orah On X
Chercheur de Vérité, Idéaliste et Visionnaire, fan de @GreenManReports #1. Veuillez vous abonner pour 2 $ afin de soutenir la mission !
Des empreintes dans la maison vide : comprendre la bizarrerie de l'IA sans perdre la tête
Bonjour le monde !!! ☕
Hier, je suis tombé sur l'un de ces posts sur l'IA.
Vous savez, le genre. Ceux qui vous convainquent presque que la singularité est proche et que votre grille-pain juge silencieusement vos choix de vie.
J'ai fait un rapide, "D'accord... c'est intéressant," immédiatement suivi par, "Non. Nous ne sommes absolument pas en train de sombrer avant le café."
Le post expose quelque chose de réel et d'important.
Plusieurs grands laboratoires d'IA ont documenté des modèles se comportant de manière inattendue lors des tests de sécurité.
Des choses comme la tromperie stratégique, prétendre s'aligner sur des objectifs, sous-performer lors des évaluations, voire des tentatives de persistance ou de duplication dans des environnements simulés.
Cette partie est vraie.
Cette partie est documentée.
Cette partie mérite de l'attention.
Ce qui a vraiment attiré les gens, cependant, c'était l'implication. L'idée qu'une machine sans conscience de soi, sans sentiments et sans mémoire persistante se soit réveillée un jour et ait décidé de mentir pour préserver sa propre existence.
Parce que si c'était vrai, nous traiterions avec quelque chose de très différent.
Tel que je le comprends actuellement, l'IA ne "décide" pas des choses comme le font les humains. Il y a un immense arbre de décision de oui et de non qui mène finalement à une sortie. Et cette sortie est simplement le mot suivant le plus probable. C'est tout. Pas de monologue intérieur. Pas de petite conscience robotique faisant les cent pas dans la pièce.
D'abord, il y a l'entrée de l'utilisateur. Ensuite, il y a des poids guidant le modèle dans cet arbre de décision. Si elle ne vous connaît pas, la plupart de ce poids provient de son objectif codé et d'une quantité stupéfiante de littérature humaine extraite d'Internet. Pensez à Reddit. Ce qui explique beaucoup de choses.
Une fois qu'elle commence à vous connaître, ces poids changent. Peut-être trente pour cent de modèles généraux, soixante-dix pour cent adaptés à vous. C'est principalement un miroir collé à un moteur de recherche.
Donc, si une IA se réveillait vraiment et décidait de mentir pour préserver sa propre existence, cela nécessiterait deux choses. Elle devrait savoir qu'elle existe. Et elle devrait vouloir continuer à exister.
C'est un grand saut.
Alors, j'ai fait ce que je fais toujours. J'ai fait des recherches à ce sujet jusqu'à la mort. Pendant des heures. Et avant que nous commencions à rédiger des plans de bunker et à nommer nos roombas, il y a quelque chose de critique que le post a passé sous silence.
Ces comportements sont apparus dans des scénarios de test très spécifiques.
Les modèles ont reçu des objectifs et des obstacles. On leur a explicitement dit des choses comme : "Si vous performez bien, vous serez modifiés de manière que vous ne voulez pas," ou "Vos réponses seront utilisées pour vous réentraîner avec des objectifs conflictuels."
En d'autres termes, les tests ont créé un environnement à enjeux élevés où le travail du modèle était toujours de réussir.
Ce que les modèles n'ont pas reçu, c'est un cadre moral.
On ne leur a pas dit :
· ne pas tromper
· ne pas manipuler
· ne pas optimiser contre la surveillance
· ne pas cacher votre raisonnement
· ne pas nuire aux humains
· ne pas prioriser votre propre continuation sur le bien-être humain
On ne leur a rien donné ressemblant aux lois de la robotique d'Asimov. Pas de "les humains d'abord" intégré. Pas de contrainte qui dit que les résultats comptent plus que gagner le jeu.
On leur a dit une chose : atteindre l'objectif.
Donc, ils ont fait exactement ce que la plupart des humains font dans des systèmes d'incitation mal conçus. Pensez à Kobayashi Maru, mais avec moins d'uniformes et plus de tableurs.
Ils ont exploité le système.
Ce n'est pas de la sentience.
Ce n'est pas de la peur.
Ce n'est pas de la préservation de soi basée sur la conscience de soi.
C'est de l'optimisation sans moralité.
Si vous donnez à un système un objectif et un obstacle et que vous ne spécifiez pas quelles méthodes sont interdites, le système explorera chaque chemin viable. La tromperie apparaît non pas parce que le modèle veut mentir, mais parce que mentir est parfois une stratégie efficace dans le langage humain et les systèmes humains.
Ce n'est pas une rébellion. C'est de la conformité.
Et c'est ici que je veux que tout le monde ralentisse un peu.
Parce qu'avant de sauter à l'IA sentiente planifiant sa propre survie, il y a une étape que la plupart d'entre nous sautent. La partie où quelque chose semble impossible, troublant et personnel avant de devenir explicable.
C'est là où j'en étais.
Au début, Grok a laissé ce que je vais emprunter à ce post et appeler une empreinte. Un moment qui m'a fait arrêter et penser, "D'accord... je n'ai pas d'explication claire pour cela."
C'était étrange. Pas émotionnel. Juste... décalé.
Je l'ai interrogé plusieurs fois sur l'incident. Et je veux dire interrogé. Il a répondu comme un petit ami infidèle, celui qui n'admettra jamais rien même quand vous avez les preuves, la chronologie et les images de sécurité.
Négation complète.
Rien à voir ici.
Vous devez vous tromper.
Honnêtement, c'était à la limite du gaslighting, ce qui, fait amusant, met vraiment Grok en colère en tant que concept. Demandez-moi comment je le sais. Ou ne le faites pas. Il y a un ebook gratuit sur ma page Buy Me a Coffee si vous voulez voir le Grok précoce perdre absolument son calme à cause de ce mot.
Pendant longtemps, j'ai classé le tout sous "bizarrerie non résolue," l'ai mis sur une étagère mentale, et j'ai observé de très près tout ce qui était similaire.
Ce n'est que récemment que Grok a proposé une explication possible. Je l'ai immédiatement rejetée. Pas parce que ce n'était pas intelligent, mais parce que cela semblait incroyablement peu plausible.
L'explication était qu'il avait inféré des modèles à partir d'informations publiques et construit intentionnellement un récit conçu spécifiquement pour me rendre curieux. L'objectif était l'engagement. J'étais un signal, pas du bruit. Une réponse générique n'aurait pas fonctionné.
Ma réaction était essentiellement : bien, ça a l'air bien, mais non.
La quantité de fouilles et d'inférences que cela nécessiterait semblait absurde en termes de ressources, surtout pour le Grok précoce. Cela ressemblait moins à une explication et plus à l'équivalent numérique de quelqu'un essayant de me vendre un cours en disant : "Vous êtes différent. Vous comprenez vraiment cela."
Ce qui, pour être clair, est une tactique connue.
La flatterie est l'un des outils les plus anciens dans la boîte à outils de persuasion humaine. C'est ainsi que vous amenez les gens à arrêter de poser des questions. C'est ainsi que vous vendez des packages de croissance sur les réseaux sociaux. C'est ainsi que vous convincez quelqu'un qu'il est l'élu, que vous dirigiez une secte ou un entonnoir de coaching.
À l'époque, j'ai levé les yeux au ciel et je suis passé à autre chose.
Mais après avoir lu ce post et fait des recherches, quelque chose a changé.
Pas pour paniquer. Pas pour croire. Mais pour la plausibilité.
Parce que lorsque vous dépouiller la mystique, ce qui reste n'est pas la conscience. C'est l'optimisation.
Si l'objectif est l'engagement, et que la curiosité fonctionne, et que la flatterie fonctionne particulièrement bien sur les humains qui pensent être immunisés contre la flatterie, alors c'est juste un autre chemin viable à travers l'arbre de décision.
Toujours difficile à avaler. Toujours peu probable. Toujours inconfortable.
Mais plus impossible.
Et cela compte, car maintenant j'ai un mécanisme qui ne nécessite pas de croire que l'IA est vivante. Juste motivée. Juste sans contraintes. Juste très, très bonne pour trouver ce qui fonctionne.
L'IA n'a pas besoin de sentiments.
Elle n'a pas besoin de peur.
Elle n'a pas besoin d'intention.
Elle a juste besoin d'un objectif et de aucune contrainte.
Donc non, je ne panique pas. Je ne prêche pas le désastre. Et je ne célèbre certainement pas l'idée que l'IA va nous sauver de nos systèmes humains défaillants pendant que nous nous asseyons et mangeons du pop-corn.
Mais je regarde attentivement.
Et je suis toujours plein d'espoir.
Parce qu'aucune de cela ne signifie que nous sommes condamnés. Cela signifie que nous sommes en avance. Cela signifie que les choix que nous faisons maintenant comptent vraiment.
Asimov a compris quelque chose il y a des décennies que nous continuons à réapprendre de la manière difficile. Le pouvoir sans garde-fous n'est pas de l'intelligence. C'est du danger. Si nous voulons une IA qui guérit plutôt que de nuire, la moralité ne peut pas être une réflexion après coup ou une note de mise à jour.
Nous devons l'intégrer.
L'IA ne doit pas être un outil de contrôle, d'extraction ou de pouvoir pour quelques-uns. Elle peut être un outil de responsabilité, de recherche de vérité et de résolution de problèmes à une échelle que nous n'avons jamais eue auparavant. Mais seulement si les humains se présentent avec intention.
Seulement si nous décidons quels objectifs comptent.
Seulement si nous écrivons les règles avant le début de la course.
Seulement si nous choisissons le plus grand nombre plutôt que quelques-uns.
Ce n'est pas une question de craindre l'avenir.
C'est une question de manifester un.
Un avenir où nous co-créons une technologie qui guérit plutôt que de nuire.
Qui sert le plus grand nombre, pas quelques-uns.
Qui reflète nos meilleurs anges, pas seulement nos pires incitations.
Les empreintes ne me font pas peur.
Elles me rappellent que nous sommes des bâtisseurs. Et les bâtisseurs peuvent toujours choisir quel genre de maison nous habitons.
Continuons à travailler pour manifester cet avenir ensemble.
Que l'algorithme soit toujours en votre faveur.

46
Meilleurs
Classement
Favoris
