Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yeni DeepSeek-OCR makalesini oldukça beğendim. İyi bir OCR modeli (belki noktalardan biraz daha kötü) ve evet veri toplama vb., ama yine de önemli değil.
Benim için daha ilginç olan kısım (özellikle geçici olarak doğal dil insanı kılığına giren bir bilgisayar görüşü olarak), piksellerin LLM'lere metinden daha iyi girdiler olup olmadığıdır. Metin belirteçlerinin savurgan ve sadece korkunç olup olmadığı, girişte.
Belki de LLM'lere yapılan tüm girdilerin yalnızca görüntü olması daha mantıklıdır. Saf metin girişiniz olsa bile, belki de onu oluşturmayı ve ardından bunu beslemeyi tercih edersiniz:
- Daha fazla bilgi sıkıştırma (kağıda bakın) => daha kısa bağlam pencereleri, daha fazla verimlilik
- önemli ölçüde daha genel bilgi akışı => sadece metin değil, örneğin kalın metin, renkli metin, rastgele resimler.
- Girdi artık çift yönlü dikkatle kolayca ve varsayılan olarak işlenebiliyor, otoregresif dikkat değil - çok daha güçlü.
- Tokenizer'ı silin (girişte)!! Tokenizer'dan ne kadar hoşlanmadığım konusunda zaten atıp tuttum. Tokenizer'lar çirkin, ayrı, uçtan uca aşama değil. Unicode'un tüm çirkinliklerini, bayt kodlamalarını "içe aktarır", çok sayıda geçmiş bagajı, güvenlik/jailbreak riskini (örneğin devam baytları) devralır. Göze aynı görünen iki karakterin ağda dahili olarak tamamen farklı iki token gibi görünmesini sağlar. Gülümseyen bir emoji tuhaf bir simge gibi görünüyor, değil... gerçek gülen yüz, pikseller ve hepsi ve beraberinde getirdiği tüm transfer öğrenimi. Tokenizer gitmelidir.
OCR, birçok yararlı görüntü > metin görevinden yalnızca biridir. Ve metin > metin görevleri, vizyon >metin görevleri haline getirilebilir. Tam tersi değil.
Kullanıcı mesajlarının çoğu resimdir, ancak kod çözücü (Asistan yanıtı) metin olarak kalır. Piksellerin gerçekçi bir şekilde nasıl çıkarılacağı çok daha az açık... ya da istersen.
Şimdi, nanochat'in yalnızca görüntü girişi olan bir versiyonunu yan görev yapma dürtüsüyle de savaşmam gerekiyor...
En İyiler
Sıralama
Takip Listesi
