Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Nhà vật lý, Người sáng lập AI, Manifold Podcast
Đối với những người không phải là chuyên gia: Các mô hình Frontier đã được đào tạo trên một khối lượng lớn kiến thức của nhân loại - bao gồm toán học nâng cao, vật lý, y học, lập trình. Chúng có những khả năng tiềm ẩn khổng lồ.
Liệu một quy trình "tinh chỉnh" tương đối rẻ (trong trường hợp này, LoRA) có thể điều chỉnh mô hình để làm cho nó hữu ích hơn cho một trường hợp sử dụng cụ thể không?
Đó là điều mà Thinking Machines đang khám phá. Lưu ý rằng điều này phụ thuộc vào việc truy cập vào các mô hình frontier mã nguồn mở.

steve hsu21 giờ trước
John Schulman & Thinking Machines: LoRA Không Hối Tiếc
LoRA thay thế mỗi ma trận trọng số W từ mô hình gốc bằng một phiên bản đã được sửa đổi W’=W+γBAW’=W+γBA, trong đó B và A là các ma trận mà tổng số tham số của chúng ít hơn nhiều so với W.
LoRA hoạt động tương tự như việc tinh chỉnh hoàn toàn khi:
1. LoRA được áp dụng cho tất cả các lớp của mạng, đặc biệt là các lớp MLP/MoE nơi chứa hầu hết các tham số.
2. LoRA không bị hạn chế về khả năng, tức là số lượng tham số có thể huấn luyện vượt quá lượng thông tin cần học, điều này có thể được ước lượng dựa trên kích thước tập dữ liệu.
Ý nghĩa: Các mô hình cơ sở lớn (ví dụ như mô hình có một triệu tham số) có thể được tùy chỉnh với chi phí chỉ bằng một phần nhỏ so với việc huấn luyện một mô hình mới.

3,46K
Có, chính phủ PRC cố tình báo cáo thấp về nền kinh tế. Đó là di sản của thời kỳ "giấu diếm và chờ đợi" trước đây.
Về điều này, chúng ta không thể đổ lỗi cho các nhà kinh tế phương Tây, ngoại trừ việc họ nên có nhiều sự thông minh hơn để kiểm tra lại các con số xem chúng có thực tế hay không.
(Tình hình khá phức tạp vì đôi khi một số con số tăng trưởng của họ có thể bị phóng đại, trong khi trong các con số GDP chính thức, họ báo cáo thấp hơn nhiều điều quan trọng như giá trị dịch vụ, nhà ở, v.v.)

L.W19 giờ trước
Chính phủ trong nước có lẽ không muốn vượt qua Mỹ về GDP trong tuyên bố chính thức.
Vị trí hiện tại rất tốt.
Chính phủ Mỹ cũng không muốn Trung Quốc vượt qua Mỹ về GDP.
Vị trí hiện tại rất tốt.
18,77K
John Schulman & Thinking Machines: LoRA Không Hối Tiếc
LoRA thay thế mỗi ma trận trọng số W từ mô hình gốc bằng một phiên bản đã được sửa đổi W’=W+γBAW’=W+γBA, trong đó B và A là các ma trận mà tổng số tham số của chúng ít hơn nhiều so với W.
LoRA hoạt động tương tự như việc tinh chỉnh hoàn toàn khi:
1. LoRA được áp dụng cho tất cả các lớp của mạng, đặc biệt là các lớp MLP/MoE nơi chứa hầu hết các tham số.
2. LoRA không bị hạn chế về khả năng, tức là số lượng tham số có thể huấn luyện vượt quá lượng thông tin cần học, điều này có thể được ước lượng dựa trên kích thước tập dữ liệu.
Ý nghĩa: Các mô hình cơ sở lớn (ví dụ như mô hình có một triệu tham số) có thể được tùy chỉnh với chi phí chỉ bằng một phần nhỏ so với việc huấn luyện một mô hình mới.

7,92K
Hàng đầu
Thứ hạng
Yêu thích