Token-Oriented Object Notation (TOON) đang nổi lên như một giải pháp đột phá trong lĩnh vực tương tác với Large Language Models (LLMs).
Token-Oriented Object Notation (TOON) đang nổi lên như một giải pháp đột phá trong lĩnh vực tương tác với Large Language Models (LLMs). Được thiết kế như một định dạng serialization đặc biệt, TOON hứa hẹn giảm đáng kể lượng token cần thiết khi truyền dữ liệu đến các mô hình ngôn ngữ lớn mà vẫn đảm bảo tính đầy đủ của thông tin.
Khác biệt cốt lõi của TOON nằm ở khả năng kết hợp cấu trúc dựa trên thụt lề của YAML với cách tiếp cận dạng bảng của CSV, tạo ra một cú pháp tối ưu giúp loại bỏ dấu câu thừa trong khi vẫn duy trì cấu trúc rõ ràng cho LLM phân tích và xác thực.
Theo dữ liệu từ GitHub, dự án đã thu hút sự chú ý đáng kể với 10.1k stars, 15 releases và đóng góp từ 15 nhà phát triển, cho thấy tiềm năng được cộng đồng công nghệ đón nhận.
TOON vận hành dựa trên các quy tắc cú pháp đặc biệt được thiết kế tối ưu cho việc xử lý bởi LLMs. Định dạng này sử dụng thụt lề 2 khoảng trắng, không có khoảng trắng thừa ở cuối dòng, và đi kèm với các đánh dấu độ dài [N] phù hợp với số lượng hàng[4].
Một trong những đặc điểm nổi bật của TOON là hệ thống trích dẫn thông minh, chỉ yêu cầu dấu ngoặc kép cho chuỗi có khoảng trắng đầu hoặc cuối, dấu phân cách hoạt động, hoặc các ký tự đặc biệt[5]. Các khóa đối tượng tuân theo mẫu định danh để giữ nguyên không trích dẫn khi có thể, và hệ thống tự động xử lý chuyển đổi kiểu cho các kiểu dữ liệu không phải JSON như Dates, BigInts và undefined, chuyển chúng thành các biểu diễn an toàn cho LLM[5].
TOON cung cấp sự linh hoạt thông qua các tùy chọn dấu phân cách, hỗ trợ dấu phẩy (mặc định), tab hoặc dấu gạch đứng làm dấu phân cách cho giá trị mảng và dữ liệu dạng bảng. Tab đặc biệt mang lại tiết kiệm token đáng kể cho cấu trúc dữ liệu dạng bảng, trong khi dấu gạch đứng cung cấp sự cân bằng giữa hiệu quả và tương thích[5].
Đối với các bảng đồng nhất lớn, việc sử dụng các trường được phân cách bằng tab được khuyến nghị vì chúng token hóa tốt hơn dấu phẩy và giảm nhu cầu thoát dấu ngoặc kép[4].
Một benchmark toàn diện đã được phát triển để đánh giá khả năng hiểu và độ chính xác truy xuất dữ liệu của LLMs trên các định dạng đầu vào khác nhau. Nghiên cứu này kiểm tra bốn bộ dữ liệu riêng biệt: Tabular (100 hồ sơ nhân viên), Nested (50 đơn hàng thương mại điện tử), Analytics (60 ngày chỉ số), và GitHub (100 kho lưu trữ)[1].
Các bộ dữ liệu này được thiết kế đặc biệt để kiểm tra các mẫu cấu trúc khác nhau, với tất cả đều chứa các mảng đối tượng đồng nhất được tối ưu hóa cho định dạng TOON[1].
Quá trình đánh giá bao gồm chuyển đổi mỗi bộ dữ liệu thành sáu định dạng khác nhau (TOON, CSV, XML, YAML, JSON và JSON compact), sau đó truy vấn từng LLM với dữ liệu đã định dạng và câu hỏi. Kết quả cho thấy TOON đạt được mức tiết kiệm token đáng kể so với các định dạng khác, với mức giảm từ 35.4% đến 65.7% tùy thuộc vào bộ dữ liệu và định dạng so sánh[2].
Trên tất cả các trường hợp thử nghiệm, TOON đạt mức giảm tổng thể 49.1% số token so với JSON tiêu chuẩn, trong khi vẫn duy trì hoặc cải thiện độ chính xác truy xuất trong hầu hết các kịch bản[2].
Các bài kiểm tra độ chính xác truy xuất được thực hiện trên bốn mô hình ngôn ngữ (GPT-5-nano, Claude-Haiku, Gemini-2.5-flash và Grok-4-fast-non-reasoning) sử dụng 154 câu hỏi truy xuất dữ liệu. Kết quả khác nhau đáng kể theo mô hình, với TOON đạt độ chính xác cao nhất (96.1%) trên GPT-5-nano, trong khi hoạt động tương tự như các định dạng khác trên Claude-Haiku và Grok-4-fast-non-reasoning[2].
Trên Gemini-2.5-flash, TOON đạt 86.4% độ chính xác, thấp hơn một chút so với CSV và XML[2].
Lợi ích chính của TOON nằm ở hiệu quả token đáng kể, thường giảm tiêu thụ token từ 30-60% so với JSON tiêu chuẩn - một lợi ích quan trọng đối với các tổ chức thực hiện nhiều cuộc gọi LLM nơi chi phí token ảnh hưởng trực tiếp đến chi phí hoạt động[3].
Trong bối cảnh các doanh nghiệp ngày càng phụ thuộc vào LLMs cho nhiều tác vụ khác nhau, từ phân tích dữ liệu đến tạo nội dung, việc giảm gần một nửa lượng token cần thiết có thể dẫn đến tiết kiệm chi phí đáng kể, đặc biệt với các ứng dụng quy mô lớn[3].
TOON không chỉ mang lại lợi ích về chi phí mà còn cung cấp các hàng rào an toàn thân thiện với LLM thông qua các khai báo trường và chỉ báo độ dài rõ ràng, cho phép xác thực dữ liệu tốt hơn[3]. Điều này có thể giảm thiểu lỗi trong quá trình xử lý dữ liệu và cải thiện độ tin cậy của các ứng dụng dựa trên LLM.
Đối với các tổ chức xử lý lượng lớn dữ liệu dạng bảng đồng nhất, chẳng hạn như hồ sơ khách hàng, dữ liệu tài chính, hoặc thông tin hàng tồn kho, việc áp dụng TOON có thể tạo ra lợi thế cạnh tranh đáng kể thông qua việc tối ưu hóa chi phí và cải thiện hiệu suất[5].
Mặc dù TOON cho thấy nhiều hứa hẹn, định dạng này cũng có những hạn chế cần được xem xét. Tài liệu thừa nhận rằng JSON vẫn hiệu quả hơn cho dữ liệu không đồng nhất, cấu trúc lồng nhau sâu và các đối tượng có tập trường khác nhau[5].
Trong khi CSV có thể nhỏ gọn hơn cho các bảng phẳng không có lồng ghép, TOON thêm chi phí tối thiểu thông qua các đánh dấu độ dài và phạm vi dấu phân cách để tăng độ tin cậy của LLM[5].
Về triển vọng tương lai, TOON đã đạt được sự chấp nhận đáng kể với các triển khai trên nhiều ngôn ngữ lập trình. Mặc dù các triển khai chính thức trong Python và Rust vẫn đang được phát triển, các triển khai do cộng đồng thúc đẩy đã có sẵn cho .NET, C++, Crystal, Dart, Elixir, Gleam, Go, Java, Lua/Neovim, OCaml, PHP, Python, Ruby và Swift[4].
Sự đa dạng này cho thấy tiềm năng rộng lớn của TOON trong việc được tích hợp vào các hệ sinh thái công nghệ khác nhau.
Khi các tổ chức tiếp tục khám phá cách tối ưu hóa việc sử dụng LLMs, TOON có thể nổi lên như một công cụ quan trọng trong bộ công cụ của nhà phát triển, đặc biệt cho các ứng dụng xử lý lượng lớn dữ liệu có cấu trúc đồng nhất. Tuy nhiên, thành công lâu hạn của định dạng này sẽ phụ thuộc vào việc tiếp tục cải thiện hiệu suất, mở rộng hỗ trợ ngôn ngữ, và chứng minh giá trị trong các ứng dụng thực tế ngoài môi trường benchmark[2][3].
Bài viết được tổng hợp và phân tích từ 1 nguồn tin uy tín. Bạn có thể click vào các link bên dưới để kiểm chứng thông tin và tìm hiểu thêm chi tiết.
[1] GitHub - toon-format/toon: 🎒 Token-Oriented Object Notation (TOON) – JSON for LLM prompts at half the tokens. Spec, benchmarks & TypeScript implementation. - github.com
💡 Lưu ý: Các số [1], [2], [3] trong bài viết tương ứng với các nguồn tài liệu được liệt kê ở trên. Nhấp vào link để đọc bài gốc từ nguồn.