Spaces:

Symato
/

README

Running

App Files Files Community

README / README.md

tiendung

Update README.md

a1f7e9d verified about 2 months ago

preview code

raw

history blame

2.09 kB

	---
	title: README
	emoji: 🌖
	colorFrom: yellow
	colorTo: yellow
	sdk: static
	pinned: false
	---

	## Chúng tôi làm AI cho tiếng Việt.

	Bắt đầu với mô hình ngôn ngữ lớn, với những thử nghiệm về tokenization và xây dựng bộ dữ liệu

	## Tokenization

	Chúng tôi tìm được cách tokenization tối ưu cho tiếng Việt hoặc cho tiếng Việt-Anh-Trung và code, có độ nén cao ~2x so với các bộ vocab phổ biến như llama 3.1, qwen 2.5, và gần ~3x so với bộ vocab của gpt-4
	![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/60c953fa9cacafb192d805fd/puSGRRQ1XUh0aHxuZ36do.jpeg)
	credit: https://huggingface.co/nampdn-ai

	Có thể mở rộng bộ vocab có sẵn với 2-pass vocab exention, và thêm khoảng 12-24k vocab để đạt được hiệu ứng trên.

	## Bộ dữ liệu
	Chúng tôi là những người đầu tiên crawl toàn bộ common crawl để lọc dữ liệu tiếng Việt tại https://huggingface.co/datasets/Symato/cc (shout out to
	[binhvq](https://huggingface.co/binhvq), [nampdn-ai](https://huggingface.co/nampdn-ai) và [iambestfeed](https://huggingface.co/iambestfeed))

	Bạn có thể tìm thấy các datasets khác tại [Vietnamese Text Corpus Collection](https://huggingface.co/collections/Symato/vietnamese-text-corpus-66f612f604f2d5ae977dba70)

	Và bộ dữ liệu có độ chắt lọc cao hơn tại [Knowledge Base Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)

	## DOT series
	DOT: do one thing (and do it well) là tuyển tập các bộ dữ liệu và mô hình chúng tôi phát triển trong quá trình làm các ứng dụng liên quan tới LLM và AI tại Việt Nam.
	Ngoài LLM để giải quyết các vấn đề chính, có rất nhiều bài toán nhỏ có thể giải quyết nhanh gọn bằng SML (LM nhỏ hơn) một cách hiệu quả. Chúng tôi sẽ giới thiệu với các bạn trong [DOT Collection](https://huggingface.co/collections/Symato/knowledge-base-66f614977024ed3df9531db9)