ข้ามไปเนื้อหา
ข้อมูล

ชุดข้อมูล กำลังจัดทำ

เรายังไม่ได้เผยแพร่ชุดข้อมูลสาธารณะ — แต่มีข้อมูลภายในที่ใช้ฝึกโมเดลอยู่ และกำลังเตรียมชุด benchmark ภาษาไทยเพื่อเปิดให้ใช้

ข้อมูลภายใน

ที่ใช้ฝึกโมเดล

ใช้ภายในโครงการ — ยังไม่เปิดให้ดาวน์โหลด

CPT Corpus — คลังข้อความภาษาไทยสำหรับ CPT ~144M token (CulturaX + Pantip)
ภายใน
SFT Data — ข้อมูล instruction tuning (ครอบคลุมกฎหมาย/คณิตศาสตร์/agent โดเมน)
ภายใน
NaraEval-TH — กรอบประเมินภาษาไทย (8 มิติ, 200 ข้อ, ผู้ตรวจ 2 ท่าน) — กำลังดำเนินการ
กำลังสร้าง
วางแผนเผยแพร่

ชุด benchmark ที่จะมา

กำลังจัดทำ — ยังไม่สามารถดาวน์โหลดได้

TH-MMLU ชุดประเมินความรู้ภาษาไทยแบบเปิด (หลายสาขาวิชา หลายตัวเลือก)
ระหว่างจัดทำ
TH-MBPP ชุดประเมินการเขียนโค้ด Python สำหรับภาษาไทย
วางแผน
ThaiDial ชุดข้อมูลบทสนทนาภาษาไทย
วางแผน
หลักการ

เราจัดการข้อมูลอย่างไร

เปิดเผยแหล่งที่มา

เราระบุแหล่งข้อมูลและ license ของทุกชุดที่ใช้ฝึก

เคารพ license

ใช้เฉพาะข้อมูลที่อนุญาตให้ใช้ในการฝึกโมเดล

ค่อยเป็นค่อยไป

ปล่อยชุดข้อมูลสาธารณะเมื่อพร้อมและตรวจสอบแล้ว ไม่รีบ