ข้อมูล

ชุดข้อมูล กำลังจัดทำ

เรายังไม่ได้เผยแพร่ชุดข้อมูลสาธารณะ — แต่มีข้อมูลภายในที่ใช้ฝึกโมเดลอยู่ และกำลังเตรียมชุด benchmark ภาษาไทยเพื่อเปิดให้ใช้

ข้อมูลภายใน

ที่ใช้ฝึกโมเดล

ใช้ภายในโครงการ — ยังไม่เปิดให้ดาวน์โหลด

CPT Corpus — คลังข้อความภาษาไทยสำหรับ CPT ~144M token (CulturaX + Pantip)

ภายใน

SFT Data — ข้อมูล instruction tuning (ครอบคลุมกฎหมาย/คณิตศาสตร์/agent โดเมน)

ภายใน

NaraEval-TH — กรอบประเมินภาษาไทย (8 มิติ, 200 ข้อ, ผู้ตรวจ 2 ท่าน) — กำลังดำเนินการ

กำลังสร้าง

วางแผนเผยแพร่

กำลังจัดทำ — ยังไม่สามารถดาวน์โหลดได้

TH-MMLU ชุดประเมินความรู้ภาษาไทยแบบเปิด (หลายสาขาวิชา หลายตัวเลือก)

ระหว่างจัดทำ

TH-MBPP ชุดประเมินการเขียนโค้ด Python สำหรับภาษาไทย

วางแผน

ThaiDial ชุดข้อมูลบทสนทนาภาษาไทย

วางแผน

หลักการ

เราระบุแหล่งข้อมูลและ license ของทุกชุดที่ใช้ฝึก

ใช้เฉพาะข้อมูลที่อนุญาตให้ใช้ในการฝึกโมเดล

ปล่อยชุดข้อมูลสาธารณะเมื่อพร้อมและตรวจสอบแล้ว ไม่รีบ