ข้อมูล
ชุดข้อมูล กำลังจัดทำ
เรายังไม่ได้เผยแพร่ชุดข้อมูลสาธารณะ — แต่มีข้อมูลภายในที่ใช้ฝึกโมเดลอยู่ และกำลังเตรียมชุด benchmark ภาษาไทยเพื่อเปิดให้ใช้
ที่ใช้ฝึกโมเดล
ใช้ภายในโครงการ — ยังไม่เปิดให้ดาวน์โหลด
CPT Corpus — คลังข้อความภาษาไทยสำหรับ CPT ~144M token (CulturaX + Pantip)
ภายใน SFT Data — ข้อมูล instruction tuning (ครอบคลุมกฎหมาย/คณิตศาสตร์/agent โดเมน)
ภายใน NaraEval-TH — กรอบประเมินภาษาไทย (8 มิติ, 200 ข้อ, ผู้ตรวจ 2 ท่าน) — กำลังดำเนินการ
กำลังสร้าง ชุด benchmark ที่จะมา
กำลังจัดทำ — ยังไม่สามารถดาวน์โหลดได้
TH-MMLU ชุดประเมินความรู้ภาษาไทยแบบเปิด (หลายสาขาวิชา หลายตัวเลือก) TH-MBPP ชุดประเมินการเขียนโค้ด Python สำหรับภาษาไทย ThaiDial ชุดข้อมูลบทสนทนาภาษาไทย เราจัดการข้อมูลอย่างไร
เปิดเผยแหล่งที่มา
เราระบุแหล่งข้อมูลและ license ของทุกชุดที่ใช้ฝึก
เคารพ license
ใช้เฉพาะข้อมูลที่อนุญาตให้ใช้ในการฝึกโมเดล
ค่อยเป็นค่อยไป
ปล่อยชุดข้อมูลสาธารณะเมื่อพร้อมและตรวจสอบแล้ว ไม่รีบ