หน้าหลัก >
เกี่ยวกับคลังข้อมูล
เกี่ยวกับคลังข้อมูล
ข้อมูลทั่วไป
- ชื่อคลังข้อมูล คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ
- จำนวนโทเค็นทั้งหมด กำลังโหลด...
- จำนวนหนังสือ กำลังโหลด...
- จำนวนตัวบท กำลังโหลด...
- ภาษาที่ครอบคลุม ภาษาไทย
- ยุคสมัยของข้อมูลที่ครอบคลุม สมัยสุโขทัย ถึง สมัยปัจจุบัน (พ.ศ. 1882 ถึง พ.ศ. 2565)
- ลักษณะงานเขียนที่ครอบคลุม ร้อยแก้ว ร้อยกรอง และผสม
- ประเภทเนื้อหาที่ครอบคลุม
- ประเภทเอกสารที่ครอบคลุม
- รูปแบบของข้อมูล ลายลักษณ์อักษร
เกี่ยวกับข้อมูลภาษา
- ที่มาของข้อมูล หนังสือดิจิทัลจากห้องสมุดดิจิทัลวัชรญาณ ซึ่งเป็นข้อมูลที่ได้รับการตีพิมพ์แล้ว ทั้งนี้ข้อมูลอาจมีการชำระโดยผู้จัดพิมพ์ หรือข้อผิดพลาดในการจัดพิมพ์
-
วิธีการแบ่งยุคสมัย
การแบ่งยุคแบบผสมตามแนวทางของ พิทยาวัฒน์ พิทยาภรณ์ และคณะ (2558)
- • เอกสารสมัยสุโขทัยและอยุธยาถูกแบ่งออกเป็น 3 ช่วงเวลา คือ
- • สุโขทัยและอยุธยาตอนต้น (ประมาณ พ.ศ. 1800 ถึง พ.ศ. 2072)
- • อยุธยาตอนกลาง (ประมาณ พ.ศ. 2133 ถึง พ.ศ. 2231)
- • อยุธยาตอนปลายตอนปลาย (ประมาณพ.ศ. 2275 ถึง พ.ศ. 2310)
- ตามเกณฑ์การแบ่งของ ศาสตราจารย์ ดร.ชลดา เรืองรักษ์ลิขิต
- • เอกสารในยุคหลังจัดประเภทเป็นช่วงเวลา 50 ป
- • ใช้วันที่ที่เอกสารเผยแพร่ครั้งแรกเป็นเกณฑ
- • เอกสารที่ไม่สามารถกำหนดยุคได้อย่างแน่นอนจะจัดอยู่ในประเภท “ไม่ทราบยุค”
-
ความสมดุลของคลังข้อมูล
- • ข้อมูลก่อน พ.ศ. 2379 เป็นการเก็บข้อมูลตามโอกาส (oppotunistic data collection) เนื่องจากข้อมูลมีอยู่น้อย ไม่สม่ำเสมอ และส่วนใหญ่เป็นตัวบทประเภทวรรณคดีร้อยกรองเท่านั้น
- • ข้อมูลตั้งแต่ พ.ศ. 2379 ตัวบทมีการกระจายตัวอย่างสม่ำเสมอ
ข้อมูลเชิงเทคนิค
- ชุดข้อมูล ข้อมูลในคลังข้อมูลนี้ประกอบด้วย 1) ข้อมูล TNHC2 (ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ) และ 2) ชุดข้อมูล DiachronThai (ชุดข้อมูลตัวบทภาษาไทยสมัยต่างๆ ที่ครอบคลุมจารึกสุโขทัยและอยุธยา)
- การตัดคำ ตัดคำตามพจนานุกรมหน่วยคำที่พัฒนาเฉพาะและพจนานุกรม PyThaiNLP ด้วยอัลกอริธึม newmm หรือ new maximal matching
- เครื่องมือค้นหา ประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม และเปรียบเทียบ สำหรับการค้นหาแบบ “ค้นหาจากคลัง” และประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม เปรียบเทียบ และรายการคำ สำหรับการค้นหาแบบ “ค้นหาจากหนังสือ”
- สถิติที่ใช้ในคำปรากฏร่วม Mutual Information (MI)
- การเข้าถึงและการดาวน์โหลด คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเปิดให้ค้นหาและดาวน์โหลดผลการค้นหาได้โดยทั่วไปและไม่เสียค่าใช้จ่าย
-
สถานะลิขสิทธิ์
ข้อมูลบทประพันธ์ในคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเป็นข้อมูลพ้นระยะความคุ้มครองจากกฎหมายลิขสิทธิ์แล้ว สามารถนำไปใช้ได้โดยอ้างอิงพิทยาวัฒน์ พิทยาภรณ์, สัณห์ธวัช ธัญวงษ์, กุมภา เศรษฐโกมุท, พนธกร ยุทธกิจ, สุพิชญา สิงสาหัส และภวิศภาคย์ อัครจรัสวงศ์. (2568, 24 กันยายน). คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ. คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย. จาก https://www.chulaseal.net/tnhc/Pittayaporn, P., Thanyawong, S., Sethagomut, K., Yuttakit, P., Singsahuth , S., Akarajaradwong, P., (2025, September 24). Thai National Historical Corpus. Retrieved from https://www.chulaseal.net/tnhc/.
คณะผู้จัดทำ
- นักวิจัยหัวหน้าโครงการ พิทยาวัฒน์ พิทยาภรณ์ (คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย)
- นักวิจัยร่วม สัณห์ธวัช ธัญวงษ์ (คณะมนุษยศาสตร์และสังคมศาสตร์ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี)
- ออกแบบส่วนต่อประสานผู้ใช้ กุมภา เศรษฐโกมุท
- พัฒนาฐานข้อมูล พนธกร ยุทธกิจ
- ประสานงานโครงการ สุพิชญา สิงสาหัส
- พัฒนาเว็บไซต์ ภวิศภาคย์ อัครจรัสวงศ์