BETA v1.0
หน้าหลัก > เกี่ยวกับคลังข้อมูล
เกี่ยวกับคลังข้อมูล

ข้อมูลทั่วไป

  • ชื่อคลังข้อมูล คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ
  • จำนวนโทเค็นทั้งหมด กำลังโหลด...
  • จำนวนหนังสือ กำลังโหลด...
  • จำนวนตัวบท กำลังโหลด...
  • ภาษาที่ครอบคลุม ภาษาไทย
  • ยุคสมัยของข้อมูลที่ครอบคลุม สมัยสุโขทัย ถึง สมัยปัจจุบัน (พ.ศ. 1882 ถึง พ.ศ. 2565)
  • ลักษณะงานเขียนที่ครอบคลุม ร้อยแก้ว ร้อยกรอง และผสม
  • ประเภทเนื้อหาที่ครอบคลุม
    ประกอบด้วยเนื้อหาประเภทดังต่อไปนี้
  • ประเภทเอกสารที่ครอบคลุม
    ประกอบด้วยประเภทเอกสารและประเภทย่อยต่อย่อไปนี้
  • รูปแบบของข้อมูล ลายลักษณ์อักษร

เกี่ยวกับข้อมูลภาษา

  • ที่มาของข้อมูล หนังสือดิจิทัลจากห้องสมุดดิจิทัลวัชรญาณ ซึ่งเป็นข้อมูลที่ได้รับการตีพิมพ์แล้ว ทั้งนี้ข้อมูลอาจมีการชำระโดยผู้จัดพิมพ์ หรือข้อผิดพลาดในการจัดพิมพ์
  • วิธีการแบ่งยุคสมัย การแบ่งยุคแบบผสมตามแนวทางของ พิทยาวัฒน์ พิทยาภรณ์ และคณะ (2558)
    • • เอกสารสมัยสุโขทัยและอยุธยาถูกแบ่งออกเป็น 3 ช่วงเวลา คือ
    • • สุโขทัยและอยุธยาตอนต้น (ประมาณ พ.ศ. 1800 ถึง พ.ศ. 2072)
    • • อยุธยาตอนกลาง (ประมาณ พ.ศ. 2133 ถึง พ.ศ. 2231)
    • • อยุธยาตอนปลายตอนปลาย (ประมาณพ.ศ. 2275 ถึง พ.ศ. 2310)
    • ตามเกณฑ์การแบ่งของ ศาสตราจารย์ ดร.ชลดา เรืองรักษ์ลิขิต
    • • เอกสารในยุคหลังจัดประเภทเป็นช่วงเวลา 50 ป
    • • ใช้วันที่ที่เอกสารเผยแพร่ครั้งแรกเป็นเกณฑ
    • • เอกสารที่ไม่สามารถกำหนดยุคได้อย่างแน่นอนจะจัดอยู่ในประเภท “ไม่ทราบยุค”
  • ความสมดุลของคลังข้อมูล
    • • ข้อมูลก่อน พ.ศ. 2379 เป็นการเก็บข้อมูลตามโอกาส (oppotunistic data collection) เนื่องจากข้อมูลมีอยู่น้อย ไม่สม่ำเสมอ และส่วนใหญ่เป็นตัวบทประเภทวรรณคดีร้อยกรองเท่านั้น
    • • ข้อมูลตั้งแต่ พ.ศ. 2379 ตัวบทมีการกระจายตัวอย่างสม่ำเสมอ

ข้อมูลเชิงเทคนิค

  • ชุดข้อมูล ข้อมูลในคลังข้อมูลนี้ประกอบด้วย 1) ข้อมูล TNHC2 (ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ) และ 2) ชุดข้อมูล DiachronThai (ชุดข้อมูลตัวบทภาษาไทยสมัยต่างๆ ที่ครอบคลุมจารึกสุโขทัยและอยุธยา)
  • การตัดคำ ตัดคำตามพจนานุกรมหน่วยคำที่พัฒนาเฉพาะและพจนานุกรม PyThaiNLP ด้วยอัลกอริธึม newmm หรือ new maximal matching
  • เครื่องมือค้นหา ประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม และเปรียบเทียบ สำหรับการค้นหาแบบ “ค้นหาจากคลัง” และประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม เปรียบเทียบ และรายการคำ สำหรับการค้นหาแบบ “ค้นหาจากหนังสือ”
  • สถิติที่ใช้ในคำปรากฏร่วม Mutual Information (MI)
  • การเข้าถึงและการดาวน์โหลด คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเปิดให้ค้นหาและดาวน์โหลดผลการค้นหาได้โดยทั่วไปและไม่เสียค่าใช้จ่าย
  • สถานะลิขสิทธิ์
    ข้อมูลบทประพันธ์ในคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเป็นข้อมูลพ้นระยะความคุ้มครองจากกฎหมายลิขสิทธิ์แล้ว สามารถนำไปใช้ได้โดยอ้างอิง
    พิทยาวัฒน์ พิทยาภรณ์, สัณห์ธวัช ธัญวงษ์, กุมภา เศรษฐโกมุท, พนธกร ยุทธกิจ, สุพิชญา สิงสาหัส และภวิศภาคย์ อัครจรัสวงศ์. (2568, 24 กันยายน). คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ. คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย. จาก https://www.chulaseal.net/tnhc/
    Pittayaporn, P., Thanyawong, S., Sethagomut, K., Yuttakit, P., Singsahuth , S., Akarajaradwong, P., (2025, September 24). Thai National Historical Corpus. Retrieved from https://www.chulaseal.net/tnhc/.

คณะผู้จัดทำ

  • นักวิจัยหัวหน้าโครงการ พิทยาวัฒน์ พิทยาภรณ์ (คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย)
  • นักวิจัยร่วม สัณห์ธวัช ธัญวงษ์ (คณะมนุษยศาสตร์และสังคมศาสตร์ มหาวิทยาลัยสงขลานครินทร์ วิทยาเขตปัตตานี)
  • ออกแบบส่วนต่อประสานผู้ใช้ กุมภา เศรษฐโกมุท
  • พัฒนาฐานข้อมูล พนธกร ยุทธกิจ
  • ประสานงานโครงการ สุพิชญา สิงสาหัส
  • พัฒนาเว็บไซต์ ภวิศภาคย์ อัครจรัสวงศ์