หน้าหลัก > เกี่ยวกับคลังข้อมูล
เกี่ยวกับคลังข้อมูล

ข้อมูลทั่วไป

  • ชื่อคลังข้อมูล คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ
  • ชื่อชุดข้อมูล ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ (TNHC2)
  • จำนวนโทเค็นทั้งหมด 15,000,000 โทเค็น
  • จำนวนหนังสือ 227 เล่ม
  • จำนวนตัวบท 3,793 บท
  • ภาษาที่ครอบคลุม ภาษาไทย
  • ยุคสมัยของข้อมูลที่ครอบคลุม สมัยสุโขทัย ถึง สมัยปัจจุบัน (พ.ศ. 1888 ถึง พ.ศ. 2565)
  • ลักษณะงานเขียนที่ครอบคลุม ร้อยแก้ว ร้อยกรอง และผสม
  • ประเภทเนื้อหาที่ครอบคลุม
    ประกอบด้วยเนื้อหาประเภทดังต่อไปนี้
  • ประเภทเอกสารที่ครอบคลุม
    ประกอบด้วยประเภทเอกสารและประเภทย่อยต่อย่อไปนี้
  • รูปแบบของข้อมูล ลายลักษณ์อักษร

เกี่ยวกับข้อมูลภาษา

  • ที่มาของข้อมูล หนังสือดิจิทัลจากห้องสมุดดิจิทัลวัชรญาณ ซึ่งเป็นข้อมูลที่ได้รับการตีพิมพ์แล้ว ทั้งนี้ข้อมูลอาจมีการชำระโดยผู้จัดพิมพ์ หรือข้อผิดพลาดในการจัดพิมพ์
  • วิธีการแบ่งยุคสมัย การแบ่งยุคแบบผสม
    • • เอกสารสมัยสุโขทัยและอยุธยาถูกแบ่งออกเป็น 3 ช่วงเวลา คือ
    • • สุโขทัยและอยุธยาตอนต้น (ประมาณ พ.ศ. 1800 ถึง พ.ศ. 2072)
    • • อยุธยาตอนกลาง (ประมาณ พ.ศ. 2133 ถึง พ.ศ. 2231)
    • • อยุธยาตอนปลายตอนปลาย (ประมาณพ.ศ. 2275 ถึง พ.ศ. 2310)
    • ตามเกณฑ์การแบ่งของ ศาสตราจารย์ ดร.ชลดา เรืองรักษ์ลิขิต
    • • เอกสารในยุคหลังจัดประเภทเป็นช่วงเวลา 50 ป
    • • ใช้วันที่ที่เอกสารเผยแพร่ครั้งแรกเป็นเกณฑ
    • • เอกสารที่ไม่สามารถกำหนดยุคได้อย่างแน่นอนจะจัดอยู่ในประเภท “ไม่ทราบยุค”
  • ความสมดุลของคลังข้อมูล
    • • ข้อมูลก่อน พ.ศ. 2379 เป็นการเก็บข้อมูลตามโอกาส (oppotunistic data collection) เนื่องจากข้อมูลมีอยู่น้อย ไม่สม่ำเสมอ และส่วนใหญ่เป็นตัวบทประเภทวรรณคดีร้อยกรองเท่านั้น
    • • ข้อมูลตั้งแต่ พ.ศ. 2379 ตัวบทมีการกระจายตัวอย่างสม่ำเสมอ
ข้อมูลเชิงเทคนิค
  • การตัดคำ ตัดคำตามพจนานุกรมหน่วยคำที่พัฒนาเฉพาะและพจนานุกรม PyThaiNLP ด้วยอัลกอริธึม newmm หรือ new maximal matching
  • รูปแบบไฟล์ สามารถดาวน์โหลดชุดข้อมูล TNHC2 (ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ) ได้ในรูปแบบ ไฟล์ข้อความเปล่า (สกุล .txt) สำหรับหนังสือและตัวบทและรูปแบบไฟล์ตารางงาน (สกุล .xlsx) สำหรับข้อมูลหนังสือ โดยการกดที่ลิงก์นี้ โครงการ TNHC
  • เครื่องมือค้นหา ประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม และเปรียบเทียบ สำหรับการค้นหาแบบ “ค้นหาจากคลัง” และประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม เปรียบเทียบ และรายการคำ สำหรับการค้นหาแบบ “ค้นหาจากหนังสือ”
  • สถิติที่ใช้ในคำปรากฏร่วม Mutual Information (MI)
  • การเข้าถึงและการดาวน์โหลด คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเปิดให้ค้นหาและดาวน์โหลดผลการค้นหาได้โดยทั่วไปและไม่เสียค่าใช้จ่าย
  • สถานะลิขสิทธิ์
    ข้อมูลบทประพันธ์ในคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเป็นข้อมูลพ้นระยะความคุ้มครองจากกฎหมายลิขสิทธิ์แล้ว สามารถนำไปใช้ได้โดยอ้างอิง
    APA7: พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. https://www.arts.chula.ac.th/tnhc/