หน้าหลัก >
เกี่ยวกับคลังข้อมูล
เกี่ยวกับคลังข้อมูล
ข้อมูลทั่วไป
- ชื่อคลังข้อมูล คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติ
- ชื่อชุดข้อมูล ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ (TNHC2)
- จำนวนโทเค็นทั้งหมด 15,000,000 โทเค็น
- จำนวนหนังสือ 227 เล่ม
- จำนวนตัวบท 3,793 บท
- ภาษาที่ครอบคลุม ภาษาไทย
- ยุคสมัยของข้อมูลที่ครอบคลุม สมัยสุโขทัย ถึง สมัยปัจจุบัน (พ.ศ. 1888 ถึง พ.ศ. 2565)
- ลักษณะงานเขียนที่ครอบคลุม ร้อยแก้ว ร้อยกรอง และผสม
- ประเภทเนื้อหาที่ครอบคลุม
- ประเภทเอกสารที่ครอบคลุม
- รูปแบบของข้อมูล ลายลักษณ์อักษร
เกี่ยวกับข้อมูลภาษา
- ที่มาของข้อมูล หนังสือดิจิทัลจากห้องสมุดดิจิทัลวัชรญาณ ซึ่งเป็นข้อมูลที่ได้รับการตีพิมพ์แล้ว ทั้งนี้ข้อมูลอาจมีการชำระโดยผู้จัดพิมพ์ หรือข้อผิดพลาดในการจัดพิมพ์
-
วิธีการแบ่งยุคสมัย
การแบ่งยุคแบบผสม
- • เอกสารสมัยสุโขทัยและอยุธยาถูกแบ่งออกเป็น 3 ช่วงเวลา คือ
- • สุโขทัยและอยุธยาตอนต้น (ประมาณ พ.ศ. 1800 ถึง พ.ศ. 2072)
- • อยุธยาตอนกลาง (ประมาณ พ.ศ. 2133 ถึง พ.ศ. 2231)
- • อยุธยาตอนปลายตอนปลาย (ประมาณพ.ศ. 2275 ถึง พ.ศ. 2310)
- ตามเกณฑ์การแบ่งของ ศาสตราจารย์ ดร.ชลดา เรืองรักษ์ลิขิต
- • เอกสารในยุคหลังจัดประเภทเป็นช่วงเวลา 50 ป
- • ใช้วันที่ที่เอกสารเผยแพร่ครั้งแรกเป็นเกณฑ
- • เอกสารที่ไม่สามารถกำหนดยุคได้อย่างแน่นอนจะจัดอยู่ในประเภท “ไม่ทราบยุค”
-
ความสมดุลของคลังข้อมูล
- • ข้อมูลก่อน พ.ศ. 2379 เป็นการเก็บข้อมูลตามโอกาส (oppotunistic data collection) เนื่องจากข้อมูลมีอยู่น้อย ไม่สม่ำเสมอ และส่วนใหญ่เป็นตัวบทประเภทวรรณคดีร้อยกรองเท่านั้น
- • ข้อมูลตั้งแต่ พ.ศ. 2379 ตัวบทมีการกระจายตัวอย่างสม่ำเสมอ
ข้อมูลเชิงเทคนิค
- การตัดคำ ตัดคำตามพจนานุกรมหน่วยคำที่พัฒนาเฉพาะและพจนานุกรม PyThaiNLP ด้วยอัลกอริธึม newmm หรือ new maximal matching
- รูปแบบไฟล์ สามารถดาวน์โหลดชุดข้อมูล TNHC2 (ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ) ได้ในรูปแบบ ไฟล์ข้อความเปล่า (สกุล .txt) สำหรับหนังสือและตัวบทและรูปแบบไฟล์ตารางงาน (สกุล .xlsx) สำหรับข้อมูลหนังสือ โดยการกดที่ลิงก์นี้ โครงการ TNHC
- เครื่องมือค้นหา ประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม และเปรียบเทียบ สำหรับการค้นหาแบบ “ค้นหาจากคลัง” และประกอบด้วยเครื่องมือค้นหาความถี่ คำปรากฏร่วม เปรียบเทียบ และรายการคำ สำหรับการค้นหาแบบ “ค้นหาจากหนังสือ”
- สถิติที่ใช้ในคำปรากฏร่วม Mutual Information (MI)
- การเข้าถึงและการดาวน์โหลด คลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเปิดให้ค้นหาและดาวน์โหลดผลการค้นหาได้โดยทั่วไปและไม่เสียค่าใช้จ่าย
-
สถานะลิขสิทธิ์
ข้อมูลบทประพันธ์ในคลังข้อมูลภาษาไทยเชิงประวัติแห่งชาติเป็นข้อมูลพ้นระยะความคุ้มครองจากกฎหมายลิขสิทธิ์แล้ว สามารถนำไปใช้ได้โดยอ้างอิงAPA7: พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. https://www.arts.chula.ac.th/tnhc/