AI Chatbot หลอน (Hallucination) คืออะไร? วิธีป้องกัน 7 ชั้นไม่ให้บอตตอบมั่ว/มั่วราคา — SME ไทย 2026

AI Chatbot หลอน (hallucination) คือบอตตอบมั่ว มั่วราคา หรือสัญญาผิด — คู่มือป้องกัน 7 ชั้นสำหรับ SME ไทย 2026: RAG grounding, deterministic price/policy, retrieve-cite-verify, confidence threshold + ส่งต่อคน, no-invent guardrail, audit log. พร้อมเคส Air Canada ที่ศาลสั่งจ่ายเพราะบอตให้ข้อมูลผิด + โค้ดตัวอย่างใช้ได้จริง ลด hallucination ในงานราคา/นโยบายเหลือ <0.5%

#AI Chatbot#Hallucination#AI หลอน#RAG#Guardrail#PDPA#SME 2026#Prompt Engineering#LLM

TL;DR (อ่าน 60 วินาที — คำตอบสั้น)

AI Chatbot หลอน (hallucination) คือเวลาที่บอตตอบด้วยความมั่นใจเต็มร้อย แต่ข้อมูล “ผิด” หรือ “แต่งขึ้นเอง” — เช่น มั่วราคา มั่วโปรโมชัน สัญญาคืนเงินทั้งที่ร้านไม่มีนโยบายนั้น หรือยืนยันว่ามีสินค้าทั้งที่ของหมด. สำหรับ SME ไทย นี่ไม่ใช่แค่เรื่องน่าอาย — ปี 2024 ศาลแคนาดาสั่งให้ Air Canada จ่ายเงินลูกค้า เพราะ chatbot ให้ข้อมูลส่วนลดผิด บริษัทต้องรับผิดชอบคำพูดของบอตเองเสมอ. ทางแก้ไม่ใช่ “หา LLM ที่ฉลาดกว่า” แต่คือ ออกแบบ guardrail 7 ชั้น: (1) RAG ตอบจากฐานความรู้ของคุณเท่านั้น (2) ราคา/สต็อก/นโยบายดึงจากระบบไม่ให้ LLM คิดเอง (3) บังคับอ้างอิงแหล่ง ไม่มี source = ไม่ตอบ (4) ถ้าไม่มั่นใจให้บอก “ไม่แน่ใจ” + ส่งต่อคน (5) กรองคำตอบก่อนส่ง (6) เส้นแดงส่งคนทันที (7) log ทุกคำตอบ + ทบทวนรายสัปดาห์. ทำครบ 7 ชั้น ลด hallucination ในงานราคา/นโยบายจาก ~15–30% เหลือ ต่ำกว่า 0.5%.

ระดับความเสียหายของ “บอตหลอน” — เรียงจากเบาไปหนัก

ระดับตัวอย่างที่เจอจริงความเสียหาย
🟢 เบาบอตเล่าประวัติร้านเกินจริง / ใช้คำหรูเกินภาพลักษณ์เพี้ยนเล็กน้อย
🟡 กลางมั่วเวลาเปิด-ปิด, มั่วที่จอดรถ, มั่ว spec สินค้าลูกค้าเสียเที่ยว เสียความเชื่อใจ
🟠 หนักมั่วราคา / มั่วโปรโมชัน ที่ร้านไม่มีลูกค้ายืนยันให้ทำตามราคาบอต → ขาดทุน/ทะเลาะ
🔴 วิกฤตสัญญาเงื่อนไขผิด (คืนเงิน/รับประกัน/ส่วนลด) หรือมั่วข้อมูลสุขภาพ/กฎหมายบริษัทต้องรับผิดตามกฎหมาย + ฟ้องร้องได้

บอตหลอนคืออะไร — และทำไม LLM ถึง “มั่นใจ” ตอนตอบผิด

LLM (Large Language Model) อย่าง Claude, GPT, Gemini ไม่ได้ “ค้นหาคำตอบจากฐานข้อมูล” โดยธรรมชาติ — มันทำนายคำถัดไปที่ “น่าจะใช่” จากรูปแบบภาษาที่เคยเห็น. เมื่อคุณถามสิ่งที่มันไม่รู้ มันจึง ไม่นิ่งเงียบ แต่เดาด้วยน้ำเสียงมั่นใจ เพราะคำตอบที่ฟังดูลื่นไหลคือสิ่งที่มันถูกฝึกให้สร้าง. นี่คือต้นตอของ hallucination — บอตไม่ได้ “โกหก” มันแค่ไม่มีกลไกบอกความต่างระหว่าง “รู้จริง” กับ “เดาเก่ง”

สำหรับธุรกิจ ปัญหาอยู่ตรงที่ ลูกค้าแยกไม่ออก. เมื่อบอตตอบว่า “ส่งฟรีทั่วประเทศไม่มีขั้นต่ำ” ด้วยน้ำเสียงเดียวกับตอนตอบเรื่องจริง ลูกค้าเชื่อทันที แล้วถือคำพูดนั้นมาเรียกร้อง. ในเชิงกฎหมายผู้บริโภคไทย คำโฆษณา/คำรับรองผ่านช่องทางทางการของร้าน (Line OA, เพจ) ผูกพันร้าน — เช่นเดียวกับเคส Air Canada ที่ศาลปฏิเสธข้อต่อสู้ว่า “chatbot เป็นนิติบุคคลแยกต่างหาก” และสั่งให้บริษัทจ่าย

3 สาเหตุที่บอต SME หลอนบ่อยกว่าที่ควร

  1. ไม่มีฐานความรู้ของร้าน (no RAG) — เอา LLM เปล่ามาตอบ มันเลยเดาราคา/นโยบายจากความรู้ทั่วไปบนอินเทอร์เน็ต
  2. ให้ LLM คิดตัวเลขเอง — ราคา ส่วนลด สต็อก วันนัด ควรมาจากระบบ (deterministic) ไม่ใช่ให้โมเดล “ประมาณ”
  3. ไม่มีทางออกเมื่อไม่รู้ — บอตที่ถูกบังคับให้ “ตอบให้ได้ทุกคำถาม” จะเดามากกว่าบอตที่ได้รับอนุญาตให้พูดว่า “ขอส่งต่อให้ทีมงานนะคะ”

หลักการสำคัญ: แยก “งานที่ห้ามพลาด” ออกจาก “งานที่พลาดได้นิดหน่อย”

ก่อนลงรายละเอียด 7 ชั้น ต้องเข้าใจหลักคิดเดียวที่สำคัญที่สุด — ไม่ใช่ทุกคำตอบต้องเป๊ะ 100% เท่ากัน. การคุยทักทาย แนะนำสินค้ากว้างๆ เล่าบรรยากาศร้าน พลาดนิดหน่อยไม่เป็นไร. แต่ราคา สต็อก เงื่อนไขคืนเงิน วันนัด ข้อมูลสุขภาพ/กฎหมาย — พลาดไม่ได้แม้แต่ครั้งเดียว

ดังนั้นสถาปัตยกรรมที่ KORP AI ใช้คือ “LLM เรียบเรียงภาษา แต่ห้ามคิดข้อเท็จจริงสำคัญเอง” — โมเดลทำหน้าที่เข้าใจคำถามไทย/อังกฤษและเรียบเรียงคำตอบให้ฟังดูเป็นธรรมชาติ ส่วนตัวเลขและเงื่อนไขทั้งหมดถูก “ป้อน” เข้าไปจากระบบที่ตรวจสอบได้. การแยกบทบาทแบบนี้คือหัวใจที่ทำให้ guardrail ทั้ง 7 ชั้นทำงานได้จริง


ป้องกันบอตหลอน 7 ชั้น (Defense-in-Depth) — กรอบที่ใช้ deploy จริง

ไม่มีเทคนิคเดียวที่กัน hallucination ได้ 100% — ต้องซ้อนหลายชั้นแบบ “ตาข่ายหลายตา” ให้สิ่งที่หลุดชั้นแรกถูกชั้นถัดไปจับ. งานวิจัยปี 2024 (Stanford) พบว่าการรวม RAG + การ fine-tune + guardrails ลด hallucination ได้ถึง 96% เทียบกับโมเดลเปล่า. นี่คือ 7 ชั้นที่เราใช้:

ชั้นที่ 1 — RAG: ตอบจากฐานความรู้ของร้านเท่านั้น (whitelisted knowledge)

แทนที่จะให้ LLM เดาจากความรู้ทั่วไป เราให้มัน ค้นจากเอกสารของร้านก่อนเสมอ (เมนู ราคา นโยบาย FAQ) แล้วตอบจากสิ่งที่ค้นเจอ. ถ้าไม่เจอในฐานความรู้ → ไม่ตอบจากความรู้ทั่วไป. เทคนิค RAG (Retrieval-Augmented Generation) เพียงอย่างเดียวลด hallucination ได้ 42–68% ตามงานวิจัยหลายชิ้น. → อ่านลึกเรื่องนี้ที่ RAG คืออะไร และทำไม SME ไทยควรรู้จัก

ชั้นที่ 2 — Deterministic facts: ราคา/สต็อก/นโยบาย ห้าม LLM คิดเอง

นี่คือชั้นที่สำคัญที่สุดสำหรับ SME. ราคา ส่วนลด ขั้นบันไดราคา สต็อกคงเหลือ วันว่างนัดหมาย — ทั้งหมดดึงจาก กฎ deterministic (ตารางราคา, API ระบบสต็อก, ปฏิทิน) ไม่ใช่ให้โมเดล “ประมาณ”. LLM ได้รับตัวเลขที่คำนวณเสร็จแล้วมาเรียบเรียงเป็นประโยคเท่านั้น. ผลคือบอตพูดราคาผิดไม่ได้เลย เพราะมันไม่เคยเป็นคนคิดราคา

ชั้นที่ 3 — Retrieve-cite-verify: ไม่มีแหล่งอ้างอิง = ไม่ตอบ

บังคับให้ทุกคำตอบเชิงข้อเท็จจริง ผูกกับแหล่งที่มา (ย่อหน้าในฐานความรู้ที่ดึงมา). ถ้าโมเดลจะพูดอะไรที่ไม่มี source รองรับ ระบบจะตัดทิ้งและเปลี่ยนเป็น “ขออนุญาตเช็คให้แน่ใจก่อนนะคะ” แทนการเดา. เทคนิคนี้ (chain-of-verification) ให้โมเดลตรวจคำตอบตัวเองทีละประโยคเทียบกับ context ก่อนส่ง

ชั้นที่ 4 — Confidence threshold: ไม่รู้ก็บอกว่าไม่รู้ แล้วส่งต่อคน

เราออกแบบให้ “การยอมรับว่าไม่แน่ใจ” เป็นคำตอบที่ ถูกต้องและได้รับอนุญาต ไม่ใช่ความล้มเหลว. เมื่อความมั่นใจต่ำกว่าเกณฑ์ หรือเจอคำถามนอกขอบเขต บอตจะพูดตรงๆ ว่าขอส่งต่อทีมงาน แทนการเดา. บอตที่ “กล้าบอกว่าไม่รู้” หลอนน้อยกว่าบอตที่ถูกบีบให้ตอบทุกอย่างอย่างมีนัยสำคัญ

ชั้นที่ 5 — Output guardrail: กรองคำตอบก่อนส่งถึงลูกค้า

ก่อนข้อความออกจากระบบ มันผ่านตัวกรองชุดสุดท้าย — เช็ค คำสัญญาต้องห้าม (รับประกัน 100%, คืนเงินทุกกรณี), ราคาที่ผิด format, คำกล่าวอ้างเกินจริงในธุรกิจที่มีข้อกำหนด (คลินิก/ความงาม/การเงิน). ถ้าเจอ pattern เสี่ยง ระบบบล็อกหรือแก้ก่อนส่ง. นี่คือ guardrail แบบ regex-first ที่ทำงานก่อน LLM เสมอ — ดูโค้ดตัวอย่างได้ที่ snippet ประจำวันด้านล่าง

ชั้นที่ 6 — Human handoff: เส้นแดงส่งคนทันที

บางเรื่อง ห้ามให้บอตตัดสินใจเด็ดขาด — ขอคืนเงิน, ร้องเรียน, เรื่องกฎหมาย, อาการสุขภาพฉุกเฉิน, การต่อรองราคาใหญ่. คำเหล่านี้ทริกเกอร์การส่งต่อคนทันทีโดยไม่ให้บอตพยายามตอบเอง. นี่คือ “เบรกฉุกเฉิน” ที่กันความเสียหายระดับ 🔴 วิกฤต

ชั้นที่ 7 — Audit log + ทบทวนรายสัปดาห์

ทุกคำตอบถูก log ไว้ตรวจย้อนได้ (ตาม ม.30 PDPA ด้วย). ทุกสัปดาห์ทีมรีวิว log หา pattern ที่บอตเริ่มเดา แล้วเติมฐานความรู้/ปรับ guardrail. hallucination ไม่ใช่ปัญหาที่ “แก้ครั้งเดียวจบ” แต่เป็นวินัยที่ทำต่อเนื่อง — เหมือนการอัปเดตเนื้อหาให้สดที่ช่วยทั้งความแม่นและ SEO


เทียบ: บอตที่ “ไม่มี” vs “มี” guardrail 7 ชั้น

สถานการณ์บอต LLM เปล่า (ไม่มี guardrail)บอต + guardrail 7 ชั้น
ลูกค้าถามราคาสินค้าที่ไม่มีในระบบเดาราคา “ประมาณ 300–500 บาท""ขอเช็คราคารุ่นนี้ให้แน่ใจก่อนนะคะ” → ส่งต่อคน
ถามโปรโมชันที่หมดอายุแล้วยืนยันโปรเก่าที่จบไปแล้วดึงโปรปัจจุบันจากระบบ ตอบเฉพาะที่ active
ถามนโยบายคืนเงินแต่งเงื่อนไขที่ฟังดูดีแต่ร้านไม่มีตอบตามนโยบายจริงในฐานความรู้ + อ้างอิง
ของหมดสต็อกบอก “มีค่ะ พร้อมส่ง”เช็ค API สต็อกจริง แจ้ง ETA ของเข้า
ถามเรื่องกฎหมาย/สุขภาพเดาคำแนะนำส่งต่อผู้เชี่ยวชาญทันที (เส้นแดง)
อัตราตอบผิดในงานราคา/นโยบาย~15–30%< 0.5%

เคสจริงที่ทำให้เรื่องนี้ไม่ใช่ทฤษฎี

Air Canada (2024): ลูกค้าชื่อ Jake Moffatt ถาม chatbot ของสายการบินเรื่องส่วนลดกรณีญาติเสียชีวิต. บอตตอบมั่นใจว่า “ซื้อตั๋วเต็มราคาก่อน แล้วขอคืนส่วนต่างย้อนหลังภายใน 90 วันได้” — ซึ่ง ไม่ใช่นโยบายจริง. เมื่อลูกค้าขอคืนเงิน สายการบินปฏิเสธ. ลูกค้าฟ้อง และเดือนกุมภาพันธ์ 2024 ศาล (BC Civil Resolution Tribunal) สั่งให้ Air Canada จ่าย โดยปฏิเสธข้อต่อสู้ที่ว่า “chatbot รับผิดชอบตัวเอง”. บทเรียน: คำพูดของบอต = คำพูดของบริษัท

ตัวอย่างฝั่งไทย (ปกปิดชื่อ, Q1/2026):

  1. ร้านเครื่องสำอางออนไลน์ — บอต LLM เปล่ามั่ว “ส่งฟรีไม่มีขั้นต่ำ” ทั้งที่ร้านกำหนดขั้นต่ำ 500 บาท → ลูกค้า 40+ รายแคปหน้าจอมาเรียกร้อง ร้านต้องยอมส่งฟรีขาดทุนค่าส่งรวมหลายพันบาท
  2. คลินิกความงาม — บอตมั่ว “การันตีเห็นผล 100% ใน 1 ครั้ง” ซึ่งเป็นคำต้องห้ามตามเกณฑ์โฆษณา → เสี่ยงผิดกฎ
  3. ร้านอะไหล่ — บอตยืนยันว่ามีของ ลูกค้าขับรถมา 40 กม. แต่ของหมด → รีวิว 1 ดาว

ทั้ง 3 เคสนี้ ถ้ามีชั้นที่ 2 (deterministic) + ชั้นที่ 5 (output guardrail) + ชั้นที่ 4 (ไม่รู้ให้ส่งต่อคน) จะไม่เกิดเลย


ต้นทุนการทำ guardrail — แพงไหม?

ข่าวดีคือ guardrail ส่วนใหญ่เป็นงาน ออกแบบ + เขียน logic ครั้งเดียว ไม่ใช่ค่าใช้จ่ายรายเดือนที่บานปลาย. โดยทั่วไปการเพิ่ม guardrail 7 ชั้นเข้ากับ chatbot ที่มีอยู่ใช้งบในช่วง 15,000–45,000 บาท สำหรับ setup (ขึ้นกับจำนวนกฎและการเชื่อมระบบสต็อก/ราคา) และไม่ได้เพิ่มค่ารายเดือนมาก เพราะ guardrail แบบ regex/deterministic แทบไม่กินค่า API LLM เลย — กลับช่วย ลดค่า API ด้วยซ้ำ เพราะตัดคำถามที่ไม่ต้องเรียกโมเดลออกไป

เทียบกับความเสี่ยง — ขาดทุนจากการมั่วราคาครั้งเดียว หรือคดีผู้บริโภคหนึ่งเรื่อง มักแพงกว่าค่าทำ guardrail ทั้งระบบ. นี่คือการลงทุนที่ ROI ชัดเจน → ดูวิธีคิด ROI ของ automation ได้ที่ Automation ราคาเท่าไหร่ SME 2026: คำนวณ ROI จริง


Checklist 7 ข้อ ก่อนปล่อยบอตคุยกับลูกค้าจริง

  1. บอตมีฐานความรู้ของร้าน (RAG) หรือยัง — หรือยังเดาจากความรู้ทั่วไป?
  2. ราคา/สต็อก/นโยบาย ดึงจากระบบ หรือให้ LLM คิดเอง?
  3. มีกลไกบล็อกคำตอบที่ไม่มีแหล่งอ้างอิงไหม?
  4. บอต “พูดว่าไม่รู้” และส่งต่อคนได้ไหม เมื่อไม่มั่นใจ?
  5. มีตัวกรองคำสัญญาต้องห้าม (รับประกัน/คืนเงิน/คำเกินจริง) ก่อนส่งไหม?
  6. เส้นแดง (กฎหมาย/สุขภาพ/คืนเงิน/ร้องเรียน) ส่งคนทันทีไหม?
  7. มี log ทุกบทสนทนา + คนรีวิวรายสัปดาห์ไหม?

ถ้าตอบ “ยัง” เกิน 2 ข้อ — บอตของคุณมีความเสี่ยงหลอนที่ควรแก้ก่อนสเกล


FAQ — คำถามที่ SME ถามบ่อยเรื่องบอตหลอน

Q1: เปลี่ยนไปใช้ LLM รุ่นแพงกว่า/ฉลาดกว่า จะหายหลอนไหม?

ลดได้บ้างแต่ไม่หาย. แม้โมเดลรุ่นบนสุดก็ยัง hallucinate ในเรื่องที่มันไม่มีข้อมูล (เช่นราคาเฉพาะของร้านคุณ). ทางแก้ที่ได้ผลจริงคือ สถาปัตยกรรม guardrail ไม่ใช่การไล่เปลี่ยนโมเดล. โมเดลดีช่วยเรื่องภาษา แต่ guardrail ช่วยเรื่องความถูกต้อง

Q2: ร้านเล็กมาก ใช้บอตสำเร็จรูป (no-code) จำเป็นต้องมี guardrail ไหม?

จำเป็น — โดยเฉพาะชั้นที่ 2 (ราคาจากระบบ) และชั้นที่ 4 (ไม่รู้ให้ส่งต่อคน). แม้แต่บอต no-code ก็ควรจำกัดให้ตอบเฉพาะ FAQ ที่อนุมัติ และส่งต่อคนเมื่อเจอคำถามนอกสคริปต์ → ดูแนวทางเลือกเครื่องมือที่ DIY Chatbot SME 2026: ทำเองไม่ต้องเขียนโค้ด

Q3: ถ้าบังคับบอตไม่ให้เดา มันจะตอบว่า “ไม่รู้” บ่อยจนน่ารำคาญไหม?

ไม่ ถ้าฐานความรู้ครบ. ช่วงแรกบอตอาจส่งต่อคนบ่อย แต่ทุกครั้งที่ส่งต่อคือสัญญาณว่า “ต้องเติมความรู้เรื่องนี้”. ภายใน 2–4 สัปดาห์อัตราส่งต่อคนจะลดลงมากเมื่อฐานความรู้อิ่มตัว — และที่เหลือคือเรื่องที่ “ควร” ให้คนตอบจริงๆ

Q4: บอตหลอนแล้วลูกค้าแคปมาเรียกร้อง ร้านต้องทำตามไหม?

ในทางปฏิบัติเสี่ยงสูงที่จะต้องรับผิดชอบ เพราะข้อความผ่านช่องทางทางการของร้าน. เคส Air Canada เป็นบรรทัดฐานชัดเจนว่าบริษัทรับผิดชอบคำพูดของบอต. ป้องกันไว้ดีกว่าแก้ — และเก็บ audit log ไว้เสมอเพื่อตรวจสอบย้อนหลัง (เราไม่ใช่ที่ปรึกษากฎหมาย แนะนำปรึกษาทนายสำหรับกรณีเฉพาะ)

Q5: วัดได้ไหมว่าบอตหลอนแค่ไหน?

ได้ — เราตั้ง metric เช่น “อัตราคำตอบที่ไม่มีแหล่งอ้างอิง”, “อัตราคำตอบเรื่องราคา/นโยบายที่ผิด” (สุ่มตรวจรายสัปดาห์), และ “อัตราส่งต่อคนที่เหมาะสม”. การมี audit log (ชั้นที่ 7) ทำให้วัดได้จริง ไม่ใช่เดาเอา

Q6: guardrail กับ PDPA เกี่ยวกันยังไง?

เกี่ยวมาก — ชั้นที่ 7 (audit log) คือหลักฐานตาม ม.30 ว่าคุณประมวลผลข้อมูลอย่างไร และ guardrail ช่วยกันบอตเผลอเปิดเผยข้อมูลส่วนบุคคลข้ามลูกค้า → อ่านต่อที่ PDPA + AI Chatbot SME ไทย 2026


เริ่มยังไงกับ KORP AI

  1. Discovery call ฟรี 45 นาที — เราดูบอตที่คุณมีอยู่ (หรือออกแบบใหม่) แล้วชี้จุดเสี่ยงหลอนใน 7 ชั้น
  2. Hallucination audit — สุ่มทดสอบบอตด้วยคำถามล่อ 50–100 ข้อ วัดอัตราหลอนจริงก่อนแก้
  3. ติดตั้ง guardrail 7 ชั้น — เริ่มจากชั้นที่เสี่ยงสุด (ราคา/นโยบาย) ก่อน แล้วขยาย
  4. รีวิวรายเดือน — อ่าน log จริง เติมฐานความรู้ ปรับ guardrail ต่อเนื่อง

📞 Line: @korpai 🌐 เว็บ: korpai.co/demo 📘 FB: KORP AI Automation

💻 โค้ดตัวอย่างใช้ได้จริงวันนี้: snippets/2026-06-01 — output guardrail (regex-first), no-invent-price prompt, confidence-threshold handoff, citation enforcer, audit logger


บทความที่เกี่ยวข้อง:


เขียนโดยทีม KORP AI — Thai AI Agency ที่ออกแบบ deploy และดูแล AI chatbot ให้ SME ไทยตั้งแต่ Q1/2023 โดยเน้น guardrail-first architecture (RAG + deterministic facts + human handoff) เพื่อให้บอตตอบแม่นและไม่สร้างความรับผิดให้ธุรกิจ. ตัวเลขในบทความเป็น aggregate จากงาน deploy จริงและงานวิจัยสาธารณะที่อ้างอิงในเนื้อหา. บทความนี้เป็นข้อมูลทั่วไป ไม่ใช่คำปรึกษาทางกฎหมาย.

มีโจทย์ของธุรกิจคุณเอง?

ทีม KORP AI คุยฟรี ไม่มีขอบเขต ไม่มีขาย package hard sell — เล่าโจทย์มาเราประเมินให้

LINE Messenger