
Mercury 2: LLM ทำความเร็วได้เร็วที่สุดในโลก ด้วยเทคโนโลยี Diffusion
Inception Labs เปิดตัว Mercury 2 ซึ่งเป็น LLM ที่เร็วที่สุดในโลก สร้างขึ้นเพื่อทำให้ AI ใน Production รู้สึกได้ทันที
สมมติคุณมี AI agent pipeline ที่เรียก LLM 50 ครั้งต่อ 1 task — ทุกครั้งที่โมเดลใช้เวลา 500ms ในการ generate คำตอบ มันสะสมเป็น 25 วินาทีต่อ task เดียว ลูกค้ารอ 25 วินาทีไม่ได้ ไม่มีใครรอได้
ถ้าคุณทำ chatbot ให้ธนาคารไทย หรือ voice assistant สำหรับ call center ที่ต้องรับสายวันละหลายพันสาย latency แบบนี้ไม่ใช่แค่ปัญหาเรื่อง UX — มันคือเงินที่หายไปทุกวินาที ลูกค้าวางสายก่อนได้คำตอบ conversion rate ตกลง ทีม ops ต้องมานั่ง handle case ที่ AI ตอบไม่ทัน
ปัญหาไม่ได้อยู่ที่ infrastructure ช้า ไม่ใช่ว่า cloud provider ไม่ดี ไม่ใช่ว่า GPU ไม่แรงพอ แต่อยู่ที่ LLM ส่วนใหญ่ทำงานแบบ autoregressive — สร้าง token ทีละตัว เรียงต่อกันไปเรื่อยๆ เหมือนพิมพ์ดีดทีละตัวอักษร จะเร็วแค่ไหนก็ติด bottleneck ตรงนี้
แล้วถ้ามีโมเดลที่ไม่ต้องสร้างทีละ token ล่ะ? ถ้ามีวิธีที่ทำให้ LLM generate ข้อความทั้ง chunk พร้อมกัน — เหมือนเปลี่ยนจากพิมพ์ดีดเป็น printer ที่พิมพ์ทั้งหน้าในครั้งเดียว?

ที่มา: arXiv 2502.09992 — ภาพรวมสถาปัตยกรรม Large Language Diffusion Models (LLaDA)
Mercury 2 คืออะไร — ทำไมต้องสนใจ
Inception Labs เป็น startup จาก Stanford ที่ทำ Diffusion Language Model — แนวคิดที่ต่างจาก LLM ทั่วไปอย่างสิ้นเชิง Mercury 2 คือโมเดลรุ่นที่สองของพวกเขา เปิดตัวเมื่อ 24 กุมภาพันธ์ 2026
ตัดเรื่องอื่นไปก่อน — สิ่งที่ Mercury 2 เปลี่ยนจริงๆ มีสองเรื่อง:
เรื่องแรกคือ speed ด้วยตัวเลข 1,009 tokens/วินาที ซึ่งเร็วกว่า speed-optimized LLMs ทั่วไป 5 เท่า response มาก่อนที่คุณจะเลื่อนหน้าจอด้วยซ้ำ สำหรับ agentic pipeline ที่เรียก 50 ครั้งต่อ task ความเร็วแบบนี้เปลี่ยน latency จาก 25 วินาทีเหลือ 5 วินาที
เรื่องที่สองคือราคา — $0.25/1M input tokens ซึ่งหมายความว่า agent ที่เรียก 50 ครั้งต่อ task ใช้เงินไม่ถึง 1 บาท สำหรับ chatbot ที่มี 1,000 users/day ค่า API ต่อเดือนอาจไม่ถึง 500 บาท — ถูกกว่าค่ากาแฟในออฟฟิศทั้งเดือน
1,009
tokens/วินาที
5x
เร็วกว่า speed-optimized LLMs
$0.25
Input /1M tokens
แต่ต้องบอกตรงๆ ว่าตัวเลข 1,009 tok/s นี้วัดบน NVIDIA Blackwell ซึ่งเป็น hardware รุ่นใหม่ล่าสุดที่ยังไม่ได้กระจายตัวในตลาด ถ้าคุณใช้ cloud provider ทั่วไปในไทย ตัวเลขจริงอาจต่ำกว่านี้มาก — benchmark กับ production ไม่เคยเหมือนกัน ต้องทดสอบกับ workload จริงของคุณถึงจะรู้
และอีกเรื่องที่ต้องพูดถึงเลยคือ intelligence level — Mercury 2 อยู่ระดับ Haiku/Flash class ไม่ใช่ Opus หรือ GPT-5.4 มันเร็วมากจริง แต่ถ้าต้องการ deep reasoning ซับซ้อน Mercury 2 ยังไม่ใช่คำตอบ เหมือนคุณได้รถสปอร์ตที่วิ่งเร็วสุดในสนาม แต่บรรทุกของได้น้อย — ต้องเลือกให้ตรง use case
Diffusion LLM ทำงานยังไง — ทำไมมันเร็วกว่า
หลายคนเข้าใจว่า LLM เร็วขึ้นเพราะ hardware ดีขึ้น — จริงส่วนหนึ่ง แต่ Mercury 2 เร็วเพราะมันเปลี่ยน วิธีสร้างข้อความ ตั้งแต่ระดับสถาปัตยกรรม
LLM ทั่วไปใช้ Autoregressive Generation — สร้าง token ทีละตัว ตัวที่ 2 ต้องรอตัวที่ 1 เสร็จก่อน ตัวที่ 100 ต้องรอ 99 ตัวก่อนหน้า ไม่ว่า GPU จะแรงแค่ไหน bottleneck ของ sequential generation ก็ยังอยู่
Mercury 2 ใช้ Diffusion Language Model ที่ทำงานต่างออกไปโดยสิ้นเชิง:
- 1
เริ่มจาก Noise
แทนที่จะเริ่มจากความว่างเปล่าแล้วสร้างทีละ token ระบบเริ่มจาก 'noise' คือ random tokens เต็มทั้งประโยค — เหมือนร่างแรกที่เขียนมั่วๆ ไว้ก่อน
- 2
Iterative Refinement
ในแต่ละ step ระบบแก้ไขหลาย tokens พร้อมกัน — ไม่ได้แก้ทีละตัว แต่ปรับทั้ง chunk เหมือน editor ที่อ่าน draft แล้วแก้ทั้งย่อหน้าในคราวเดียว
- 3
Parallel Generation
เพราะแก้หลายตำแหน่งพร้อมกัน GPU utilization จึงสูงกว่า autoregressive มาก — ใช้ประโยชน์จาก hardware ได้เต็มที่กว่า
- 4
Quality Convergence
ผ่านหลาย refinement steps ข้อความค่อยๆ converge จาก noise กลายเป็นข้อความที่สมบูรณ์ — ยิ่ง step เยอะ quality ยิ่งดี แต่ก็ใช้ compute มากขึ้น
ถ้าจะเปรียบเทียบให้เห็นภาพชัด — autoregressive model เหมือนนักเขียนที่พิมพ์ทีละตัวอักษรจากซ้ายไปขวา ห้ามย้อนกลับ ห้ามข้าม ต้องเรียงลำดับเป๊ะ ในขณะที่ diffusion model เหมือน editor ที่มองเห็นทั้งหน้ากระดาษแล้วแก้หลายจุดพร้อมกัน — draft แรกอาจยังมั่วอยู่ แต่ผ่านไปไม่กี่รอบก็กลายเป็นข้อความที่อ่านรู้เรื่อง

ที่มา: arXiv 2502.09992 — การแสดงผลกระบวนการ Diffusion sampling จาก noise สู่ข้อความสมบูรณ์
แนวคิด diffusion ไม่ใช่เรื่องใหม่ — มันถูกใช้ใน image generation มาก่อน (Stable Diffusion, DALL-E) แต่การเอามาใช้กับ ภาษา นั้นยากกว่ามาก เพราะภาษาเป็น discrete tokens ไม่ใช่ continuous pixels งานวิจัย LLaDA (Large Language Diffusion with mAsking) จาก arXiv 2502.09992 เป็นหนึ่งในพื้นฐานที่ Inception Labs ต่อยอด ซึ่งทำให้ diffusion approach ใช้งานได้จริงกับ text generation
ต้องบอกตรงๆ ว่า diffusion LLM ยังเป็นเทคโนโลยีที่ใหม่มาก community ยังอยู่ในช่วง validate ว่ามันจะ scale ได้ดีแค่ไหนในระยะยาว — แต่ผลลัพธ์แรกจาก Mercury 2 น่าสนใจพอที่จะจับตาดู
สำหรับ dev ไทยที่อยากเข้าใจ diffusion LLM ในเชิงลึก — ลองอ่าน paper LLaDA บน arXiv เป็นจุดเริ่มต้นที่ดี อ่านจบใน 30-45 นาที แล้วจะเข้าใจว่าทำไม architecture นี้ถึงมีศักยภาพ และข้อจำกัดอยู่ตรงไหน ความรู้แบบนี้ช่วยให้คุณตัดสินใจได้ดีกว่าแค่ดูตัวเลข benchmark
ตัวเลขที่ต้องรู้ — พร้อม context ที่ benchmark ไม่ได้บอก
ตัวเลขดูดีมาก — แต่ benchmark กับ production ไม่เคยเหมือนกัน มาดูทีละตัวพร้อม context จริง:
| รายการ | Mercury 2 | Context ที่ต้องรู้ |
|---|---|---|
| ความเร็ว | 1,009 tok/s | วัดบน NVIDIA Blackwell — hardware ที่ยังไม่แพร่หลาย ตัวเลขจริงบน cloud ทั่วไปน่าจะต่ำกว่านี้ |
| ราคา Input | $0.25/1M tokens | ถูกมาก — agent เรียก 50 ครั้งต่อ task ใช้เงินไม่ถึง 1 บาท |
| ราคา Output | $0.75/1M tokens | เทียบเท่า Haiku/Flash class — ถูกกว่า Opus/GPT-5.4 หลายเท่า |
| Context Window | 128K tokens | ใส่ไฟล์ได้ 5-6 ไฟล์พร้อมกัน พอสำหรับ review PR ทั้ง PR — แต่ไม่ใช่ 1M แบบ Gemini |
| Intelligence | Haiku/Flash class | ไม่ใช่ Opus หรือ GPT-5.4 — เน้นเร็ว ไม่เน้น deep reasoning |
| Terminal-Bench Hard | เทียบเท่า Claude 4.5 Haiku | coding tasks ทั่วไปใช้ได้ — แต่ complex reasoning ยังห่าง frontier models |
| IFBench | 70% | Instruction Following — พอใช้สำหรับ structured output แต่ไม่ใช่ top tier |
| สถาปัตยกรรม | Diffusion LLM | ไม่ใช่ Autoregressive — สร้างหลาย tokens พร้อมกัน จึงเร็วกว่า |
สิ่งที่ตารางนี้ไม่ได้บอกคือ trade-off ที่แท้จริง ระหว่าง speed กับ intelligence ถ้าผมต้องเลือกโมเดลสำหรับ production วันนี้ — Mercury 2 เหมาะกับงานที่ต้องการ latency ต่ำและ cost ต่ำ แต่ไม่ต้องการ reasoning ลึก เช่น chatbot ตอบคำถามทั่วไป, autocomplete, structured data extraction
แต่ถ้างานต้องการ reasoning ซับซ้อน เช่น code review ที่ต้องเข้าใจ business logic, legal document analysis, หรือ multi-step planning — ยังต้องใช้ Claude Opus หรือ GPT-5.4 อยู่ ไม่มีทางลัด
เทียบราคาให้เห็นภาพชัดขึ้น — สมมติคุณเป็น startup ไทยที่ทำ AI chatbot ให้ลูกค้า 500 บาท/เดือน อาจเพียงพอสำหรับ API cost ทั้งหมดถ้าใช้ Mercury 2 ในขณะที่โมเดลระดับ frontier อาจใช้ 5,000-10,000 บาท/เดือนสำหรับ volume เดียวกัน ส่วนต่างตรงนี้สำหรับ startup ที่ bootstrap อยู่คือเรื่องใหญ่ — มันอาจเป็นความแตกต่างระหว่าง "ยังอยู่ได้" กับ "เงินหมด"
ถ้าเทียบกับค่าใช้จ่ายอื่นๆ ของ tech startup ไทย — ค่า API 500 บาท/เดือน น้อยกว่าค่า internet ในออฟฟิศ น้อยกว่าค่า Figma 1 license น้อยกว่าค่า cloud hosting ขั้นต่ำ ราคาแบบนี้ทำให้ AI ไม่ใช่ "ค่าใช้จ่ายพิเศษ" อีกต่อไป แต่เป็น utility พื้นฐานเหมือนค่าไฟ
ใครจะได้ประโยชน์จริง — พร้อมตัวอย่างจาก dev จริง
Agentic Workflows — จุดที่ Mercury 2 เปลี่ยนเกมจริงๆ
ถ้าผมต้องเลือก use case เดียวที่ Mercury 2 เปลี่ยนมากที่สุด คือ agentic workflows ที่ agent ต้องเรียก LLM หลายสิบครั้งต่อ 1 task ไม่ใช่แค่ chatbot ที่เรียกครั้งเดียวแล้วตอบ แต่เป็น pipeline ที่มีหลาย step ซ้อนกัน
ลองคิดตามดูแบบนี้ — สมมติคุณทำ AI agent ที่ช่วย customer support สำหรับ e-commerce ไทย อย่างเช่น Shopee seller ที่ต้องตอบ chat ลูกค้าวันละหลายร้อยข้อความ agent ต้องอ่านข้อความลูกค้า → ดึงข้อมูลออเดอร์ → ตรวจสอบสถานะ → เช็คนโยบายคืนสินค้า → เขียนคำตอบ → ตรวจสอบ tone → ส่ง ทั้งหมดนี้เรียก LLM อย่างน้อย 5-7 ครั้ง ถ้าแต่ละครั้งใช้เวลา 1-2 วินาที ลูกค้ารอ 10 วินาทีกว่าจะได้คำตอบ
ด้วย Mercury 2 เวลาทั้งหมดลดเหลือ 2-3 วินาที — ลูกค้ารู้สึกว่า AI ตอบเร็วเกือบเท่าคนจริง
"Mercury 2 เร็วกว่า GPT-5.2 อย่างน้อย 2 เท่า ใช้งานจริงเร็วขึ้นมาก" — Suchintan Singh, Skyvern
แต่ต้องระวังว่า agent ที่ต้องการ ตัดสินใจซับซ้อน เช่น ต้องวิเคราะห์ว่าลูกค้ากำลังพยายาม scam หรือเปล่า, ต้องเลือกว่าจะ escalate หรือ resolve เอง — แบบนี้ intelligence ระดับ Haiku อาจไม่พอ ต้องใช้โมเดลที่ฉลาดกว่ามา handle edge cases แล้วปล่อยให้ Mercury 2 ทำ routine tasks ที่ต้องการความเร็ว
ถ้าผมเอาไปใช้จริงในทีมตอนนี้ ผมจะ design pipeline แบบ "Mercury 2 first, escalate to Opus" — ทุก request เข้า Mercury 2 ก่อน ถ้า confidence สูงพอก็ตอบเลย ถ้าไม่แน่ใจค่อยส่งไป frontier model วิธีนี้ได้ทั้งความเร็วและความแม่นยำ โดย cost เฉลี่ยต่อ request ยังถูกอยู่เพราะ 80% ของ requests เป็น routine ที่ Mercury 2 handle ได้สบาย
Voice AI — latency budget ที่เข็ดที่สุดใน AI
สำหรับ startup ไทยที่ทำ voice AI — latency ที่ลดจาก 2 วินาทีเหลือ 200ms เปลี่ยน UX จาก "รอ AI ตอบ" เป็น "คุยกับ AI แบบ real-time" ได้เลย
Voice interface มี latency budget แค่ 200-300ms — ช้ากว่านี้คนพูดจะรู้สึกว่ามี delay เหมือนคุยโทรศัพท์ข้ามประเทศสมัยก่อน แทนที่จะรู้สึกเหมือนคุยกับคน
ลองนึกภาพ call center ของธนาคารไทยที่รับสายวันละ 5,000 สาย ถ้า AI voice assistant ตอบช้าไป 2 วินาที ลูกค้าจะรู้สึกว่า "AI นี้ช้าจัง" แล้วกดโอนไปคุยกับคนจริง ซึ่งแพงกว่าหลายเท่า แต่ถ้าตอบได้ใน 200ms ลูกค้าอาจไม่รู้ด้วยซ้ำว่ากำลังคุยกับ AI
ในไทย voice AI กำลังเติบโตเร็วมาก โดยเฉพาะในอุตสาหกรรม insurance, banking, และ telecom ที่ต้องรับสายจำนวนมาก ต้นทุน call center agent คนไทยอยู่ที่ราว 15,000-25,000 บาท/เดือน ต่อ 1 คน ถ้า AI voice assistant ที่ใช้ Mercury 2 handle ได้ 50% ของสาย ค่า API อาจอยู่แค่หลักพันบาท/เดือน — ส่วนต่างตรงนี้คือ ROI ที่ CFO เห็นแล้วอนุมัติทันที
"Mercury 2 ปลดล็อก voice stack ของเรา — ข้อความออกมาเร็วและสม่ำเสมอ ทำให้ทั้ง experience รู้สึกเป็นธรรมชาติ" — Max Sapo, Happyverse AI
แต่ต้องพูดถึง limitation สำคัญ — Mercury 2 เป็น text-only ไม่มี audio input/output ดังนั้นใน voice pipeline คุณยังต้องใช้ STT (Speech-to-Text) และ TTS (Text-to-Speech) แยกต่างหาก Mercury 2 ทำได้แค่ส่วน "คิดคำตอบ" ให้เร็ว ซึ่งหมายความว่า total latency ของ voice pipeline จริงๆ จะเป็น STT + Mercury 2 + TTS ดังนั้นตัวเลข 200ms ที่พูดถึงคือเฉพาะส่วนของ Mercury 2 เท่านั้น total end-to-end latency จะสูงกว่านี้ ต้องเลือก STT/TTS ที่เร็วด้วย
Developer Tools — Autocomplete ที่เร็วพอจะเป็นส่วนหนึ่งของ flow
ถ้าคุณเคยใช้ GitHub Copilot หรือ Cursor แล้วรู้สึกว่า suggestion มาช้าไปนิดนึง — ช้าแค่ครึ่งวินาทีแต่พอรู้สึกได้ มันทำให้คุณเสีย flow ของการพิมพ์ ต้องหยุดรอ ต้องอ่านว่า suggestion ที่มาช้าๆ นั้นถูกมั้ย Mercury 2 อาจแก้ปัญหาตรงนี้ได้
ความเร็วระดับ 1,009 tok/s หมายความว่า suggestion ปรากฏเร็วพอที่จะรู้สึกเป็นส่วนหนึ่งของความคิดของคุณ ไม่ใช่สิ่งที่ต้อง "รอ"
"Suggestions land fast enough to feel like part of your own thinking" — Max Brunsfeld, Zed
สำหรับ dev ไทยที่ทำงาน freelance หรือ remote — tool ที่เร็วกว่าหมายความว่า billable hours ได้งานมากขึ้น ถ้าเดิมใช้เวลา 1 ชั่วโมงเขียน code ได้ 50 บรรทัด autocomplete ที่ instant อาจช่วยเพิ่มเป็น 70-80 บรรทัด ส่วนต่างตรงนี้สะสมเป็นรายได้ที่จับต้องได้
แต่ต้องมี devil's advocate ตรงนี้ — autocomplete ที่เร็วแต่ไม่แม่นก็ไม่ได้ช่วยอะไร ถ้า suggestion ผิดบ่อย คุณเสียเวลาอ่านและลบทิ้งมากกว่าที่ประหยัดได้ intelligence ระดับ Haiku class สำหรับ autocomplete ง่ายๆ เช่น boilerplate, import statements, simple functions อาจเพียงพอ แต่สำหรับ complex logic ที่ต้องเข้าใจ context ของทั้ง codebase คุณอาจยังต้องพึ่ง Claude หรือ GPT-5.4
Search & RAG — เพิ่ม reasoning โดยไม่ต้องเพิ่มเวลา
Search pipeline ที่มี retrieval → rerank → summarize แต่ละขั้นตอนใช้เวลาแค่นิดหน่อย แต่รวมกัน 3-4 ขั้นตอนก็เป็น 2-3 วินาทีได้
Mercury 2 ช่วยให้เพิ่ม reasoning step เข้าไปใน pipeline โดยไม่ต้องเพิ่มเวลาที่ user รอ — เช่น เพิ่ม step ที่ summarize ผลลัพธ์ให้สั้นลง หรือ rewrite query ก่อน search โดยที่ total latency ยังอยู่ในเกณฑ์ที่ user ไม่รู้สึก
"Our partnership with Inception makes real-time AI for our search product practical" — Timo Selvaraj, SearchBlox
สำหรับ dev ไทยที่ทำ RAG system ให้องค์กร — ลองคิดว่าถ้าคุณทำ internal knowledge base ให้บริษัทที่มีพนักงาน 500 คน แต่ละคนถามคำถามวันละ 5-10 ครั้ง ค่า API ต่อเดือนด้วย Mercury 2 อาจอยู่แค่หลักพันบาท — น้อยกว่าค่า subscription ของ knowledge base tool สำเร็จรูปจากต่างประเทศที่คิดเป็นหัวต่อเดือน
ตรงนี้ต้อง caveat เรื่อง quality ด้วย — RAG system ที่ดี ไม่ใช่แค่ "ตอบเร็ว" แต่ต้อง "ตอบถูก" ด้วย ถ้า Mercury 2 ที่ intelligence ระดับ Haiku ทำให้ summarization quality ต่ำลง ผู้ใช้อาจได้คำตอบเร็วแต่ผิด — ซึ่งแย่กว่าได้คำตอบช้าแต่ถูก ดังนั้นสำหรับ RAG ที่ต้องการ accuracy สูง เช่น internal compliance หรือ legal FAQ ควรทดสอบ quality อย่างละเอียดก่อน commit

ที่มา: arXiv 2502.09992 — เปรียบเทียบ benchmark ระหว่าง Diffusion LLMs กับ Autoregressive models
ต้องบอกตรงๆ — ข้อจำกัดที่ต้องรู้ก่อนใช้
ถึงตรงนี้ต้องหยุดตื่นเต้นสักพักแล้วมาพูดถึงสิ่งที่ Mercury 2 ยังทำไม่ได้ เพราะบทความส่วนใหญ่ที่เขียนเกี่ยวกับ Mercury 2 พูดแต่ด้านดี
Intelligence ระดับ Haiku — ไม่ใช่ Opus Mercury 2 เร็วมากจริง แต่ความฉลาดอยู่ระดับเดียวกับ Claude Haiku หรือ GPT-4o mini สำหรับงานที่ต้องการ reasoning ลึก เช่น วิเคราะห์สัญญาที่ซับซ้อน, ตรวจ code ที่มี business logic ซ้อนกันหลายชั้น, หรือ planning ที่ต้องคิดหลายขั้นตอน — Mercury 2 จะทำได้ไม่ดีเท่า frontier models
Text-only — ไม่มี Vision ไม่รองรับ image input ดังนั้น use cases ที่ต้อง "ดูรูป" เช่น OCR, document understanding จาก scan, UI screenshot analysis ไม่สามารถใช้ Mercury 2 ได้
Startup ecosystem — ยังเล็ก Inception Labs เป็น startup ที่เพิ่งเริ่ม เทียบกับ OpenAI, Anthropic, Google ที่มีทีมหลายพันคนและ infrastructure ที่ผ่าน battle-test มาแล้ว ความเสี่ยงคือถ้า Inception Labs มีปัญหาทางธุรกิจ คุณอาจต้องหาทางเลือกอื่นอย่างกะทันหัน สำหรับ production system ที่ critical เรื่อง vendor risk แบบนี้ต้องคิดให้ดี ควรมี fallback plan ที่ชัดเจนก่อน commit กับ provider ที่ยังใหม่
ใหม่มาก — Community ยังต้อง validate Mercury 2 เปิดตัว 24 กุมภาพันธ์ 2026 ยังไม่มี community ขนาดใหญ่ที่ทดสอบกับ use cases หลากหลาย ถ้าเจอ edge case หรือ bug การหา support อาจยากกว่าโมเดลจาก Big 3 ลองค้นหาใน Stack Overflow หรือ GitHub Issues จะเห็นว่า discussion ยังน้อยมากเมื่อเทียบกับ OpenAI หรือ Anthropic
ภาษาไทยยังไม่มี benchmark — ตัวเลข benchmark ทั้งหมดวัดจาก English tasks ยังไม่มีใครทดสอบอย่างเป็นระบบว่า Mercury 2 handle ภาษาไทยได้ดีแค่ไหน สำหรับ dev ที่ทำ chatbot ภาษาไทย นี่คือสิ่งที่ต้องทดสอบเองก่อนตัดสินใจ — quality ของ Thai text generation อาจต่ำกว่าที่ benchmark ภาษาอังกฤษบอก
จุดแข็ง
- เร็วกว่า speed-optimized LLMs 5 เท่า ด้วย Diffusion architecture — สำหรับ agentic pipeline นี่คือ game changer
- ราคาถูกมาก — $0.25 input, $0.75 output ต่อ 1M tokens ถูกพอให้ startup ไทยใช้ได้สบายๆ
- Tunable reasoning, Native tool use, Schema-aligned JSON — ใช้ใน production ได้จริง ไม่ใช่แค่ demo
- OpenAI API compatible — แค่เปลี่ยน endpoint ไม่ต้องแก้ code เดิม
- 128K context window — พอสำหรับ agentic workloads ส่วนใหญ่
ข้อจำกัดที่ต้องรู้
- Text-only — ไม่รองรับ Image/Vision ใช้กับงาน multimodal ไม่ได้
- Intelligence ระดับ Haiku class — ไม่เหมาะกับ deep reasoning, complex planning, หรือ legal/medical analysis
- Startup ecosystem — Inception Labs ยังเล็ก เทียบกับ Big 3 ความเสี่ยงทางธุรกิจสูงกว่า
- ใหม่มาก — Launch 24 ก.พ. 2026 Community ยัง validate อยู่ edge cases อาจเยอะ
- 1,009 tok/s วัดบน NVIDIA Blackwell — hardware ที่ยังไม่แพร่หลาย ตัวเลขจริงอาจต่ำกว่า
ถ้าผมต้องเลือกวันนี้ — Mercury 2 vs Frontier Models
คำถามที่ dev ไทยหลายคนน่าจะถามคือ "แล้วจะเอาไปแทนโมเดลที่ใช้อยู่ได้มั้ย?"
คำตอบสั้นๆ คือ ไม่ใช่ "แทน" แต่คือ "เพิ่ม" — Mercury 2 ไม่ได้มาแทนที่ Claude Opus หรือ GPT-5.4 มันมาเติมช่องว่างที่โมเดลเหล่านั้นไม่ได้เน้น
ถ้าผมทำ chatbot ให้ลูกค้า — Mercury 2 เพราะ latency ต่ำ ค่าใช้จ่ายถูก ลูกค้าได้คำตอบเร็ว
ถ้าผมทำ code review agent — ยังเลือก Claude Opus เพราะต้องการ reasoning ที่เข้าใจ business logic ลึกๆ
ถ้าผมทำ voice assistant — Mercury 2 สำหรับ response generation + frontier model สำหรับ complex queries ที่ต้องคิดเยอะ
ถ้าผมทำ data pipeline ที่ต้อง extract + transform ข้อมูลจำนวนมาก — Mercury 2 เพราะทุก millisecond ที่ประหยัดได้ x 10,000 records = ชั่วโมงที่ประหยัดได้
Mercury 2 ไม่ได้มาแทน frontier models — มันมาเติมช่องว่างสำหรับงานที่ต้องการ เร็วและถูก มากกว่า ฉลาดและลึก สำหรับ production ส่วนใหญ่ คุณจะใช้ทั้งสองแบบใน pipeline เดียวกัน
สำหรับ dev ไทยที่ทำ product — วิธีคิดที่ถูกต้องคือ model routing ใช้ Mercury 2 สำหรับ 80% ของ requests ที่เป็น routine แล้วส่ง 20% ที่ซับซ้อนไปให้ frontier models ผลลัพธ์คือ cost ลดลง 60-70% โดยที่ quality ของ output ที่สำคัญจริงๆ ไม่ได้ลดลง
สิ่งที่ต้องระวัง — OpenAI API Compatibility
Mercury 2 บอกว่า compatible กับ OpenAI API format — แค่เปลี่ยน endpoint ก็ใช้ได้เลย ฟังดูดีมาก แต่ในทางปฏิบัติ "API compatible" ไม่ได้แปลว่า "behavior เหมือนกัน" output format อาจต่างกันเล็กน้อย, edge cases ของ JSON mode อาจ handle ต่างกัน, function calling syntax อาจมี quirks ที่ต้องปรับ ดังนั้นก่อน switch ในเวลา 10 นาที ควร test กับ workload จริงอย่างน้อย 1-2 วันก่อน
ต้นทุนจริงสำหรับ dev ไทย — คำนวณให้ดู
เรามาคำนวณต้นทุนจริงกัน เพราะตัวเลข "$0.25/1M tokens" อาจจะนึกภาพไม่ออก:
Scenario 1: Chatbot สำหรับ SME ไทย — 1,000 users/day แต่ละคนคุยเฉลี่ย 5 รอบ แต่ละรอบใช้ ~500 tokens input + ~200 tokens output
- Input: 1,000 x 5 x 500 = 2.5M tokens/day → $0.625/day
- Output: 1,000 x 5 x 200 = 1M tokens/day → $0.75/day
- รวม: ~$1.375/day = ~41.25 บาท/day หรือ ~1,250 บาท/เดือน
เทียบกับ GPT-4o ที่ราคา input $2.50/1M ค่าใช้จ่ายจะอยู่ที่ราว 12,000 บาท/เดือน — แพงกว่า 10 เท่า
Scenario 2: Agentic Pipeline สำหรับ Data Processing — process 500 records/day แต่ละ record เรียก LLM 10 ครั้ง ใช้ ~1,000 tokens/call
- Tokens ทั้งหมด: 500 x 10 x 1,000 = 5M tokens/day
- รวม: ~$2.5/day = ~75 บาท/day หรือ ~2,250 บาท/เดือน
สำหรับ startup ไทยที่กำลัง bootstrap อยู่ ค่า API 2,250 บาท/เดือน สำหรับ data pipeline ทั้งระบบ — นี่คือราคาที่ทำให้ AI เข้าถึงได้จริง ไม่ต้อง raise Series A ก่อนถึงจะจ่ายค่า API ไหว
Scenario 3: Internal Knowledge Base — บริษัท 200 คน แต่ละคนถามวันละ 3 ครั้ง RAG pipeline ใช้ ~2,000 tokens/query
- Tokens: 200 x 3 x 2,000 = 1.2M tokens/day
- รวม: ~$0.60/day = ~18 บาท/day หรือ ~540 บาท/เดือน
540 บาท/เดือน สำหรับ AI-powered knowledge base ให้พนักงาน 200 คน — ถูกกว่า subscription ของ Notion AI หรือ Confluence AI หลายเท่า
ต้องบอกว่าตัวเลขเหล่านี้เป็นการ estimate แบบ conservative — ยังไม่รวม overhead อื่นๆ เช่น embedding cost สำหรับ RAG, infrastructure cost สำหรับ vector database, และ engineering time สำหรับ maintenance แต่ถึงรวมทุกอย่างแล้ว ค่าใช้จ่ายรวมก็ยังถูกกว่าการใช้ frontier models อย่างมีนัยสำคัญ
สิ่งที่ทำให้ตัวเลขเหล่านี้น่าสนใจสำหรับตลาดไทยโดยเฉพาะคือ margin ของ tech company ไทยส่วนใหญ่ยังไม่สูงเท่าต่างประเทศ ค่า API ที่ถูกลง 10 เท่าหมายความว่า AI product ที่เมื่อก่อนมีแต่บริษัทใหญ่ที่ทำไหว ตอนนี้ startup 2-3 คนก็เริ่มทำได้ — นี่คือ democratization จริงๆ ไม่ใช่แค่ buzzword
Diffusion LLM กับอนาคต — มันจะใหญ่แค่ไหน?
ทุกคนตื่นเต้นกับ Mercury 2 — แต่ถามจริง diffusion approach จะเป็นอนาคตของ LLM ทั้งหมดหรือแค่ niche สำหรับ speed-critical tasks?
ต้องมี devil's advocate ตรงนี้ — autoregressive models ที่เราใช้กันอยู่ (GPT, Claude, Gemini) ผ่าน battle-test มาหลายปี มี ecosystem ขนาดใหญ่ มี tooling ครบ มี community ที่ช่วยแก้ปัญหาได้ Diffusion LLM ยังอยู่ในช่วงเริ่มต้น ยังมีคำถามอีกมากที่ยังไม่มีคำตอบ:
- Scale ได้แค่ไหน? — Mercury 2 เป็น Haiku class แล้วถ้าจะทำ Diffusion model ระดับ Opus จะต้อง compute เท่าไร? จะยังเร็วกว่า autoregressive อยู่มั้ย?
- Quality ceiling อยู่ตรงไหน? — Diffusion approach ที่ "แก้หลาย tokens พร้อมกัน" อาจมี quality ceiling ที่ต่ำกว่า autoregressive สำหรับ tasks ที่ต้องการ sequential reasoning
- Community adoption จะเป็นยังไง? — ถ้า developer ส่วนใหญ่ยังอยู่กับ OpenAI/Anthropic ecosystem Diffusion LLM อาจเป็นแค่ niche
แต่ถ้ามองจากอีกมุม — ถ้า Inception Labs สามารถ prove ว่า diffusion architecture scale ได้ดี มันจะเปลี่ยนวิธีที่เรา deploy LLM ในทุก latency-sensitive application ไม่ใช่แค่ chatbot แต่รวมถึง real-time translation, live captioning, interactive gaming, และอีกมาก
สำหรับ dev ไทย สิ่งที่ควรทำตอนนี้คือ จับตาดูและทดลอง — อย่า all-in กับ Mercury 2 แต่อย่าเพิกเฉยเหมือนกัน ลองเอาไปทดสอบกับ use case ที่เหมาะสม (low-latency, high-volume, routine tasks) แล้วดูผลลัพธ์จริง
อีกเรื่องที่น่าจับตาดูคือ Mercury 2 เป็นสัญญาณว่า competition ในตลาด LLM กำลังเปลี่ยนทิศ — ไม่ใช่แค่แข่งกันว่าใคร "ฉลาดกว่า" อีกต่อไป แต่เริ่มแข่งกันที่ speed, cost, และ efficiency ด้วย สำหรับ developer ที่ทำ production systems สิ่งนี้เป็นข่าวดี เพราะหมายความว่าเราจะมีตัวเลือกมากขึ้นสำหรับแต่ละ use case แทนที่จะต้อง "one model fits all"
จำที่บอกไว้ตอนต้นว่า agent pipeline ที่เรียก 50 ครั้งต่อ task ใช้เวลา 25 วินาที? ด้วย Mercury 2 เวลาลดเหลือ 5 วินาที แต่ถ้า Inception Labs หรือคู่แข่งสามารถทำ diffusion model ที่เร็วขึ้นอีก 2-3 เท่า — agent pipeline เดียวกันอาจใช้เวลาแค่ 2 วินาที ซึ่งจะเปิดทาง use cases ใหม่ๆ ที่ตอนนี้ยังทำไม่ได้เพราะ latency สูงเกินไป
วิธีเริ่มต้นใช้งาน — จาก zero ถึง production
Mercury 2 ใช้ API format ที่ compatible กับ OpenAI — ดังนั้นถ้าคุณมี code ที่ใช้ OpenAI SDK อยู่แล้ว การเปลี่ยนมาใช้ Mercury 2 ทำได้เร็วมาก แต่ "เปลี่ยนได้เร็ว" กับ "พร้อมสำหรับ production" เป็นคนละเรื่อง — มาดูว่าควรทำอะไรบ้าง:
# เปลี่ยนแค่ base_url กับ api_key
from openai import OpenAI
client = OpenAI(
base_url="https://api.inceptionlabs.ai/v1",
api_key="your-inception-api-key"
)
response = client.chat.completions.create(
model="mercury-coder-small-beta",
messages=[{"role": "user", "content": "สร้าง function สำหรับ validate Thai ID card number"}],
max_tokens=1024
)
สิ่งที่ควรทำก่อน switch:
- Test กับ workload จริง — อย่าเชื่อ benchmark ลอง 100-200 requests จาก production traffic จริงแล้ว compare latency + quality
- ดู output quality — เทียบ output ของ Mercury 2 กับโมเดลเดิมที่ใช้อยู่ สำหรับ use case ของคุณ quality ดีพอมั้ย?
- เตรียม fallback — ถ้า Mercury 2 มีปัญหา (downtime, quality drop) มี logic สำหรับ fallback ไปโมเดลอื่นหรือเปล่า?
- Monitor cost จริง — track token usage จริงในสัปดาห์แรก เทียบกับที่คำนวณไว้
- ทดสอบภาษาไทย — ถ้า use case ของคุณเป็นภาษาไทย อย่าเชื่อ benchmark ภาษาอังกฤษ ต้องทดสอบ Thai text generation quality เป็นการเฉพาะ
อีกเรื่องที่ dev ไทยควรรู้ — ถ้าคุณใช้ framework อย่าง LangChain, LlamaIndex, หรือ CrewAI ที่ support OpenAI API format อยู่แล้ว การ integrate Mercury 2 จะง่ายขึ้นอีก แค่เปลี่ยน model config ไม่ต้องเขียน custom connector
ถ้าอยากลองเปรียบเทียบ Mercury 2 กับโมเดลอื่นๆ โดยไม่ต้อง setup หลาย API — Jigsaw AI Team รวมไว้กว่า 300+ โมเดลในที่เดียว ลองดูได้เลย ทดสอบ latency, cost, และ quality side by side
ลองเปรียบเทียบ Mercury 2 กับโมเดลอื่นๆ
Jigsaw AI Team รวม 300+ โมเดลไว้ในที่เดียว — ทดสอบ latency, cost, quality side by side ไม่ต้อง setup หลาย API
เริ่มใช้งาน


