Regression Analysis คืออะไร
ท่านผู้อ่านหลายท่านคงจะเคยได้อ่านคำแปลภาษาไทยของคำนี้ว่า “การวิเคราะห์การถดถอย” ถึงแม้คำแปลนี้จะเป็นที่รับรู้ในภาษาไทยมานานแล้ว แต่โดยส่วนตัวแล้วผมคิดว่าเป็นคำแปลที่ทำให้ผู้อ่านรู้สึกหดหู่พิกล แต่ผู้เขียนก็ไม่ได้บอกว่าคำที่ใช้ในปัจจุบันไม่ถูกต้อง และที่ถูกต้องควรจะใช้คำว่าอะไร เพียงแต่อยากให้ท่านผู้อ่านลองอ่านเนื้อหาเบื้องต้นดูก่อน แล้วจะทราบว่า คำว่า Regess นั้นที่ถูกแล้วภาษาไทยเราควรจะใช้คำว่า “ ถดถอย” หรือไม่
ท่านผู้อ่านเคยมีคำถามในใจคล้ายๆกับคำถามต่อไปนี้บ้างหรือไม่
1. เปิดเครื่องปรับอากาศ วันละ 5 ชั่วโมง เดือนนี้จ่ายค่าไฟ 560 บาท ถ้าอยากจ่ายเดือนละ 450 บาท หรือน้อยกว่าควรจะเปิดวันละกี่ชั่วโมง (อุปกรณ์อย่างอื่นใช้เหมือนปกติ)
2. ถ้าขับรถด้วยความเร็วเฉลี่ย 90 กิโลเมตรต่อชั่วโมง เติมน้ำมันเต็มถังจะวิ่งรถได้รวม 560 กิโลเมตร ถ้าขับที่ความเร็วเฉลี่ย 110 กิโลเมตรต่อชั่วโมง จะวิ่งได้กี่ กิโลเมตร แล้วถ้าเป็น 130 กิโลเมตรต่อชั่วโมง จะได้กี่กิโลเมตร ถ้าเติมน้ำมันเต็มถังเหมือนกัน
3. ถ้าตั้งอุณหภูมิหม้อต้มน้ำที่ 100 องศาเซลเซียส จะสามารถฆ่าเชื้อแบคทีเรียได้ ร้อยละ 85 ภายใน 1 นาที อยากทราบว่าถ้าต้องการให้ฆ่าได้ ร้อยละ 90 ในเวลาเท่าเดิม จะต้องใช้อุณหภูมิเท่าใด และถ้าต้องการให้ฆ่าได้ หมด ร้อยละร้อย จะต้องใช้อุณหภูมิ เท่าใด
โจทย์ตัวอย่างทั้งสามข้อนั้น กำลังชี้ให้ท่านเห็นถึงความสัมพันธ์ ของตัวแปรสองตัว หากให้ท่านเลือกว่าจะใช้เครื่องมือทางคณิตศาสตร์อะไรในการแก้ปัญหาโจทย์ลักษณะนี้ ผมเชื่อว่าหลายท่านคงกำลังนึกถึง บัญญัติไตรยางศ์ ที่เราเคยเรียนมาตั้งแต่สมัยชั้นประถม ซึ่งผมกำลังจะบอกว่าท่านนึกถึงเฉยๆนะได้ แต่มาใช้กับโจทย์ในลักษณะนี้ไม่ได้นะครับ ผมมีเหตุผลที่จะบอกท่านอย่างนี้ครับ
1. บัญญัติไตรยางศ์ จะใช้ได้ก็ต่อเมื่อตัวแปรทั้งสอง เป็นตัวแปรที่ค่า ไม่มีความคลาดเคลื่อน เช่น ขนมกล่องนี้ราคา 10 บาท ถ้าซื้อ 10 กล่อง ต้องจ่าย 100 บาท ตัวแปรที่ว่าคือ ราคาต่อกล่องก็คงที่ คือ 10 บาท ตัวแปรอีกตัวคือจำนวนที่จะซื้อ คือ 10 กล่อง ก็ไม่มีความคลาดเคลื่อนเลย
2. โจทย์หรือคำถามสามข้อที่ผมกล่าวถึง ที่ผ่านมานั้น ท่านลองสังเกตดีๆ จะเห็นว่า ถึงจะเป็นโจทย์ที่กล่าวถึงความสัมพันธ์กันของสองตัวแปร แต่จะมีเพียงหนึ่งตัวแปรเท่านั้นที่จะไม่มีความคลาดเคลื่อนเลย แต่อีกตัวแปรที่เหลือนั้น โดยธรรมชาติของมันจะมีค่าคลาดเคลื่อนตลอดเวลา ไม่มากก็น้อย เช่น ตั้งอุณหภูมิ 100 องศา แล้วฆ่าเชื้อแบคทีเรียได้ ร้อยละ 85 ถ้าทำการทดลองอีกที ภายใต้สถานการณ์เหมือนเดิมแท้ๆ อาจจะฆ่าได้ถึงร้อยละ 87 ทำซ้ำอีกรอบเหมือนเดิม อาจจะฆ่าได้เพียงร้อยละ 83 ไม่ใช่ทดลองไม่ดี แต่นี่เป็นความคลาดเคลื่อนที่เป็นธรรมชาติ เป็นเหตุสุดวิสัยที่จะไปควบคุมให้ได้ค่าเดิมทุกครั้งได้ (ถ้าใครทำได้แปลว่าท่านต้องทำอะไรสักอย่างไม่ดีแน่ๆ)
ด้วยเหตุผล 2 ข้อดังกล่าว การวิเคราะห์ถึงความสัมพันธ์ของตัวแปรสองฝั่งจึงต้องใช้เทคนิคทางคณิตศาสตร์ที่พิเศษกว่าบัญญัติไตรยางศ์ ซึ่งก็คือ “ Regression Analysis “ และแทนที่เราจะเรียกว่าการวิเคราะห์หาความสัมพันธ์ เราก็จะเรียกว่า การประมาณการ (Prediction) แทน เมื่อเป็นเช่นนี้ ตัวแปรฝั่งที่ไม่มีค่าคลาดเคลื่อน เราจะเรียกว่าตัวประมาณการ (Predictor) โดยใช้ สัญลักษณ์แทนคือ X ตัวแปรที่มีความคลาดเคลื่อน เราก็จะเรียกว่า ตัวตอบสนอง (Response) สัญลักษณ์แทนคือ Y โดยที่
Y = F(X)
ผลการวิเคราะห์ที่ได้ เราจะได้สมการหรือฟังก์ชันคณิตศาสตร์ที่แสดงถึงความสัมพันธ์กันของทั้งสองตัวแปร เช่น
% Bacteria killed (Y) = 67.45 + 0.214* Temperature(X)
ความสัมพันธ์ที่เขียนแทนด้วยฟังก์ชันคณิตศาสตร์ดังกล่าวเราจะเรียกว่า Model หรือ Mathematical Model และฟังก์ชันคณิตศาสตร์ที่ได้ จะสามารถนำไปประมาณการ ตัวแปรฝั่งที่มีค่าคลาดเคลื่อนได้ โดยใช้ค่าของตัวแปรฝั่งที่มีค่าไม่คลาดเคลื่อน แปลว่าเมื่อเรารู้ค่าตัวแปรที่ค่าไม่คลาดเคลื่อน และรู้ฟังก์ชั่นคณิตศาสตร์แสดงความสัมพันธ์ แล้วเราก็สามารถรู้ค่าตัวแปรฝั่งที่มีค่าคลาดเคลื่อนได้ Mathematical Model ดังกล่าวจึงเรียกว่า Transfer function ในที่สุด มาถึงตรงนี้ท่านผู้อ่านอย่าสับสนนะครับ โปรดจำไว้ว่า ไม่จำเป็นที่ Mathematical Model ทุกอันต้องเป็น Transfer function เฉพาะที่เกี่ยวข้องกับสองตัวแปรหรือมากกว่าขึ้นไปที่สามารถอธิบายความสัมพันธ์ในลักษณะใช้ฝั่งหนึ่งประมาณการ อีกฝั่งหนึ่งได้เท่านั้นจึงจะเรียกว่า Transfer function
ในการศึกษา ถึงความสัมพันธ์ของตัวแปรสองฝั่งโดยใช้ Regression analysis นั้นสามารถที่จะใช้ได้กับหลายลักษณะความสัมพันธ์ และปริมาณตัวแปร เช่น
1. Simple linear regression analysis : ชื่อก็บ่งบอกว่าใช้ได้เมื่อใด ก็คือจะใช้เมื่อเราต้องการวิเคราะห์ความสัมพันธ์ระหว่าง สองตัวแปร และความสัมพันธ์ระหว่างสองตัวแปรดังกล่าวจะต้องเป็นในลักษณะเชิงเส้น ดังตัวอย่างง่ายๆ
% Bacteria killed (Y) = 67.45 + 0.214* Temperature(X)
2. Multiple linear regression analysis : จะใช้เมื่อเราต้องการวิเคราะห์ความสัมพันธ์ เมื่อมีตัวแปรที่เป็น Predictor มากกว่า 1 ตัวขึ้นไป แต่ความสัมพันธ์ของตัวแปรทั้งสองฝั่ง ยังคงเป็นแบบเชิงเส้นตรง ยกตัวอย่าง ในกรณีคำถามที่ 3 ที่ผ่านมานั้น นอกจากอุณหภูมิจะมีผลต่อจำนวนเชื้อแบคทีเรียที่ถูกฆ่าแล้ว เวลาที่แช่ภาชนะเพาะเชื้อแบคทีเรียในน้ำรอน ก็เป็นตัวแปร ที่มีผลด้วยเช่นกัน เพราะถ้าอุณหภูมิเท่าเดิม การใช้เวลา 1 นาที กับ 2 นาทีสามารถฆ่าเชื้อแบคที่เรียได้จำนวนแตกต่างกัน ด้วย สมมติว่าความสัมพันธ์เป็นเชิงเสิ้นตรง ตัวอย่าง Mathemical model จะเป็นดังนี้
% Bacteria killed (Y ) = 36.415 + 0.412* Temperature(X1 ) + 4.85*Time( X2 )
3. Polynomial regression analysis : จะใช้เมื่อเราต้องการวิเคราะห์ถึงความสัมพันธ์ที่ไม่เป็นเชิงเส้นตรง รวมถึงกรณีมีตัวแปร Predictor มากกว่า 1 ด้วย ยกตัวอย่างเช่น ถ้ากรณีเปิดเครื่องปรับอากาศนั้น นอกจากจำนวนชั่วโมงที่เปิดจะมีผลต่อจำนวนหน่วยไฟฟ้าที่ใช้แล้ว อุณหภูมินอกห้อง ก็ส่งผลด้วยเหมือนกันและไม่เป็นเส้นตรงด้วย การวิเคราะห์ก็จะยิ่งซับซ้อน และยุ่งยากมากขึ้นไปอีก Mathemical Model จะเป็นดังตัวอย่างต่อไปนี้
Power consumtion (Unit) = 1.542 + 0.859 * Time + 0.587*( External Temperature )2
ในเมื่อลักษณะความสัมพันธ์ของตัวแปร มีทั้งแบบเชิงเส้นและแบบไม่เชิงเส้น (Polynomial) หลายท่านอาจจะสงสัยว่า เราจะรู้ได้อย่างไรว่าความสัมพันธ์ของตัวแปรเป็นเชิงเส้นหรือ ไม่เป็นเชิงเส้น คำตอบคือท่านจะต้องใช้การทำ Scatter plot เข้าช่วยอย่างหลีกเลี่ยงไม่ได้ ดังนั้นการวิเคราะห์ความสัมพันธ์โดยใช้ Regression analysis ท่านจำเป็นต้องทำกราฟแสดงจุดตัดของตัวแปรทั้งสองฝั่งให้ได้ และ Scatter plot คือเทคนิคที่ช่วยท่านได้ดีทีเดียว
4. Logistic regression analysis กรณีที่ Y มีค่าเพียงสองสถานะ เช่น No ,Yes เป็นต้น แต่ X เป็นค่าแบบต่อเนื่องปกติ