หลักการพื้นฐานของ Simple Linear Regression Analysis

Pera Kajonpotisuwan
4 min readJul 13, 2021

credit goes to

https://sites.google.com/site/mystatistics01/regression-correlation-analysis?fbclid=IwAR2VfpUF5LuWGS5mW76nPkDidfZyrQFdxKlG2kMbHlZPIFJnZdxvv_Xi508

ชื่อก็บอกอยู่แล้วว่าง่ายและไม่ซับซ้อนที่สุดในส่วนของ Regression analysis โดยแท้จริงแล้วก็คือ Regression ที่มี ตัวแปรที่เรารู้ค่า (Predictor) และตัวแปรที่เราไม่รู้ค่า (Response) อย่างละ 1 ตัวเท่านั้น ผู้เขียนขอเริ่มเข้าสู่เนื้อหาโดยการเริ่มวิเคราะห์ตัวอย่างให้เห็นภาพ และพื้นฐาน ที่ไปที่มา ของ Regression ก่อน ผู้เขียนเชื่อว่าตำราหลายๆตำราเกี่ยวกับเรื่อง Regression นี้ จะเริ่มด้วยการหาสมการ ซึ่งผู้เขียนเห็นว่า ข้อเสียของวิธีนี้คือผู้อ่านจะไม่เข้าใจว่าทำไมถึงได้สมการแบบนั้น มันมีขั้นตอนหรือหลักการคิดมาได้อย่างไร

ก่อนอื่นเราต้องทำความเข้าใจก่อนว่า จุดประสงค์ของการใช้ Regression Analysis ก็เพื่อต้องการหาสมการความสัมพันธ์ ( Transfer function ) ของตัวแปรฝั่งที่เรารู้ค่า ( Predictor ) กับฝั่งที่เราไม่รู้ค่า (Response) เพื่อที่จะนำไปสู่การคาดการณ์หรือประมาณค่า ของตัวแปรที่เราไม่รู้ค่าได้ในที่สุด และที่สำคัญการจะนำสมการความสัมพันธ์ไปใช้ได้ จะต้องมีการตรวจสอบเสียก่อนว่าสมการที่ได้มานั้นมีความถูกต้อง พอที่จะใช้เป็นสมการในการคาดการตัวแปรที่ไม่รู้ค่าได้จริงหรือไม่

ตัวอย่าง ในการศึกษาเรื่องความสามารถทนแรงดึงของกาว Epoxy ที่จะใช้ในการยึดชิ้นงาน 2 ชิ้นเข้าด้วยกัน โดยขั้นตอนคือ เมื่อหยอดส่วนผสมกาวลงบนชิ้นงาน A แล้วนำชิ้นงาน B มาติดเข้า แล้วต้องเอาเข้าอบด้วยความร้อน เพื่อให้กาวแห้งและชิ้นงาน A และ B ติดกันตามต้องการ ผู้ศึกษาต้อการทราบความสัมพันธ์ระหว่าง อุณหภูมิที่ใช้ในการอบกับความสามารถในการทนแรงดึงของกาวหลังอบ มีแตกต่างกันอย่างไร โดยได้ทำการทดลอง 3 ตัวอย่างต่อการทดลอง 1 รอบ และแต่ละรอบจะตั้งอุณหภูมิไว้คงที่ ที่ค่าที่ต้องการ และแต่ละการทดลองใช้เวลาอบเท่ากันคือ 15 นาที และหลังจากเอางานออกจากตู้อบความร้อนแล้วก็นำไปวางที่อุณหภูมิห้องเป็นเวลา 20 นาที แล้วจึงนำไปทำการทดลองวัดค่าความสามารถในการทนแรงดึงของกาวต่อ วิธีที่เขาใช้วัดความสามารถทนแรงดึงของกาว โดยใช้แรงดึงชิ้นงาน A และ B จนแยกออกจากกันได้โดยที่การวัดค่าจะใช้วิธีค่อยๆเพิ่มแรงดึงทีละนิดจนทำให้ชิ้นงาน 2 ชิ้นนั้นแยกออกจากกันแล้วจดค่า แรงดึงสุดท้ายไว้ ผลการทดลองได้ค่าตามตารางนี้

เมื่อนำข้อมูลตามตารางมาทำ Scatter plot จะเป็นดังนี้

จากกราฟ จะเห็นว่าค่าของตัวแปร Y (ตัวอย่างนี้คือ Force ) ที่ค่า X ค่าเดิมนั้น จะมีค่าไม่เท่ากัน สมมติว่า แต่ละค่า X ผู้ทดลองเก็บค่า Y จำนวนมากๆ ผลที่ได้คือค่า Y ที่ X นั้นๆ ก็จะมีรูปแบบเป็น Normal distribution รอบค่ากลางค่าหนึ่ง(ค่าเฉลี่ย) และถ้าเราลากเส้นตรงเชื่อมกันระหว่างค่าเฉลี่ย ทุกจุดเข้าด้วยกันเราจะได้เส้นตรงเส้นหนึ่งที่เรียกว่า “ Regression line” ตามรูปที่ 2

ถ้าเราลากเส้นเชื่อมต่อมาจนตัดแกน Y จะตัดที่ค่า Y= 0.1 ค่านี้เราจะเรียกว่า Y-Intercept เขียนสัญลักษณ์แทนว่า b0 ความหมายคือตัวเลขบ่งบอกว่าถ้าตัวแปรฝั่ง X เป็น 0 จะมีค่าตัวแปรฝั่ง Y เท่าใด

เมื่อเรานำแว่นขยายมาขยายจุดเหล่านี้เพื่อให้เห็นภาพใหญ่ขึ้นจะได้ดังรูปที่ 4 นี้

เมื่อเรากำหนดให้เส้นความสัมพันธ์ระหว่างตัวแปรฝั่ง X และ Y เป็นเส้นตรง (Linear relation) เราก็สามารถหาค่าความชันของ Regression line ได้จากความสัมพันธ์

ค่าความชันของ Regression line นี้เราจะแทนด้วยสัญลักษณ์ b1 นั้น ความหมายคือตัวเลขบ่งบอกค่าอัตราการเปลี่ยนค่าของตัวแปรฝั่ง Y ต่อการเปลี่ยนค่าของตัวแปรฝั่ง X ไป 1 หน่วยนั่นเอง ดังนั้นเราจึงสามารถหาสมการของ Regression line ได้จาก

ซึ่งเป็นสมการของความสัมพันธ์แบบเชิงเส้น(เส้นตรง) หมายความว่า ณ ทุกจุดบนเส้นตรง ( Regression line ) นั้น ค่าในแนว แกน Y จะเท่ากับ

เมื่อเราได้สมการแล้ว เราก็สามารถนำสมการนี้ไปใช้เพื่อ Predict ค่า Y เมื่อเรารู้ค่า X โดยเราจะลองใช้วิธีใช้เส้นตรง ดังต่อไปนี้

นำค่าจากรูปที่ 5 ไปเขียนตาราง

จะเห็นว่าค่าที่อยู่ในตารางนี้เป็นค่าที่ไม่ได้เกิดจากการทดลองจริงๆ แต่เป็นการเอาเส้นตรงที่ได้มาเป็นตัวช่วยในการคาดการณ์ (Prediction) เมื่อเป็นเช่นนี้ท่านผู้อ่านก็คงนึกถึงสมัยที่เราเรียนเรื่อง เส้นตรง และความชัน ในวิชาคณิตศาสตร์ชั้นมัธยมต้น ผู้เขียนจำได้ว่า เราใช้สมการ เส้นตรง และการหาค่าความชัน ว่า

แต่อย่างที่ผู้เขียนได้เริ่มต้นเนื้อหาว่าค่าของตัวแปรในแนวแกน Y นั้นจะเป็นค่าที่มีการกระจายหรือมีความผิดพลาดโดยธรรมชาติ ดังนั้น Regression line คือเส้นที่ลากผ่านจุดๆหนึ่งของกลุ่มค่าแนวแกน Y โดยมีเงื่อนไขว่า ค่า Y ทั้งหมดจะห่างจากเส้นตรงนี้อย่างสมดุลกันมากที่สุด ไม่ใช่ค่า Y ทุกค่าอยู่บนเส้นนี้ นั่นแปลว่ายังต้องมีสิ่งหนึ่งที่ต้องคิดถึงคือค่าความห่าง ของค่า Y ใดๆ กับจุดบนเส้น Regression line ในแนวขนานกับเส้นแกน Y ค่าความห่างนี้เราเรียกว่า Error ใช้สัญลักษณ์แทนคือ e จากรูปที่ 5 ท่านจะเห็นว่า ค่า Y ใดๆ (เป็นจุด) แทบจะไม่มีค่าไหนอยู่บนเส้น Regression line เลย

ดังนั้นสมการนี้เมื่อนำไปใช้ก็จะได้ค่าความผิดพลาดมาด้วย ดังจะเห็นได้จากค่าที่ได้ในตาราง Predicting จะเห็นว่า ที่อุณหภูมิ 95 ยังได้ค่าเท่ากับที่ 90 องศา จุดหนึ่งด้วยซ้ำไป ดังนั้นสมการ เมื่อจะนำไป Predict ค่าจะต้องเป็น

ซึ่ง e มีค่าเฉลี่ยเท่ากับ 0 และมีค่า Variation เท่ากับ s2 และเป็นสมการที่เกิดจากการวิเคราะห์ Yi และ Xi เพียงจุดใดๆ เท่านั้น

แต่การหาค่า b0 และ b1 ตามวิธีที่ผ่านมานั้นเป็นการใช้กราฟ อาจจะทำให้เราได้ค่าที่ผิดพลาดไปบ้างอันเนื่องจากการเทียบค่าจาก Regression line มายังแกน X และ Y อาจมีความคลาดเคลื่อนไป ในทางปฏิบัติเราจึงไม่นิยมนำมาใช้ในการประมาณค่า โดยจะนิยมใช้วิธีการที่เรียกว่า “ Method of least square” มากกว่า วิธีที่ว่านี้เป็นการรวมวิเคราะห์ จุด Xi และ Yi ทุกๆจุดเพื่อหาค่า ซึ่งมีวิธีดังนี้

  1. นำค่าจากผลการทดลองมาสร้างตารางใหม่ดังต่อไปนี้

ที่เราต้องทำเพิ่มขึ้นคือ หาค่า x2 , xy และ y2 ในตาราง

2. หาค่าเฉลี่ยของค่าที่วัดได้ทั้งหมดทุกค่า จากตัวอย่างนี้ก็คือการนำค่า Y ทั้งหมดในตารางมาหาค่าเฉลี่ย ซึ่งเราจะได้ค่า Y (33.5/12=2.79) ซึ่งตัดกับเส้น Regression line ที่ค่าเฉลี่ยของ X (1020/12=85) นั่นเอง

นั่นคือ ถ้าเราไม่ใช้ X ในการคาดการค่า Y แล้ว ค่าโดยเฉลี่ย

จะเป็นค่าที่ใช้คาดการณ์ Y ได้ดีที่สุด

3. วิเคราะห์ แต่ละจุด โดยเทียบกับค่า

และ

เพื่อให้เห็นภาพและเข้าใจง่ายขึ้น ผู้เขียนจะวิเคราะห์ค่า Yi เพียง 1 จุดให้เห็นเป็นตัวอย่างดังนี้

จากข้อ 2 และ 3 นั้นชี้ให้เห็นว่า ในแนวแกน Y เราจะมองค่า Yi ของทุกตัวเป็นค่าเฉลี่ย

เพียง 1 ค่า และในแนวแกน X เราจะมองค่า Yi ของทุกตัวเพียง 1 ค่าอยู่บนเส้น Regression line

เท่านั้น การมองค่า Yi ใน 2 แกนเช่นนี้ ภาษาอังกฤษ เขาเรียกว่า “ Regress “ ถ้าความหมายเป็นไทยก็น่าจะตรงกับความหมายว่า “ การมองค่า Yi ทุกค่าย้อนกับไปสู่จุดรวมใน 2 แนว “ และนี่เป็นที่มาของคำว่า Regression ซึ่งการที่เรามองวิธีการคิดแบบนี้เข้าใจแล้ว การที่เราเรียกว่า “ถดถอย” ไม่น่าจะถูกต้อง ในความคิดส่วนตัวของผู้เขียน แต่บังเอิญถ้าเปิด Dictionary ก็คงจะพบคำแปลเป็นไทย อย่างนั้น ก็เลยเรียกกันอย่างนั้น

จากตาราง จะได้

หมายเหตุ ค่าที่ได้อาจแตกต่างจากวิธีคำนวณโดยวิธีอื่นๆเล็กน้อย เนื่องจากการปัดเศษ หรือทศนิยม

สมการที่ได้นี้คือ Regression หรือคือค่าในแนวแกน Y ทุกจุด บนเส้น Regression line จะมี่ค่าตามสมการที่ได้นี้ เมื่อเรารู้ค่า x เราก็สามารถรู้ค่า Response หรือค่าในแนวแกน Y ได้โดยการลากเส้นตั้งฉากกับ แกน Y จากจุดบนแกน X มาตัดกับ Regression line เราก็จะทราบได้ทันที

--

--

Pera Kajonpotisuwan

Thai people, having a master degree from Canada University