R glm ทำนาย ไบนารี ตัวเลือก
เมื่อคุณมีความน่าจะเป็นที่คาดหมายขึ้นอยู่กับว่าคุณต้องการใช้เกณฑ์ใดคุณสามารถเลือกเกณฑ์เพื่อเพิ่มความไวเฉพาะหรือวัดได้อย่างสำคัญที่สุดในบริบทของแอพพลิเคชันข้อมูลเพิ่มเติมบางอย่างจะเป็นประโยชน์ต่อที่นี่ คำตอบที่เฉพาะเจาะจงมากขึ้นคุณอาจต้องการดูเส้นโค้ง ROC และมาตรการอื่น ๆ ที่เกี่ยวข้องกับการจำแนกประเภทที่ดีที่สุดแก้ไขเพื่อให้คำตอบนี้ค่อนข้างฉันจะให้ตัวอย่างคำตอบที่แท้จริงคือการตัดที่ดีที่สุดขึ้นอยู่กับคุณสมบัติของตัวจำแนกเป็นสำคัญ บริบทของแอ็พพลิเคชันให้ Y เป็นค่าที่แท้จริงสำหรับการสังเกต i และหมวกเป็นระดับที่คาดการณ์ได้ 1 ความไว P หมวก i 1 Yi 1 - สัดส่วนของ 1 s ที่ถูกระบุอย่างถูกต้องเป็นเช่นนั้น 2 Specificity P i i 0 Yi 0 - สัดส่วนของ 0 s ที่ถูกระบุอย่างถูกต้องเป็นเช่นนั้น 3 อัตราการจำแนกประเภทที่ถูกต้อง P Yi hat i - สัดส่วนของการคาดการณ์ที่ถูกต้องตัวอย่างเช่นถ้าผู้จำแนกประเภทของคุณมุ่งมั่นที่จะประเมินการทดสอบวินิจฉัยโรคร้ายแรงที่มีการรักษาที่ปลอดภัยค่อนข้างมากความไวเป็นสิ่งที่สำคัญยิ่งกว่ามากที่เฉพาะเจาะจง ในกรณีอื่นถ้าโรคค่อนข้างน้อยและการรักษามีความเสี่ยงความเฉพาะเจาะจงจะมีความสำคัญมากขึ้นในการควบคุมสำหรับปัญหาการจำแนกประเภททั่วไปถือเป็นเรื่องที่ดีในการเพิ่มความไวและข้อกำหนดร่วมกันเช่นคุณอาจใช้ตัวจำแนกประเภทที่ลดลง ระยะทางยุคลิดของพวกเขาจากจุดที่ 1,1 เดลต้าอาจมีการถ่วงน้ำหนักหรือปรับเปลี่ยนในรูปแบบอื่นเพื่อสะท้อนถึงการวัดระยะทางที่เหมาะสมกว่าจาก 1,1 ในบริบทของแอพพลิเคชันระยะทาง euclidean จาก 1,1 ถูกเลือกโดยพลการเพื่อวัตถุประสงค์ในการอธิบายไม่ว่าในกรณีใด อาจเป็นวิธีที่เหมาะสมที่สุดทั้งนี้ขึ้นอยู่กับแอพพลิเคชันด้านล่างเป็นตัวอย่างจำลองโดยใช้การคาดการณ์จากแบบจำลองการถดถอยโลจิสติกเพื่อจำแนกประเภทการตัดเฉือนจะแตกต่างกันไปเพื่อดูว่าการตัดใดให้ตัวจำแนกที่ดีที่สุดภายใต้มาตรการทั้งสามนี้ในตัวอย่างนี้ข้อมูลมาจาก แบบจำลองการถดถอยโลจิสติกที่มีตัวทำนายสามตัวดูรหัส R ด้านล่างพล็อตที่คุณสามารถดูได้จากตัวอย่างนี้การตัดค่าที่ดีที่สุดขึ้นอยู่กับมาตรการเหล่านี้เป็นสิ่งที่สำคัญที่สุด - ทั้งหมดนี้ขึ้นอยู่กับการใช้งานทั้งหมดแก้ไข 2 P Yi 1 หมวก i 1 และ P Yi 0 หมวก i0, อัตราบวกจริงและลบความจริงทราบเหล่านี้ไม่ได้เช่นเดียวกับความไวและความจำเพาะอาจเป็นมาตรการที่มีประโยชน์ของประสิทธิภาพตัวอย่างเช่นถ้าคุณกำลังพยายามที่จะออกแบบ การวินิจฉัยเมื่อมีการแพร่ระบาดของโรคในอนาคตอัตราการเป็นบวกที่แท้จริงสูงจะเป็นที่ต้องการมากเนื่องจากนั่นหมายความว่าถ้ามีการแพร่ระบาดเกิดขึ้นคุณจะมีแนวโน้มที่จะคาดการณ์ว่าจะเกิดขึ้นและคุณสามารถใช้ การแทรกแซงบางรหัสอาจมีการปรับเปลี่ยนเพื่อคำนวณเหล่านี้แทน - ฉันจะปล่อยให้คุณ Generalized Linear Models ใน R, Part 3 Plotting Predicted Probabilities. by David Lillis, Ph D. ในบทความล่าสุดของเราเราได้เรียนรู้เกี่ยวกับแบบจำลองพอดีในทั่วไป โมเดลเชิงเส้นเกี่ยวกับข้อมูลไบนารีโดยใช้คำสั่ง glm เรายังคงใช้ GLM เดียวกันกับชุดข้อมูล mtcars ที่ถดถอยตัวแปร vs เกี่ยวกับน้ำหนักและการเคลื่อนที่ของเครื่องยนต์ขณะนี้เราต้องการที่จะพล็อตแบบจำลองของเราพร้อมกับข้อมูลที่สังเกตได้แม้ว่าเราจะใช้แบบจำลอง มีตัวทำนายหลายตัวสามารถช่วยในการแปลความหมายเพื่อทำนายความน่าจะเป็นที่คาดการณ์ได้ว่า vs 1 กับตัวทำนายแต่ละตัวแยกกันดังนั้นก่อนอื่นเราจึงควรพอดีกับ glm สำหรับตัวทำนายของเราอย่างเดียว wt. To ในการออกแบบพล็อตของเราเราต้องการช่วงของค่าน้ำหนัก สำหรับการผลิตค่าติดตั้งช่วงของค่าที่เราสามารถสร้างจากช่วงที่แท้จริงของค่าของ wt. A ช่วงของค่าน้ำหนักระหว่าง 0 และ 6 จะเหมาะดังนั้นเราจะสร้างลำดับของค่าระหว่าง 0 และ 6 ในการเพิ่มขึ้นของ 0 01 การเข้าร่วมดังกล่าวเป็นจำนวนมากของจุดที่ห่างกันอย่างใกล้ชิดจะให้รูปลักษณ์ที่ราบรื่นกับรูปแบบของเราตอนนี้เราใช้ฟังก์ชั่นทำนายเพื่อสร้างรูปแบบสำหรับค่าทั้งหมดของ xweight. We สามารถทำเช่นเดียวกันสำหรับการแทนที่เราสามารถมองเห็นได้ว่าสำหรับทั้งสอง predictors มีความสัมพันธเชิงลบระหวางความนาจะเปน vs 1 และตัวแปร predictor เนื่องจากการทํานายเพิ่มขึ้นความนาจะเปนลดลงสิ่งที่ไมไดยากในบทความตอไปเราจะดูที่แอพพลิเคชั่นอื่น ๆ ของ glm function. About the Author David Lillis ได้สอน R ให้กับนักวิจัยและนักสถิติหลายคน บริษัท Sigma Statistics and Research Limited ให้บริการการสอนออนไลน์และการประชุมเชิงปฏิบัติการแบบตัวต่อตัวบน R และบริการการเขียนโค้ดใน R David มีปริญญาเอกด้านสถิติประยุกต์ ics เรียนรู้เกี่ยวกับ GLM ในรอบหกชั่วโมงนี้คุณจะได้เรียนรู้วิธีการใช้ glm เพื่อระบุโลจิสติกส์ความยาวของตัวแปรแตกต่างกันและเมื่อฉันมองในการถดถอยของฉันฉันระดมทุนที่ 4366 สังเกตลบเนื่องจาก missingnes และฉันมี 5156 ดังนั้นฉันสามารถเพิ่มค่าติดตั้งเพื่อ mydata cordially. Cofficients ในพหุนาม glm กับครอบครัวแบบทวินามและพอดีกับเส้นโค้งกระจาย plot. I ได้ใช้ glm กับข้อผิดพลาด quasibinomial เพื่อดูผลของการผลิตและความหนาแน่นเริ่มต้นในสัดส่วน การเจริญเติบโตของแมลงการผลิตไม่ได้มีผลใด ๆ และฉันไปถึงรูปแบบสุดท้ายต่อไปนี้ Model5 glm y. NF NF2 quasibinomial ฉันต้องการใช้แบบจำลองนี้เพื่อให้พอดีกับเส้นโค้งเพื่อกระจายของฉันเพื่อแสดงผลกำลังสองของความหนาแน่นเริ่มต้นในสัดส่วน emigrating สิ่งที่ฉันอ่านคือการใช้ค่าสัมประสิทธิ์จากตารางสรุปของแบบจำลองนี้เพื่อให้ค่าสัมประสิทธิ์ของเส้นค่าประมาณค่าความผิดพลาด Std t t Pr แทรก 1 47047 0 89089 1 651 0 1104 NF -0 87076 0 41867 -2 080 0 047 2 NF2 0 06405 0 03056 2 096 0 0456. ฉันดูตัวอย่างที่คุณระบุไว้ในหน้าเว็บของคุณและฉันสงสัยว่าคุณจะสามารถพล็อตเส้นโค้งในพล็อตกระจายเมื่อคุณมีผลสมการกำลังสองของตัวแปรเดียวกันในกรณีของฉัน NF2 เมื่อฉันพยายามที่จะ ทำตามสิ่งที่คุณได้สำหรับตัวอย่างของคุณฉันได้รับข้อผิดพลาดต่อไปนี้ xy - คาดการณ์ model5, รายการ NF x, type response ข้อผิดพลาดใน newdata, xlev วัตถุ xlevels ความยาวตัวแปรต่างกันที่พบสำหรับ NF2 เมื่อฉันใช้สัมประสิทธิ์และทำให้สมการนี้ ProEmig 1 470466 - 0 870759NF 0 064054NF2 มันไม่พอดีกับข้อมูลของฉันอย่างถูกต้อง nF - seq 0, 12, โดย 0 1 บรรทัด NF, 1 470466- 0 870759NF 0 064054NF 2 พล็อต NF, ProEmig, แบบพหุนามหลัก, xlab NF, ylab ProEmig. ฉันอ่านบางอย่างเกี่ยวกับการเปลี่ยนค่าสัมประสิทธิ์ แต่ฉันไม่แน่ใจว่าเหตุผลที่ฉันไม่ได้รับสายที่ถูกต้องเป็นเพราะฉันต้องการการเปลี่ยนแปลงและถ้าใช่ฉันจะทำอย่างไรที่ฉันสับสนจริงๆที่จะทำให้เส้นและฉัน ขอขอบคุณสำหรับความช่วยเหลือและข้อเสนอแนะขอบคุณค่ะขอบคุณสำหรับความช่วยเหลือที่ฉันต้องการ การแก้ปัญหาถ้าฉันต้องการพิจารณาสอง variabiles ในรูปแบบของฉันฉันจะทำให้พล็อตที่ฉันมีความสุข dipendent ทำนายรายได้เพื่อน ๆ สามารถมองเห็นได้แต่ละตัวเลือกแรกห้ามีฟังก์ชันความแปรปรวนที่เกี่ยวข้องสำหรับ binomial ความแปรปรวนแบบทวินาม m 1- m และหนึ่งหรือหลายตัวเลือกของฟังก์ชันการเชื่อมโยงสำหรับทวินาม logit, probit หรือ complementaryloglog ตราบเท่าที่คุณต้องการลิงค์เริ่มต้นทั้งหมดที่คุณต้องระบุเป็นชื่อครอบครัวถ้าคุณต้องการลิงค์อื่นคุณต้องเพิ่ม อาร์กิวเมนต์การเชื่อมโยงตัวอย่างเช่นในการทำ probits คุณใช้ครอบครัวสุดท้ายในรายการเสมือนมีอยู่เพื่อให้เหมาะสมกับรูปแบบที่ผู้ใช้กำหนดโดยความเป็นไปได้สูงสุดเสมือนจริง 5 2 การถดถอยโลจิสติกเราจะแสดงรูปแบบการถดถอยโลจิสติกที่เหมาะสมโดยใช้การคุมกำเนิด ข้อมูลที่แสดงด้านล่างมีข้อมูลจากส่วนชุดข้อมูลของเว็บไซต์สำหรับหลักสูตรโมเดลเชิงเส้นทั่วไปของฉันเยี่ยมชมเพื่ออ่านคำอธิบายสั้น ๆ และทำตามลิงก์ไปที่แน่นอนว่าข้อมูลสามารถดาวน์โหลดได้โดยตรงจาก RI ที่ระบุ header เป็น TRUE เพราะมิฉะนั้นก็จะไม่ได้รับชัดเจนว่าบรรทัดแรกในไฟล์มีชื่อตัวแปรไม่มีชื่อแถวระบุดังนั้นแถวจะมีหมายเลขจาก 1 ถึง 16 พิมพ์ cuse เพื่อให้แน่ใจว่าคุณมีข้อมูลใน ดีแล้วจากนั้นให้เป็นชุดค่าเริ่มต้นของคุณให้เราลองใช้โมเดล additive แบบง่ายๆซึ่งการคุมกำเนิดขึ้นอยู่กับอายุการศึกษาและต้องการ More. There มีบางสิ่งที่จะอธิบายที่นี่ก่อนฟังก์ชันนี้เรียกว่า glm และฉันได้กำหนดค่าให้กับ วัตถุที่เรียกว่า lrfit สำหรับการถดถอยโลจิสติกพอดีอาร์กิวเมนต์แรกของฟังก์ชันคือสูตรแบบจำลองซึ่งกำหนดคำตอบและตัวทำนายเชิงเส้นด้วยข้อมูลแบบทวินามการตอบสนองสามารถเป็นได้ทั้งเวกเตอร์หรือเมทริกซ์ที่มีสองคอลัมน์ถ้าการตอบสนองเป็นเวกเตอร์ สามารถตัวเลขด้วย 0 สำหรับความล้มเหลวและ 1 สำหรับความสำเร็จหรือปัจจัยที่มีระดับแรกแสดงถึงความล้มเหลวและอื่น ๆ ทั้งหมดที่เป็นตัวแทนของความสำเร็จในกรณีเหล่านี้ R สร้างเวกเตอร์ของคนเพื่อแสดง denominators สองตัว Alt ernatively การตอบสนองสามารถเป็นเมทริกซ์ที่คอลัมน์แรกคือจำนวนของความสำเร็จและคอลัมน์ที่สองคือจำนวนของความล้มเหลวในกรณีนี้ R เพิ่มสองคอลัมน์ร่วมกันเพื่อผลิตตัวหารสองที่ถูกต้องเพราะวิธีหลังเป็นอย่างชัดเจนด้านขวา หนึ่งสำหรับเราฉันใช้ฟังก์ชัน cbind เพื่อสร้างเมทริกซ์โดยการผูกเวกเตอร์ของคอลัมน์ที่มีตัวเลขโดยใช้และไม่ใช้การคุมกำเนิดต่อไปนี้ symbol. that พิเศษที่แยกการตอบสนองจากตัวทำนายเรามีมาตรฐาน Wilkinson สูตร Rogers - ในนี้ เนื่องจากตัวแปรทั้งสามตัวเป็นตัวแปรที่มีความแตกต่างกันพวกเขาจึงถือว่าเป็นปัจจัยอย่างอัตโนมัติโดยที่คุณสามารถดูได้โดยการตรวจสอบผลการยืนยันว่า R จัดเรียงตามระดับของตัวอักษรตามลำดับตัวอักษรเนื่องจากอายุ ในทำนองเดียวกันสูงเป็นเซลล์อ้างอิงสำหรับการศึกษาเพราะสูงมาก่อนที่ต่ำสุดในที่สุด R เลือกไม่เป็นฐานสำหรับ wantMore. If คุณไม่พอใจเกี่ยวกับเหล่านี้ ทางเลือกที่คุณสามารถใช้ relevel 1 เพื่อเปลี่ยนประเภทพื้นฐานหรือ 2 กำหนดตัวแปรตัวบ่งชี้ของคุณเองฉันจะใช้วิธีหลังโดยการกำหนดตัวชี้วัดสำหรับผู้หญิงที่มีการศึกษาสูงและผู้หญิงที่ต้องการไม่มี children. Now ลองรูปแบบอีกครั้งที่เหลือ deviance จาก 29 92 ในวันที่ 10 df มีความสำคัญอย่างมากดังนั้นเราจึงต้องมีโมเดลที่ดีขึ้นหนึ่งในรายการโปรดของฉันแนะนำการมีปฏิสัมพันธ์ระหว่างอายุและความปรารถนาที่จะไม่มีบุตรหลานอีกต่อไปโปรดทราบว่า R สร้างคำปฏิสัมพันธ์โดยอัตโนมัติและแม้แต่มากับป้ายกำกับที่สมเหตุสมผลสำหรับพวกเขา ความเบี่ยงเบนของแบบจำลองที่ 12 63 เมื่อวันที่ 7 df ไม่ได้มีนัยสำคัญที่ระดับร้อยละห้าตามปกติดังนั้นเราจึงไม่มีหลักฐานใด ๆ เทียบกับแบบจำลองนี้หากต้องการข้อมูลเพิ่มเติมเกี่ยวกับแบบนี้ให้ลองใช้ฟังก์ชันสรุป R ดังต่อไปนี้ ค่าสัมประสิทธิ์ที่สำคัญกับหนึ่งสองหรือสามดาวขึ้นอยู่กับค่าของพวกเขา p ลองพล็อต lrfit คุณจะได้รับแปลงเช่นเดียวกับในรูปแบบเชิงเส้น แต่ปรับให้เข้ากับรูปแบบเชิงเส้นทั่วไปเช่นเศษที่วางแผน เป็นส่วนที่เหลืออยู่รากที่สองของการมีส่วนร่วมของการสังเกตเพื่อความเบี่ยงเบนที่มีเครื่องหมายเดียวกับที่เหลือดิบฟังก์ชันที่สามารถใช้ในการสกัดผลจากการพอดีรวมที่เหลือหรือที่อยู่อาศัยสำหรับส่วนที่เหลือตกทอดที่กำหนดไว้หรือสำหรับ ค่าสัมประสิทธิ์การประมาณค่า probabilities. predict สำหรับ predictor เชิงเส้นประมาณ logits. coef หรือค่าสัมประสิทธิ์สำหรับค่าสัมประสิทธิ์และ. devianceสำหรับ deviance บางส่วนของฟังก์ชันเหล่านี้มีอาร์กิวเมนต์ตัวเลือกตัวอย่างเช่นคุณสามารถดึงข้อมูลห้าชนิดที่เหลือเรียกว่า deviance, Pearson ตอบสนองการตอบสนอง - ค่าติดตั้งการทำงานตัวแปรขึ้นอยู่กับการทำงานในอัลกอริทึม IRLS - ตัวทำนายเชิงเส้นและบางส่วนของเมทริกซ์เหลืองานที่เกิดขึ้นจากการละเว้นคำศัพท์ในโมเดลแต่ละรูปแบบคุณสามารถระบุตัวแปรที่คุณต้องการใช้อาร์กิวเมนต์ชนิดเช่นเศษที่เหลือ lrfit, type pearson.5 3 การอัพเดต Models. f ถ้าคุณต้องการปรับเปลี่ยนโมเดลที่คุณอาจลองใช้การอัพเดตฟังก์ชั่นพิเศษตัวอย่างเช่นเมื่อต้องการลดอายุการใช้งาน noMor e ปฏิสัมพันธ์ในรูปแบบหนึ่งของเราสามารถใช้อาร์กิวเมนต์แรกเป็นผลมาจากการพอดีและที่สองเป็นสูตรการปรับปรุงเจ้าของสถานที่แยกการตอบสนองจากตัวทำนายและจุดหมายถึงทางด้านขวามือของสูตรเดิมดังนั้น ที่นี่เราก็ลบอายุ noMore อีกทางหนึ่งหนึ่งสามารถให้สูตรใหม่เป็นอาร์กิวเมนต์ที่สองฟังก์ชั่นการปรับปรุงสามารถใช้เพื่อให้พอดีกับรูปแบบเดียวกันกับชุดข้อมูลที่แตกต่างกันโดยใช้ข้อมูลอาร์กิวเมนต์เพื่อระบุกรอบข้อมูลใหม่อีกอาร์กิวเมนต์ที่มีประโยชน์เป็นเซตย่อยไป พอดีกับรูปแบบที่แตกต่างกัน subsample ฟังก์ชันนี้ทำงานร่วมกับแบบจำลองเชิงเส้นเช่นเดียวกับแบบจำลองเชิงเส้นทั่วไปถ้าคุณวางแผนที่จะพอดีกับลำดับของรูปแบบที่คุณจะได้พบกับฟังก์ชั่นอันทรงพลังที่มีประโยชน์ให้กับชุดของรูปแบบที่ซ้อนกันก็จะคำนวณการเปลี่ยนแปลงในการพึ่งพา ระหว่างพวกเขา Try. Adding ปฏิสัมพันธ์ได้ลด deviance โดย 17 288 ที่ค่าใช้จ่ายของ 3 d f หากอาร์กิวเมนต์ที่ anova เป็นแบบเดียวฟังก์ชันจะแสดงการเปลี่ยนแปลงใน deviance ได้โดยการเพิ่มแต่ละ th e เงื่อนไขตามลำดับที่ระบุไว้ในสูตรของโมเดลเช่นเดียวกับโมเดลเชิงเส้นเนื่องจากต้องใช้โมเดลหลายรูปแบบเนื่องจากมีคำในสูตรฟังก์ชันอาจต้องใช้เวลาสักครู่เพื่อให้การคำนวณเสร็จสิ้นฟังก์ชัน anova ช่วยให้คุณระบุได้ การทดสอบทางเลือกตัวเลือกปกติคือ F สำหรับแบบจำลองเชิงเส้นและ Chisq สำหรับแบบจำลองเชิงเส้นโดยทั่วไปการเพิ่มพารามิเตอร์ Chisq เพิ่มค่า p ที่อยู่ถัดจาก deviances ในกรณีของเราเราจะเห็นว่าคำศัพท์ทั้งหมดมีความสำคัญเมื่อนำมาใช้กับ model.5 4 การเลือกแบบจำลองเครื่องมือที่มีประสิทธิภาพมากใน R คือฟังก์ชันสำหรับการถดถอยแบบขั้นตอนที่มีคุณสมบัติเด่นสามอย่างซึ่งทำงานร่วมกับรูปแบบเชิงเส้นทั่วไปซึ่งจะทำให้การถดถอยโลจิสติกแบบขั้นตอนหรือการถดถอยพอยซันแบบ stepwise ได้เข้าใจเกี่ยวกับรูปแบบลำดับชั้น ดังนั้นจึงจะพิจารณาเพิ่มการโต้ตอบเฉพาะหลังจากที่รวมถึงผลกระทบหลักที่สอดคล้องกันในโมเดลและเข้าใจข้อกำหนดที่เกี่ยวข้องมากกว่าหนึ่งองศาของเสรีภาพดังนั้นมันจึง wil l เก็บตัวแปร dummy ไว้เพื่อแสดงถึงผลกระทบของปัจจัยแนวคิดพื้นฐานของกระบวนการคือการเริ่มต้นจากรูปแบบที่กำหนดซึ่งอาจเป็นรูปแบบ null และทำตามขั้นตอนต่างๆโดยการลบคำที่มีอยู่แล้วในรูปแบบหรือเพิ่ม ระยะยาวจากรายชื่อผู้สมัครเพื่อรวมเรียกว่าขอบเขตของการค้นหาและกำหนดแน่นอนโดยสูตรรูปแบบเลือกเงื่อนไขการลบหรือรวมอยู่บนพื้นฐานของ Akaike เกณฑ์ข้อมูล AIC R กำหนด AIC as.2 maximized log - ความเป็นไปได้ 2 จำนวนพารามิเตอร์ S-Plus กำหนดให้เป็น deviance ลบสองเท่าของจำนวนพารามิเตอร์ในรูปแบบคำนิยามทั้งสองต่างกันโดยค่าคงที่ดังนั้นความแตกต่างใน AIC จะเหมือนกันในสองสภาพแวดล้อมขั้นตอนจะหยุดลงเมื่อเกณฑ์ AIC ไม่สามารถปรับปรุงได้ใน R all ของงานนี้ทำโดยการเรียกคู่ของฟังก์ชัน add1 และ drop1 ที่พิจารณาเพิ่มหรือลดคำจากแบบฟังก์ชันเหล่านี้จะมีประโยชน์มากในการเลือกรูปแบบและทั้งคู่ยอมรับอาร์กิวเมนต์ทดสอบเช่นเดียวกับ anova โดยพิจารณา drop1 ครั้งแรก สำหรับแบบจำลองการถดถอยโลจิสติกของเราเห็นได้ชัดว่าเราไม่สามารถลดเงื่อนไขเหล่านี้ได้โปรดทราบว่า R พิจารณาลดผลกระทบหลักของการศึกษาและอายุโดยไม่ต้องการมีปฏิสัมพันธ์เพิ่มขึ้น แต่ไม่ได้ตรวจสอบผลกระทบหลักของอายุหรือไม่ต้องการอีกต่อไป จะไม่ปล่อยผลกระทบหลักเหล่านี้ในขณะที่ยังคงรักษาปฏิสัมพันธ์ฟังก์ชัน add1 น้องสาวต้องมีขอบเขตเพื่อกำหนดเงื่อนไขเพิ่มเติมที่จะได้รับการพิจารณาในตัวอย่างของเราเราจะพิจารณาปฏิสัมพันธ์สองปัจจัยทั้งหมดที่เป็นไปได้เราเห็นว่า อย่างไรก็ตามการมีปฏิสัมพันธ์สองปัจจัยที่ขาดหายไปนั้นมีนัยสำคัญโดยตัวเองที่ระดับร้อยละ 5 ตามปกติ แต่สังเกตได้ว่ารูปแบบที่มีอายุโดยการปฏิสัมพันธ์ด้านการศึกษานั้นมี AIC ต่ำกว่าแบบเริ่มต้นของเราฟังก์ชันขั้นตอนนี้จะทำ การค้นหาอัตโนมัติที่นี่เราปล่อยให้มันค้นหาในขอบเขตที่กำหนดโดยปัจจัยปฏิสัมพันธ์ทั้งสองปัจจัยฟังก์ชันขั้นตอนการผลิตผลผลิตที่มีรายละเอียดที่เราได้รับการกดดันวัตถุที่ส่งกลับ แต่รวมถึงองค์ประกอบ anova ที่สรุปการค้นหาที่คุณสามารถดู, ขั้นตอนอัตโนมัติที่นำมาใช้หนึ่งในสามปฏิสัมพันธ์สองปัจจัยที่เหลือเพื่อให้ได้ AIC ขั้นสุดท้ายของ 99 9 นี่คือตัวอย่างที่ AIC โดยต้องมีการปรับปรุงเพียง 2 พารามิเตอร์ต่อพารามิเตอร์อาจนำไปสู่การ overfitting ข้อมูล นักวิเคราะห์บางคนชอบการลงโทษที่สูงขึ้นต่อพารามิเตอร์โดยเฉพาะการใช้ log n แทน 2 เป็นตัวคูณให้ BIC เกณฑ์ข้อมูลเบส์ในบันทึกของเราตัวอย่างเช่น 1607 7 38 ดังนั้นเราจึงจำเป็นต้องใช้ ea deviance reduction จาก 7 38 ต่อพารามิเตอร์เพิ่มเติมฟังก์ชั่น step รับ k เป็นอาร์กิวเมนต์โดยค่าเริ่มต้น 2 คุณอาจยืนยันว่า k log 1607 นำไปสู่รูปแบบที่ง่ายกว่ามากไม่เพียง แต่ไม่มีการปฏิสัมพันธ์ใหม่ ๆ เท่านั้น แต่ผลกระทบหลักของการศึกษาคือ ลดลงแม้ว่าจะมีนัยสำคัญ 2017 Germ n Rodr guez, Princeton University. Generalized Linear Models. ช่วย glm สำหรับตัวเลือกการสร้างแบบจำลองอื่น ๆ ดูครอบครัวช่วยเหลือสำหรับฟังก์ชันลิงก์อื่น ๆ ที่อนุญาตสำหรับแต่ละครอบครัวสาม subtypes ของแบบจำลองเชิงเส้นทั่วไปจะครอบคลุมที่นี่การถดถอยโลจิสติก , การถดถอย Poisson และการวิเคราะห์การอยู่รอดการ regression การถดถอยแบบลอจิสติกการถดถอยแบบลอจิสติกมีประโยชน์เมื่อคุณทำนายผลแบบไบนารีจากชุดของตัวแปรตัวทำนายอย่างต่อเนื่องเป็นที่นิยมมากกว่าการวิเคราะห์ฟังก์ชันจำแนกตามข้อ จำกัด ที่ จำกัด น้อยกว่า การถดถอยโลจิสติกที่ F เป็นปัจจัยไบนารีและ x1-x3 เป็นตัวทำนายอย่างต่อเนื่องพอดีกับ glm F. x1 x2 x3 ข้อมูล mydata สรุปแบบทวินามของครอบครัวให้พอดีกับผลลัพธ์การแสดง confint พอดี 95 CI สำหรับสัมประสิทธิ์ coefficients exp factor factor exp confint fit 95 CI สำหรับค่าสัมประสิทธิ์ exponentiated ทำนายพอดีประเภทตอบสนองที่คาดการณ์ค่าที่เหลืออยู่พอดีประเภท deviance residuals. x ข้อมูล mydata จะแสดงพล็อตความหนาแน่นตามเงื่อนไขของผลไบนารี F ในตัวแปร x อย่างต่อเนื่องการคำนวณการถดถอยพหุคูณจะเป็นประโยชน์เมื่อทำนายตัวแปรผล แสดงจำนวนจากชุดของตัวแปรพยากรณ์อย่างต่อเนื่อง การนับถอยหลังแบบปัวซองที่นับเป็นจำนวนเต็มและ x1-x3 เป็นตัวบ่งชี้อย่างต่อเนื่องพอดี - glm count. x1 x2 x3 ข้อมูล mydata ผลสรุปผลพวงพอดีสำหรับครอบครัวถ้าคุณมี overdispersion ดูว่าส่วนที่เหลือมีค่ามากกว่าองศาอิสระคุณอาจ ต้องการใช้ quasipoisson แทน poisson. Survival Analysis. Survival วิเคราะห์เรียกว่าการวิเคราะห์เหตุการณ์ประวัติศาสตร์หรือการวิเคราะห์ความน่าเชื่อถือครอบคลุมชุดของเทคนิคการสร้างแบบจำลองเวลากับเหตุการณ์ข้อมูลอาจถูกเซ็นเซอร์ขวา - เหตุการณ์อาจไม่ได้เกิดขึ้นโดยการสิ้นสุดของ การศึกษาหรือเราอาจมีข้อมูลไม่ครบถ้วนในการสังเกต แต่ทราบว่าถึงเวลาที่กำหนดเหตุการณ์ไม่เกิดขึ้นเช่นผู้เข้าร่วมการศึกษาหลุดจากการศึกษาในสัปดาห์ที่ 10 แต่ยังมีชีวิตอยู่ในขณะนั้นในขณะที่โมเดลเชิงเส้นทั่วไปถูกวิเคราะห์โดยทั่วไปโดยใช้ glm ฟังก์ชั่นการวิเคราะห์การรอดชีวิตโดยปกติจะดำเนินการโดยใช้ฟังก์ชั่นจากชุดการอยู่รอดแพคเกจการรอดชีพสามารถจัดการกับปัญหาตัวอย่างหนึ่งและสองแบบได้ ls และ Cox proportional hazards model. Data จะถูกป้อนโดยปกติในรูปแบบเวลาหยุดการเริ่มต้นและเหตุการณ์สถานะ 1 เหตุการณ์ 0 ไม่เกิดขึ้นหรือข้อมูลอาจอยู่ในรูปแบบเวลาเหตุการณ์และสถานะ 1 เกิดขึ้น 0 เหตุการณ์ไม่ได้เกิดขึ้นสถานะ 0 ระบุว่าการสังเกตถูกต้อง cencored ข้อมูลจะรวมอยู่ในวัตถุ Surv ผ่านฟังก์ชัน Surv ก่อนที่จะ analyses. survfit ต่อไปจะใช้ในการประมาณการกระจายการอยู่รอดสำหรับหนึ่งหรือหลายกลุ่ม survdiff ทดสอบความแตกต่างในการกระจายการอยู่รอด ระหว่างกลุ่มสองกลุ่มหรือมากกว่า coxph จะทำหน้าที่เป็นตัวอันตรายในเซตของตัวแปรทำนาย Mayo Clinic มะเร็งปอดการรอดตายของไลบรารีข้อมูล เรียนรู้เกี่ยวกับชุดปฐมพยาบาลชุดข้อมูล สร้าง Surv วัตถุ survobj - กับปอดเวลา Surv สถานะ การกระจายการอยู่รอดของพล็อตของตัวอย่าง Kaplan-Meier พอดี - รอดชีวิต survobj.1, ข้อมูลสรุปปอด fit0 พล็อต fit0, xlab เวลาการอยู่รอดในวัน, Ylab Surviving, yscale 100, การแพร่กระจายการรอดตายหลัก เปรียบเทียบการกระจายตัวของการมีชีวิตอยู่ของผู้ชายและผู้หญิง fit1 - surviving survobj พล็อตการแจกแจงความอยู่รอดโดยพล็อตเพศพอดี 1, xlab เวลาการอยู่รอดในวัน, yabab surviviving, yscale 100, col c สีแดง, สีฟ้า, การแพร่กระจายการอยู่รอดหลักโดยเพศตำนาน topright, ชื่อเรื่องเพศ, c ชาย, หญิง, กรอกสีแดง, สีฟ้า ทดสอบความแตกต่างระหว่างเส้นโค้งการอยู่รอดของเพศชายและเพศหญิง logrank test survdiff survobj. คาดการณ์การอยู่รอดของชายจากอายุและคะแนนทางการแพทย์ MaleMod - coxph survobj ปอดข้อมูล, เซตย่อยเซ็กซ์ 1. แสดงผล MaleMod ประเมินข้อสมมุติฐานเกี่ยวกับอันตรายตามสัดส่วนดูบทความ Thomas Lumley s R เกี่ยวกับแพคเกจการอยู่รอดสำหรับข้อมูลเพิ่มเติมแหล่งข้อมูลที่ดีอื่น ๆ ได้แก่ Mai Zhou s ใช้ R Software เพื่อทำแบบวิเคราะห์และการจำลองการอยู่รอดและบท M J Crawley เกี่ยวกับการวิเคราะห์การรอดชีวิตในการปฏิบัติ - ชั้นไหนทำนายฉันมีคำถามเกี่ยวกับการถดถอยโลจิสติกใน R. สมมุติฉันมีรายการเล็ก ๆ ของโปรตีน P1, P2, P3 ที่ทำนายเป้าหมายสองชั้น T กล่าว noncancer มะเร็งช่วยให้พูดต่อฉันรู้ว่าฉันสามารถ สร้างแบบจำลองการถดถอยโลจิสติกแบบง่ายใน R. data df Y, binomial Y เป็นชุดข้อมูลของ Proteins ซึ่งทำงานได้ดี T เป็นเวกเตอร์ที่เป็นตัวประกอบกับระดับมะเร็ง Noncancer Proteins เป็นตัวเลขตอนนี้ฉันต้องการใช้ในการคาดการณ์ใหม่ data. predict model, newdata testsamples, testsamples การตอบสนองประเภทคือชุดเล็ก ๆ ของตัวอย่างใหม่ผลที่ได้คือเวกเตอร์ของ probabilites สำหรับแต่ละตัวอย่างใน testsamples แต่ probabilty สิ่งที่ต้องอยู่ในระดับแรกใน T To อยู่ในระดับที่สองใน T. เป็นปัจจัยการแสดงออก fallowing นี้ทำนายโมเดล newdata testsamples การตอบสนองชนิด 0 5 TRUE เมื่อตัวอย่างใหม่ถูกจัดเป็นมะเร็งหรือเมื่อมันถูกจัดประเภทเป็น noncancer และทำไมถึงไม่เป็นแบบอื่นรอบ 10 กรกฎาคม 2552 เวลา 9 46 AM, Peter Schffler wrote. Hi ฉันมีคำถาม abo การถดถอยโลจิสติกใน R สมมติว่าฉันมีรายการเล็ก ๆ ของโปรตีน P1, P2, P3 ที่ทำนายเป้าหมายสองชั้น T กล่าวว่า noncancer มะเร็งช่วยเพิ่มเติมว่าฉันรู้ว่าฉันสามารถสร้างแบบจำลองการถดถอยโลจิสติกง่ายๆในแบบ R - glm T. data df Y, ครอบครัว binomial Y คือชุดข้อมูลของโปรตีนนี้ทำงานดี T เป็นเวกเตอร์ปัจจัยที่มีระดับมะเร็ง noncancer โปรตีนเป็นตัวเลขตอนนี้ฉันต้องการใช้ในการทำนายข้อมูลแบบใหม่คาดการณ์ testdosi newdata การตอบสนองชนิด testamples เป็นชุดเล็ก ๆ ของตัวอย่างใหม่ผลที่ได้คือเวกเตอร์ของ probabilites สำหรับแต่ละตัวอย่างใน testsamples แต่ความน่าจะเป็นสิ่งที่สำหรับการอยู่ในระดับแรกใน T จะอยู่ในระดับที่สองใน T คือปัจจัยการแสดงออก fallowing นี้ทำนายรุ่น newdata testsamples, type response 0 5 TRUE เมื่อตัวอย่างใหม่ถูกจำแนกเป็นมะเร็งหรือเมื่อมันถูกจำแนกเป็น noncancer และทำไมไม่เป็นอย่างอื่น Thank you, Peter. As per the Details ส่วนของ glm. A predictor ทั่วไปมีรูปแบบ response. terms ที่ตอบ e คือเวกเตอร์การตอบสนองเชิงตัวเลขและข้อกำหนดคือชุดของคำที่ระบุตัวทำนายเชิงเส้นสำหรับการตอบสนองสำหรับครอบครัวที่มีสองกลุ่มและกลุ่ม quasibinomial การตอบสนองยังสามารถระบุเป็นปัจจัยเมื่อระดับแรกแสดงถึงความล้มเหลวและความสำเร็จอื่น ๆ ทั้งหมดหรือเป็นเมทริกซ์สองคอลัมน์ ด้วยคอลัมน์ที่ให้จำนวนของความสำเร็จและความล้มเหลวข้อตกลงข้อกำหนดของฟอร์มแรกที่สองระบุว่าคำทั้งหมดในครั้งแรกพร้อมกับคำทั้งหมดในวินาทีกับรายการที่ซ้ำกันใด ๆ ที่ถูกลบออกดังนั้นให้คำอธิบายของคุณด้านบนคุณคาดการณ์ noncancer นั่นคือ, คุณคาดการณ์ความน่าจะเป็นของระดับที่สองของความสำเร็จของปัจจัยที่ให้ความแปรปรวนถ้าคุณต้องการที่จะทำนายมะเร็งเปลี่ยนระดับปัจจัย thusly. T - ปัจจัย T, ระดับ noncancer c, มะเร็งโดยค่าเริ่มต้น R จะ alpha เรียงลำดับ ระดับปัจจัยดังนั้นมะเร็งจะเป็นครั้งแรกคิดของมันในแง่ของการใช้รหัสจำนวนเต็ม 0,1 สำหรับกรณีที่ไม่มีการแสดงตนที่คุณคาดการณ์ความน่าจะเป็นของ 1 หรือการปรากฏตัวของเหตุการณ์หรือถ่าน acteristic ดอกเบี้ย. BTWโดยใช้ T เป็นชื่อของเวกเตอร์การตอบสนองไม่ได้เป็นนิสัยที่ดี T เป็นชวเลขสำหรับสร้างขึ้นใน R คง TRUE R โดยทั่วไปฉลาดพอที่จะทราบความแตกต่าง แต่จะดีกว่าเพื่อหลีกเลี่ยงการเป็นปัญหาโดยไม่ใช้มันในการตอบกลับโพสต์นี้โดย Peter Schffler - 2.Peter Schffler wrote. Hi ฉันมีคำถามเกี่ยวกับการถดถอยโลจิสติกใน R สมมุติว่าฉันมีรายการเล็ก ๆ ของโปรตีน P1, P2, P3 ที่ทำนายเป้าหมายสองชั้น T กล่าวว่า noncancer มะเร็งช่วยเพิ่มเติมว่าฉันรู้ว่าฉันสามารถสร้างแบบจำลองการถดถอยโลจิสติกง่ายใน รูปแบบ R - glm T. data df Y ครอบครัวแบบทวินาม Y คือชุดข้อมูลของโปรตีนนี้ทำงานดี T เป็นเวกเตอร์ปัจจัยที่มีระดับมะเร็งโปรตีน noncancer เป็นตัวเลขตอนนี้ฉันต้องการใช้ในการทำนายข้อมูลแบบใหม่คาดการณ์ newdata testamples การตอบสนองของตัวอย่างเป็นตัวอย่างเล็ก ๆ ชุดใหม่ผลที่ตามมาก็คือเวกเตอร์ของ probabilites สำหรับแต่ละตัวอย่างใน testsamples แต่ความน่าจะเป็นสิ่งที่สำหรับ To อยู่ในระดับแรกใน T To อยู่ในระดับที่สองใน T ปัจจัยการแสดงออก fallowing นี้ทำนาย โมเดล, testamples ใหม่, type response 0 5 TRUE เมื่อตัวอย่างใหม่ถูกจำแนกเป็นมะเร็งหรือเมื่อมันถูกจำแนกเป็น noncancer และทำไมถึงไม่เป็นไปตามความเป็นไปได้อื่น ๆ ความเป็นไปได้ที่ระดับ 2 ของปัจจัยตอบสนองที่เรียกว่าความสำเร็จในเอกสาร การหารูปแบบความน่าจะเป็นของโรคหรือความตายเช่นเดียวกับการแปลความหมายของการถดถอยโลจิสติกเองฉันพบว่าง่ายที่สุดในการจัดเรียงข้อมูลประเภทนี้โดยการทดลองในสถานการณ์ที่เรียบง่าย g gx - ตัวอย่าง c A, B, 10 แทน TRUE x 1 BABBABBABA table xx AB 4 6. สังเกตว่าความถี่สัมพัทธ์ของ B คือ 0 6.1, ข้อผิดพลาดสองทางใน eval expr, envir, ค่าของ enclos y ต้องเป็น 0 y 1 นอกจากนี้ข้อความเตือนใน mf ตัวแปร contrasts x แปลงค่าเป็น factor ตกลงดังนั้นจึงได้รับรางวัลไปโดยไม่มีการแปลงเป็นปัจจัยนี่เป็นสิ่งที่ดี. สูตร glm สูตร x.1 ครอบครัว binomial. Ceprawients ตัด 0 4055.Degrees of Freedom 9 ทั้งหมดคือ Null 9 Null Develly คงเหลือ 13 46 Deviance เหลือ 13 46 AIC 15 46 การสกัดกั้นเป็นบวกซึ่งตรงกับอัตราการเข้าสู่ระบบสำหรับความน่าจะเป็น 0 5 นั่นคือต้องเป็น 0 0 4055 log 6 4.1 ไบนารี 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 9 10 0 4054651 0 4054651 คาดการณ์ว่า glm factor x.1 เป็นแบบทวินามชนิดตอบ 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6. เพราะเหตุใดจึงไม่ใช่ทางอื่นดีถ้าหากเป็นเช่นนั้นแล้วคุณอาจถามคำถามเดียวกัน O ---- Peter Dalgaard ster Farimagsgade 5, Entr B c --- Dept of Biostatistics PO Box 2099, 1014 Cph K - มหาวิทยาลัยโคเปนเฮเกนเดนมาร์ก Ph 45 35327918.Peter Schffler เขียน Hi, ฉันมีคำถามเกี่ยวกับการถดถอยโลจิสติกใน R สมมติว่าฉันมีรายการเล็ก ๆ ของโปรตีน P1, P2, P3 ที่ทำนาย เป้าหมายสองชั้น T กล่าวว่า noncancer มะเร็งช่วยให้พูดต่อไปว่าฉันรู้ว่าฉันสามารถสร้างแบบจำลองการถดถอยโลจิสติกง่ายๆในรูปแบบ R - glm T. data df Y, ครอบครัวแบบทวินาม Y เป็นชุดข้อมูลของโปรตีนนี้ทำงานดี T เป็น แฟคทอรีเวกเตอร์กับมะเร็งในระดับ noncancer โปรตีนเป็นตัวเลขตอนนี้ฉันต้องการใช้ในการทำนายข้อมูลใหม่แบบจำลองการคาดการณ์ตัวอย่างใหม่ testata, testamples การตอบสนองประเภทคือชุดเล็ก ๆ ของตัวอย่างใหม่ผลที่ได้คือเวกเตอร์ของ probabilites สำหรับแต่ละตัวอย่างใน testsamples แต่ความน่าจะเป็นสิ่งที่ต้องอยู่ในระดับแรกใน T เป็นระดับที่สองใน T ปัจจัยการแสดงออก fallowing นี้ทำนายรูปแบบใหม่ testata ตัวอย่างการตอบสนองชนิด 0 5 TRUE เมื่อตัวอย่างใหม่ถูกจัดให้อยู่ในกลุ่มมะเร็งหรือเมื่อจำแนกไว้ Noncancer และทำไมไม่เป็นแบบอื่น ๆ ความน่าจะเป็นของระดับ 2 ของการตอบสนองของปัจจัยที่เรียกว่าความสำเร็จในเอกสารแม้ในขณะที่การสร้างแบบจำลองของคุณน่าจะเป็นของโรคหรือความตายเช่นเดียวกับเมื่อแปลความหมายของ regire โลจิสติก ssion ตัวเองฉันพบว่ามันง่ายที่สุดในการจัดเรียงประเภทของปัญหานี้โดยการทดลองในสถานการณ์แบบง่าย E gx - ตัวอย่าง c A, B, 10 แทน TRUE x 1 BABBABBABA ตาราง xx AB 4 6 สังเกตว่าความถี่สัมพัทธ์ของ B คือ 0 6 glm x.1, binomial ข้อผิดพลาดใน eval expr, envir, ค่าของ enclos y ต้องเป็น 0 y 1 นอกจากนี้ข้อความเตือนใน mf ตัวแปร contrasts x แปลงค่าเป็นปัจจัย OK ดังนั้นจึงได้รับรางวัล t go โดยไม่มีการแปลงเป็น factor นี่เป็นสิ่งที่ดี glm factor x.1, dwumial เรียกสูตรสูตร glm x.1, ค่าสัมภาระย่อยของตระกูลทวิส 0 4055 องศาเสรีภาพ 9 รวมเป็นโมฆะ 9 ส่วนที่เหลือเป็นโมฆะโมฆะ 13 46 ส่วนที่เหลือ 13 46 AIC 15 46 การสกัดกั้นเป็นบวก สำหรับความน่าจะเป็น 0 5 นั่นคือต้องเป็นค่าที่ B 0 4055 log 6 4 คาดการณ์ค่าสัมประสิทธิ์ของ glm x.1, binomial 1 2 3 4 5 6 7 8 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 0 4054651 9 10 0 4054651 0 4054651 คาดการณ์ glm factor x.1, ทวินามชนิดตอบ 1 2 3 4 5 6 7 8 9 10 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 0 6 สำหรับเหตุผลที่ไม่ได้เป็นวิธีอื่น ๆ รอบ ๆ ดีถ้ามันได้รับแล้วคุณอาจจะถามคำถามเดียวกันมากขึ้นโดยเฉพาะปัจจัยมะเร็ง c, noncancer, noncancer, noncancer mod - glm resp.1, ครอบครัวแบบทวินามที่คาดการณ์ mod, การตอบสนองชนิด 1 2 3 4 0 75 0 75 0 75 0 75.and ตั้งแต่ noncancer เกิดขึ้น 75 ครั้งในตัวอย่างได้อย่างชัดเจนการทำนายความน่าจะเป็นของ noncancer .
Comments
Post a Comment