Skip to content

Regresyon İstatistik Modelini Tanımlama

17 de Mayıs de 2021

Regresyon, bir dizi sayısal değeri tahmin etmek için kullanılan bir veri madenciliği tekniğidir (aynı zamanda sürekli değerler), belirli bir veri kümesi verildiğinde. Örneğin, diğer değişkenler göz önüne alındığında, bir ürün veya hizmetin maliyetini tahmin etmek için regresyon kullanılabilir. Regresyon, iş ve pazarlama planlaması, finansal tahmin, çevresel modelleme ve eğilimlerin analizi için birden çok sektörde kullanılır.

Regresyon ve Sınıflandırma

Regresyon ve sınıflandırma, benzer problemleri çözmek için kullanılan veri madenciliği teknikleridir, ancak sıklıkla karıştırılırlar. Her ikisi de tahmin analizinde kullanılır, ancak sınıflandırma verileri ayrı kategorilere atarken regresyon sayısal veya sürekli bir değeri tahmin etmek için kullanılır. Örneğin, bir evin değerini konumuna, fit karesine, son satıldığında fiyatına, benzer evlerin fiyatına ve diğer faktörlere göre tahmin etmek için regresyon kullanılacaktır. Evleri yürünebilirlik, parti büyüklüğü veya suç oranları gibi kategoriler halinde düzenlemek istiyorsanız, sınıflandırma doğru olacaktır.

Regresyon Teknik Türleri

En basit ve en eski regresyon biçimi, iki değişken arasındaki bir ilişkiyi tahmin etmek için kullanılan doğrusal regresyondur. Bu teknik, düz bir çizginin matematiksel formülünü kullanır (y = mx + b). Düz bir ifadeyle, bu basitçe, Y ve X eksenli bir grafik verildiğinde, X ve Y arasındaki ilişkinin birkaç aykırı değer içeren düz bir çizgi olduğu anlamına gelir. Örneğin, nüfustaki bir artış göz önüne alındığında, gıda üretiminin aynı oranda artacağını varsayabiliriz – bu, iki rakam arasında güçlü, doğrusal bir ilişki gerektirir. Bunu görselleştirmek için, Y ekseninin nüfus artışını izlediği ve X ekseninin gıda üretimini izlediği bir grafik düşünün. Y değeri arttıkça, X değeri de aynı oranda artacak ve aralarındaki ilişkiyi düz bir çizgi haline getirecektir. Çoklu regresyon gibi gelişmiş teknikler, çoklu değişkenler arasındaki bir ilişkiyi öngörür – örneğin, gelir, eğitim ve nerede yaşamayı seçtiği arasında bir korelasyon var mı? Daha fazla değişkenin eklenmesi tahminin karmaşıklığını önemli ölçüde artırır. Standart, hiyerarşik, ayarlı ve aşamalı olmak üzere her biri kendi uygulamasına sahip birkaç tür çoklu regresyon tekniği vardır. Bu noktada, neyi tahmin etmeye çalıştığımızı anlamak önemlidir (bağımlı veya tahmin değişken) ve tahmini yapmak için kullandığımız veriler (bağımsız veya tahminci değişkenler). Örneğimizde, birinin yaşamayı seçtiği yeri ( tahmin değişken) verilen gelir ve eğitim (her ikisi de tahminci değişkenler).

  • Standart çoklu regresyon tüm yordayıcı değişkenleri aynı anda dikkate alır. Örneğin 1) gelir ve eğitim (yordayıcılar) ve mahalle seçimi (tahmin edilen) arasındaki ilişki nedir; ve 2) bireysel yordayıcıların her biri bu ilişkiye ne ölçüde katkıda bulunuyor?
  • Aşamalı çoklu regresyon tamamen farklı bir soruyu yanıtlıyor. Aşamalı regresyon algoritması, komşuluk seçimini tahmin etmek için hangi kestiricilerin en iyi kullanıldığını analiz eder – bu, aşamalı modelin yordayıcı değişkenlerin önem sırasını değerlendirdiği ve ardından ilgili bir alt küme seçtiği anlamına gelir. Bu tür bir regresyon problemi, regresyon denklemini geliştirmek için “adımlar” kullanır. Bu tür bir regresyon verildiğinde, tüm öngörücüler son regresyon denkleminde bile görünmeyebilir.
  • Hiyerarşik regresyon, adım adım gibi, sıralı bir süreçtir, ancak tahmin değişkenleri modele önceden tanımlanmış önceden belirlenmiş bir sırayla girilir, yani algoritma, girilecek sırayı belirlemek için yerleşik bir denklem seti içermez. yordayıcılar. Bu, en sık, regresyon denklemini oluşturan bireyin alan hakkında uzman bilgisine sahip olduğu durumlarda kullanılır.
  • Setwise regresyon adım adım benzer, ancak tek tek değişkenler yerine değişken kümelerini analiz eder.