Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması

KAYRI, MURAT

Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması

Murat KAYRİ (Yüzüncü Yıl Üniversitesi, Eğitim Fakültesi, Van, Türkiye)

Eurasian Journal of Educational Research

96 0

Yıl: 2007 Cilt: 0 Sayı: 28 Sayfa Aralığı: 89 - 99 Metin Dili: Türkçe İndeks Tarihi: 29-07-2022

Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması

Öz:

Problem Durumu: Heterojen olan bir veri setinin elde edeceği tanımlayıcı istatistik ve parametre tahminleme denklem değerlerinin sapmalı olacağı bildirilmektedir. Heterojen olan veri setinin homojen olan alt sınıf ya da kümelere bölünmesinden sonra elde edilen istatistiksel çalışmaların daha sağlıklı sonuçlara sahip olduğu literatürde bildirilmektedir. Eğitim bilimleri araştırmaları için veri setindeki birey ya da değişkenlerin çok olması durumunda iki aşamalı kümeleme analizinin uygulanabilirliği çalışmanın temel problemini oluşturmaktadır. Araştırmanın amacı: Bu çalışmada, genel amacı gruplanmamış verileri benzerliklerine göre kümelemek olan iki aşamalı kümeleme analizi ele alınmıştır. Küme sayısı hususunda bir ön bilginin olmadığı durumlarda kullanılabilen iki aşamalı kümeleme analizinin avantaj ve dezavantajları irdelenmiştir. Özellikle gizli sınıf (latent class) ve küme analiz (cluster analysis) ileri istatistik tekniklerinin log-olabilirlik (log-likelihood) uzayında verileri nasıl grupladığı ve yine aynı uzay içerisinde kullanmış olduğu Bayesçi bilgi ve Akaike bilgi ölçütlerinin (BIC, AIC) nasıl bir fonksiyon üstlendikleri açıklanmaya çalışılmıştır. Araştırmanın Yöntemi: Örneklem olarak Doğu Anadolu bölgesindeki büyük bir üniversitede okuyan 608 öğrenciye ait bir veri seti incelenmiştir. Bu veri setine ait 7 adet değişken kullanılmıştır. Bu verilerden üç tanesi sürekli değişken (öss puanı, mekik skoru, oöbp), geriye kalan dört değişken ise kategorik özellik arz etmektedir (baba mesleği, lise mezuniyet kolu, bölge ve cinsiyet) . Bu 7 değişken merkezli 608 birey kümelenmiştir. 608 bireyden oluşan veri setine iki aşamalı kümeleme yöntemi kullanılmıştır. Bulgular ve Sonuçlar: Bu çalışmanın sonucunda, log-olabilirlik temelli Bayesçi bilgi kriteri (BIC)doğrultusunda 608 birey ortak özellikleri bakımından (7 değişken merkezinde) 7 kümeye anlamlı bir şekilde bölünmüştür. İki aşamalı kümeleme analizinin sürekli ve kategorik verileri bir arada kümeleyebildiği gözlemlenmiştir. Yine bu çalışmada iki aşamalı kümeleme analizinin sürekli ve kategorik değişkenleri kümelemede bazen yetersiz kaldığı bulgusuna rastlanmıştır. Bununla birlikte sürekli değişkenleri ideal düzeyde kümeleyebildiği kabul edilmiştir. Öneriler: Eğitim bilimcilerin karışık (sophisticated) istatistik içerikli araştırmalarında bu tür ileri düzey istatistikleri bilinçli bir şekilde kullanmaları önerilmektedir. Bu çalışma ile iki aşamalı küme analiz tekniğinin bilimsel çalışmalara farklı bir ışık tutacağı düşünülmektedir. Sınırlılıkları ile birlikte iki aşamalı kümeleme analizinin homojen olmayan büyük veri setlerine uygulanabilirliği kanısına varılmıştır.

Anahtar Kelime:

Konular: Otelcilik, Konaklama, Spor ve Turizm Eğitim, Eğitim Araştırmaları

Two-Step Clustering Analysis in Researches: A Case Study

Öz:

Problem Statement: It is known that the result of descriptive statistical and the estimations of parameter will be bias for heteregenous data set. After dividing heteregenous data set into homogeneous subpopulations or clusters, the result of statistical analysis will be more robust and unbiased. The aim of this study was to show the applicability of two-step cluster analysis in the educational sciences.Purpose of study : In this study, the two-step cluster analysis has been examined which creates memberships (individual or variable) for different groups according to similarity sides of variables. The advantage and disadvantage of two-step cluster analysis has been determined. It is not an obligation to know the number of clusters firstly. Two-step cluster analysis tries to determine optimal sub-population number. Especially, latent class and cluster analysis techniques have been identified according to log-likelihood distance measurement and this study explains how to consist the groups by using log-likelihood criterion. Also Bayesian information and Akaike’s information criterions have been examined versus log-likelihood. Methods: The sample was consisted of 608 individuals. Some variables which belong to these individuals were examined. Seven variables were used in this sample. The 3 of these variables were scale (oss grade, sport performance, oobp). The rest of these variables (occupation of father, graduation of lise branch, region and gender) were categorical (nominal or ordinal). Two-step cluster analysis were used for this experimental study.Findings and Results: At the end of this study, seven clusters were determined by using Bayesian information criterion (BIC) according to the similarity of the variables. It was recommended to use BIC versus AIC to get optimal cluster number. It was observed that both scale and categorical variables were handled succesfully by using two-step cluster analysis. Also it was observed that two-step cluster analysis was more effective for scale variables.Conclusions and Recommendations: At the end of the study, the article concludes that the two-step cluster analysis seems to be more efficient in analysing the similar data and verdict analysed in this study for experimantal studies in the educational fields. Despite of some unefficent sides of two-step cluster analysis can be used in the educational fields consciously.

Anahtar Kelime:

Konular: Otelcilik, Konaklama, Spor ve Turizm Eğitim, Eğitim Araştırmaları

Belge Türü: Makale Makale Türü: Araştırma Makalesi Erişim Türü: Bibliyografik

Beckstead, JW. (2002). Using hierarchical cluster analysis in nursing research. Western Journal of Nursing Research, 24, 307-319.
Chiu, T., Fang, D., Chen, J., Wang, Y., & Jeris, C. (2001). A robust and scalable clustering algorithm for mixed type attributes in large database environment. Proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining, NewYork.
Clogg, C.C. (1995). Latent class models. New York: Plenum Press.
Çelik, H.C., Satıcı, Ö., & Çelik, M.Y. (2005). Sağlık personellerinde kronik sigara içme alışkanlığı olanların tutumlarına ilişkin değişkenlerin kümeleme analizi (cluster analyses). Dicle Tıp Dergisi, 32(1), 20-25.
Dillon, W., & Goldstein, M. (1984). Multivariate analysis, methods and applications. New York: John Wiley & Sons.
Duncan, T.E., Susan, S.C., Strycker, L.A., & Okut, H. (2002a). Growth mixture modeling of adoloscent alcohol use data: Chapter addendum to an introduction to latent variable growth curve modeling: Concepts, issues, and applications. Oregon Research Institute,Oregon,36.
Duncan, T.E., Susan, S.C., Strycker, L.A., & Okut, H. (2002b). Latent variable mixture modeling: Analyzing mixture and the structural portion of model. Joint Statistical Meetings (JSM), 11-15 August 2002, New York City.
Everitt, BS. (1994). Statistical methods in medical investigations (second edition). New York: John Wiley&Sons.
Fienberg, S.E. (1987). The analysis of cross-classified categorical data. The MIT Press.Johnson, R., & Wichern, D. (1992). Applied multivariate statistical methods. Boston: Prentice Hall.Kayri, M. (2006). Özel yetenek sınavında (beden eğitimi) başarının modellenmesi ve risk faktörünün tanımlanması. Yayınlanmamış doktora tezi, Yüzüncü Yıl Üniversitesi.
Kayri, M., & Gokdas, İ. (2006). Beden eğitimi sınavındaki adayların başarılarını etkileyen değişkenlerin incelenmesinde karışımlı model (Mixture models) tekniğinin kullanımı. Hacettepe Üniversitesi Spor Bilimleri Dergisi (Baskıda).
Lance, G.N, & Williams, W.T. (1967). A general theory of classificatory sorting strategies, i. hierarchical systems. Computer Journal, 9, 373-380
Muthen, L. K., & Muthen, B. (2002). Mplus: User’s guide. Los Angeles: CA : Muthen & Muthens.
Otlu, H., & Alpar, R.(2006). İki aşamalı küme analizi ve bir uygulama. 5-9 Eylül 2006 IX. Ulusal Biyoistatistik Kongresi, Zonguldak.
Özdamar, K (2002). Paket programları ile istatistiksel veri analizi (çok değişkenli analizler). Eskişehir: Kaan Kitabevi.
Peel, D., & McLachlan, G. (2000). Finite mixture models. New York: Wiley – Interscience Publisher.
Roeder, K., Lynch, G. K., & Nagin, S. D.(1999). Modeling uncertainty in latent class membership: A case study in criminology. Journal of American Stat. Association, 44, 766-776.
Tatlıdil, H. (1996). Uygulamalı çok değişkenli istatistiksel analiz. Ankara: Engin Yayınevi.
Wang, P., & Putterman, M.L. (1998). Mixed logistic regression models. Journal of Eğitim Araştırmaları 99 Agriculture, Biological and Environmental Statistics, 3(2), 175-200.
Wu, JD., Milton, DK., Hammond, SK., & Spear, RC. (1999). Hierarchial cluster analysis applied to workers exposures in fiberglas insolution manufacturing. Ann. Occup. Hyg., 43, 43-55.
Yang, C.C. (1998). Finite mixture model selection with psychometric applications. Unpublished doctoral dissertation, University of California.
Yeşilova, A. (2003).Biyolojik çalışmalardan elde edilen kategorik verilere karışık poisson regresyon analizinin uygulanması. Yayınlanmamış doktora tezi, Yüzüncü Yıl Üniversitesi.
Yuqing, P., Xiangdan, H., & Shang, L. (2003). The k-means clustering algorithm based on density and ant colony. IEEE Int. Conf. Neural Networks & Signal Processing Nanjing,China.
Zhang T., Ramakrishnon, R., & Livny, M.B. (1996). An efficient data clustering method for very large databases. Proceedings of the ACM SIGKDD Conference on Management of Data, Montreal, Canada.

APA	KAYRI M (2007). Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. , 89 - 99.
Chicago	KAYRI MURAT Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. (2007): 89 - 99.
MLA	KAYRI MURAT Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. , 2007, ss.89 - 99.
AMA	KAYRI M Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. . 2007; 89 - 99.
Vancouver	KAYRI M Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. . 2007; 89 - 99.
IEEE	KAYRI M "Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması." , ss.89 - 99, 2007.
ISNAD	KAYRI, MURAT. "Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması". (2007), 89-99.

APA	KAYRI M (2007). Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. Eurasian Journal of Educational Research, 0(28), 89 - 99.
Chicago	KAYRI MURAT Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. Eurasian Journal of Educational Research 0, no.28 (2007): 89 - 99.
MLA	KAYRI MURAT Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. Eurasian Journal of Educational Research, vol.0, no.28, 2007, ss.89 - 99.
AMA	KAYRI M Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. Eurasian Journal of Educational Research. 2007; 0(28): 89 - 99.
Vancouver	KAYRI M Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması. Eurasian Journal of Educational Research. 2007; 0(28): 89 - 99.
IEEE	KAYRI M "Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması." Eurasian Journal of Educational Research, 0, ss.89 - 99, 2007.
ISNAD	KAYRI, MURAT. "Araştırmalarda İki Aşamalı Kümeleme (Two-Step Clustering) Analiz ve Bir Uygulaması". Eurasian Journal of Educational Research 28 (2007), 89-99.