Published

2013-07-01

Detection of Influential Observations in Semiparametric Regression Model

Detección de observaciones influenciales en modelos de regresión semiparamétricos

Keywords:

Cook’s distance, High leverage outliers, Pena’s measure, Semiparametric regression (en)
distancia de Cook, outliers, puntos de apalancamiento, medida de Peña, regresión semiparamétrica (es)

Authors

  • Semra Türkan Hacettepe University
  • Öniz Toktamis Hacettepe University
In this article, we consider the semiparametric regression model and examine influential observations which have undue effects on the estimators for this model. One of the approaches to measure the influence of an individual observation is to delete the observation from the data. The most common measure based on this approach is Cook’s distance. Recently, Daniel Peña introduced a new measure based on this approach. Pena’s measure is able to detect high leverage outliers, which could be undetected by Cook’s distance, in large data sets in linear regression model. The Cook’s distances for parameter vector, unknown smooth function and response variable in semiparametric regression model are expressed by authors as functions of the residuals and leverages. Following the study of them we derive a type of Pena’s measure as functions of the residuals and leverages for the same model. We compare the performance of these measures as to detection of influential observations using real data, artificial data and simulation. The results show that the performance of Pena’s measure is better than Cook’s distance to detect high leverage outliers in large data sets in the semiparametric regression model such as in the linear regression model.

En este artículo, se consideran modelos de regresión semiparamétrica y se examinan observaciones influenciales que pueden tener efectos sobre los estimadores para este modelo. Una de las formas de medir la influencia de una observación individual es borrando la observación en el conjunto de  datos. La medida más común bajo esta idea es la distancia de Cook. Recientemente, Daniel Peña introdujo una nueva medida basada en estas ideas. Las distancias de Cook para el vector de parámetros, la función de suavizamiento y la variable respuesta en modelos de regresión semiparamétrica han sido expresadas por otros autores como funciones de los residuales y los puntos de apalancamiento. Se deriva en este artículo, una medida del tipo de la de Peña como función de los residuales y puntos de apalancamiento para el mismo modelo. Se compara el desempeño de estas medidas para la detección de observaciones influenciales usando datos reales y bajo simulación. Los resultados muestran que la medida de Peña es mejor que la distancia de Cook para detectar outliers y puntos de apalancamiento en conjuntos de datos grandes en los modelos de regresión semiparamétrica tales como el modelo de regresión lineal.

Detection of Influential Observations in Semiparametric Regression Model

Detección de observaciones influenciales en modelos de regresión semiparamétricos

SEMRA TÜRKAN1, ÖNIZ TOKTAMIS2

1Hacettepe University, The Faculty of Science, Department of Statistics, Ankara, Turkey. Doctor. Email: sturkan@hacettepe.edu.tr
2Hacettepe University, The Faculty of Science, Department of Statistics, Ankara, Turkey. Emeritus professor. Email: oniz@hacettepe.edu.tr


Abstract

In this article, we consider the semiparametric regression model and examine influential observations which have undue effects on the estimators for this model. One of the approaches to measure the influence of an individual observation is to delete the observation from the data. The most common measure based on this approach is Cooks distance. Recently, Daniel Peña introduced a new measure based on this approach. Penas measure is able to detect high leverage outliers, which could be undetected by Cooks distance, in large data sets in linear regression model. The Cooks distances for parameter vector, unknown smooth function and response variable in semiparametric regression model are expressed by authors as functions of the residuals and leverages. Following the study of them we derive a type of Penas measure as functions of the residuals and leverages for the same model. We compare the performance of these measures as to detection of influential observations using real data, artificial data and simulation. The results show that the performance of Penas measure is better than Cooks distance to detect high leverage outliers in large data sets in the semiparametric regression model such as in the linear regression model.

Key words: Cook's distance, High leverage outliers, Pena's measure, Semiparametric regression.


Resumen

En este artículo, se consideran modelos de regresión semiparamétrica y se examinan observaciones influenciales que pueden tener efectos sobre los estimadores para este modelo. Una de las formas de medir la influencia de una observación individual es borrando la observación en el conjunto de datos. La medida más común bajo esta idea es la distancia de Cook. Recientemente, Daniel Peña introdujo una nueva medida basada en estas ideas. Las distancias de Cook para el vector de parámetros, la función de suavizamiento y la variable respuesta en modelos de regresión semiparamétrica han sido expresadas por otros autores como funciones de los residuales y los puntos de apalancamiento. Se deriva en este artículo, una medida del tipo de la de Peña como función de los residuales y puntos de apalancamiento para el mismo modelo. Se compara el desempeño de estas medidas para la detección de observaciones influenciales usando datos reales y bajo simulación. Los resultados muestran que la medida de Peña es mejor que la distancia de Cook para detectar outliers y puntos de apalancamiento en conjuntos de datos grandes en los modelos de regresión semiparamétrica tales como el modelo de regresión lineal.

Palabras clave: distancia de Cook, outliers, puntos de apalancamiento, medida de Peña, regresión semiparamétrica.


Texto completo disponible en PDF


References

1. Cook, R. (1977), 'Detection of influential observations in linear regression', Technometrics 19, 15-18.

2. Kim, C. (1996), 'Cook's distance in spline smoothing', Statistics and Probability Letters 31, 139-144.

3. Kim, C. & Kim, W. (1998), 'Some diagnostics results in nonparametric density estimation', Communications in Statistics - Theory and Methods 27, 291-303.

4. Kim, C., Park, B. & Kim, W. (2001), 'Cook's distance in local polynomial regression', Statistics & Probability Letters 54, 33-40.

5. Kim, C., Park, B. & Kim, W. (2002), 'Influential diagnostics in semiparametric regression models', Statistics & Probability Letters 60, 49-58.

6. Pena, D. (2005), 'A new statistic for influence in linear regression', Technometrics 47, 1-12.

7. Speckman, P. (1988), 'Kernel smoothing in partial linear models', Journal of the Royal Statistical Society. Series B 50(3), 413-436.

8. Thomas, W. (1991), 'Influence diagnostics for the cross-validated smoothing parameter in spline smoothing', Journal of the American Statistical Association 86(415), 693-698.

9. Türkan, S. (2012), Analysis of influential observation in semiparametric regression model, Doctoral Thesis, Hacettepe University, Faculty of Science. Department of Statistics, Ankara.

10. Türkan, S. & Toktamis, Ö. (2012), 'Detection of influential observations in ridge regression and modified ridge regression', Model Assisted Statistics and Applications 7, 91-97.

11. Zhang, C., Mei, C. & Zhang, J. (2007), 'Influence diagnostics in partially varying-coefficient models', Acta Mathematicae Applicatae Sinica 23(4), 619-628.

12. Zhu, Z. & Wei, B. (2001), 'Influence analysis in semiparametric nonlinear regression models', Acta Mathematicae Applicatae Sinica 24(4), 568-581.


[Recibido en marzo de 2013. Aceptado en junio de 2013]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv36n2a06,
    AUTHOR  = {Türkan, Semra and Toktamis, Öniz},
    TITLE   = {{Detection of Influential Observations in Semiparametric Regression Model}},
    JOURNAL = {Revista Colombiana de Estadística},
    YEAR    = {2013},
    volume  = {36},
    number  = {2},
    pages   = {271-284}
}

References

Cook, R. (1977), ‘Detection of influential observations in linear regression’, Technometrics 19, 15–18.

Kim, C. (1996), ‘Cook’s distance in spline smoothing’, Statistics and Probability Letters 31, 139–144.

Kim, C. & Kim, W. (1998), ‘Some diagnostics results in nonparametric density estimation’, Communications in Statistics - Theory and Methods 27, 291–303.

Kim, C., Park, B. & Kim, W. (2001), ‘Cook’s distance in local polynomial regression’, Statistics & Probability Letters 54, 33–40.

Kim, C., Park, B. & Kim, W. (2002), ‘Influential diagnostics in semiparametric regression models’, Statistics & Probability Letters 60, 49–58.

Pena, D. (2005), ‘A new statistic for influence in linear regression’, Technometrics 47, 1–12.

Speckman, P. (1988), ‘Kernel smoothing in partial linear models’, Journal of the Royal Statistical Society. Series B 50(3), 413–436.

Thomas, W. (1991), ‘Influence diagnostics for the cross-validated smoothing parameter in spline smoothing’, Journal of the American Statistical Association 86(415), 693–698.

Türkan, S. (2012), Analysis of influential observation in semiparametric regression model, Doctoral Thesis, Hacettepe University, Faculty of Science. Department of Statistics, Ankara.

Türkan, S. and Toktamis, Ö. (2012), ‘Detection of influential observations in ridge regression and modified ridge regression’, Model Assisted Statistics and Applications 7, 91–97.

Zhang, C., Mei, C. & Zhang, J. (2007), ‘Influence diagnostics in partially varyingcoefficient models’, Acta Mathematicae Applicatae Sinica 23(4), 619–628.

Zhu, Z. & Wei, B. (2001), ‘Influence analysis in semiparametric nonlinear regression models’, Acta Mathematicae Applicatae Sinica 24(4), 568–581.

How to Cite

APA

Türkan, S. and Toktamis, Öniz. (2013). Detection of Influential Observations in Semiparametric Regression Model. Revista Colombiana de Estadística, 36(2), 271–284. https://revistas.unal.edu.co/index.php/estad/article/view/44348

ACM

[1]
Türkan, S. and Toktamis, Öniz 2013. Detection of Influential Observations in Semiparametric Regression Model. Revista Colombiana de Estadística. 36, 2 (Jul. 2013), 271–284.

ACS

(1)
Türkan, S.; Toktamis, Öniz. Detection of Influential Observations in Semiparametric Regression Model. Rev. colomb. estad. 2013, 36, 271-284.

ABNT

TÜRKAN, S.; TOKTAMIS, Öniz. Detection of Influential Observations in Semiparametric Regression Model. Revista Colombiana de Estadística, [S. l.], v. 36, n. 2, p. 271–284, 2013. Disponível em: https://revistas.unal.edu.co/index.php/estad/article/view/44348. Acesso em: 20 apr. 2024.

Chicago

Türkan, Semra, and Öniz Toktamis. 2013. “Detection of Influential Observations in Semiparametric Regression Model”. Revista Colombiana De Estadística 36 (2):271-84. https://revistas.unal.edu.co/index.php/estad/article/view/44348.

Harvard

Türkan, S. and Toktamis, Öniz (2013) “Detection of Influential Observations in Semiparametric Regression Model”, Revista Colombiana de Estadística, 36(2), pp. 271–284. Available at: https://revistas.unal.edu.co/index.php/estad/article/view/44348 (Accessed: 20 April 2024).

IEEE

[1]
S. Türkan and Öniz Toktamis, “Detection of Influential Observations in Semiparametric Regression Model”, Rev. colomb. estad., vol. 36, no. 2, pp. 271–284, Jul. 2013.

MLA

Türkan, S., and Öniz Toktamis. “Detection of Influential Observations in Semiparametric Regression Model”. Revista Colombiana de Estadística, vol. 36, no. 2, July 2013, pp. 271-84, https://revistas.unal.edu.co/index.php/estad/article/view/44348.

Turabian

Türkan, Semra, and Öniz Toktamis. “Detection of Influential Observations in Semiparametric Regression Model”. Revista Colombiana de Estadística 36, no. 2 (July 1, 2013): 271–284. Accessed April 20, 2024. https://revistas.unal.edu.co/index.php/estad/article/view/44348.

Vancouver

1.
Türkan S, Toktamis Öniz. Detection of Influential Observations in Semiparametric Regression Model. Rev. colomb. estad. [Internet]. 2013 Jul. 1 [cited 2024 Apr. 20];36(2):271-84. Available from: https://revistas.unal.edu.co/index.php/estad/article/view/44348

Download Citation

Article abstract page views

170

Downloads

Download data is not yet available.