SlideShare ist ein Scribd-Unternehmen logo
Generalized Linear Models With Random Effects
Unified Analysis Via Hlikelihood Chapman Hall
Crc Monographs On Statistics Applied Probability
Youngjo Lee download
https://ebookbell.com/product/generalized-linear-models-with-
random-effects-unified-analysis-via-hlikelihood-chapman-hall-crc-
monographs-on-statistics-applied-probability-youngjo-lee-2116730
Explore and download more ebooks at ebookbell.com
Here are some recommended products that we believe you will be
interested in. You can click the link to download.
Generalized Linear Models With Random Effects Unified Analysis Via
Hlikelihood Second Edition 2nd Ed Lee
https://ebookbell.com/product/generalized-linear-models-with-random-
effects-unified-analysis-via-hlikelihood-second-edition-2nd-ed-
lee-20717658
Generalized Linear Models With Applications In Engineering And The
Sciences Wiley Series In Probability And Statistics 2nd Raymond H
Myers
https://ebookbell.com/product/generalized-linear-models-with-
applications-in-engineering-and-the-sciences-wiley-series-in-
probability-and-statistics-2nd-raymond-h-myers-2519938
Generalized Linear Models With Examples In R Peter K Dunn Gordon K
Smyth
https://ebookbell.com/product/generalized-linear-models-with-examples-
in-r-peter-k-dunn-gordon-k-smyth-7250006
Data Analysis Using Hierarchical Generalized Linear Models With R 1st
Edition Lee
https://ebookbell.com/product/data-analysis-using-hierarchical-
generalized-linear-models-with-r-1st-edition-lee-55540290
Vector Generalized Linear And Additive Models With An Implementation
In R 1st Edition Thomas W Yee Auth
https://ebookbell.com/product/vector-generalized-linear-and-additive-
models-with-an-implementation-in-r-1st-edition-thomas-w-yee-
auth-5234060
Nonlife Insurance Pricing With Generalized Linear Models 1st Edition
Esbjrn Ohlsson
https://ebookbell.com/product/nonlife-insurance-pricing-with-
generalized-linear-models-1st-edition-esbjrn-ohlsson-1373380
Repeated Measures Design With Generalized Linear Mixed Models For
Randomized Controlled Trials 1st Edition Toshiro Tango
https://ebookbell.com/product/repeated-measures-design-with-
generalized-linear-mixed-models-for-randomized-controlled-trials-1st-
edition-toshiro-tango-6838676
Generalized Linear Models A Unified Approach Jeff Gill Michelle Torres
https://ebookbell.com/product/generalized-linear-models-a-unified-
approach-jeff-gill-michelle-torres-50006220
Generalized Linear Models For Categorical And Continuous Limited
Dependent Variables Michael Smithson
https://ebookbell.com/product/generalized-linear-models-for-
categorical-and-continuous-limited-dependent-variables-michael-
smithson-52688452
Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee
Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee
Generalized Linear
Models with
Random Effects
Unified Analysis via H-likelihood
Monographs on Statistics and Applied Probability 106
MONOGRAPHS ON STATISTICS AND APPLIED PROBABILITY
General Editors
V. Isham, N. Keiding, T. Louis, S. Murphy, R. L. Smith, and H. Tong
1 Stochastic Population Models in Ecology and Epidemiology M.S. Barlett (1960)
2 Queues D.R. Cox and W.L. Smith (1961)
3 Monte Carlo Methods J.M. Hammersley and D.C. Handscomb (1964)
4 The Statistical Analysis of Series of Events D.R. Cox and P.A.W. Lewis (1966)
5 Population Genetics W.J. Ewens (1969)
6 Probability, Statistics and Time M.S. Barlett (1975)
7 Statistical Inference S.D. Silvey (1975)
8 The Analysis of Contingency Tables B.S. Everitt (1977)
9 Multivariate Analysis in Behavioural Research A.E. Maxwell (1977)
10 Stochastic Abundance Models S. Engen (1978)
11 Some Basic Theory for Statistical Inference E.J.G. Pitman (1979)
12 Point Processes D.R. Cox and V. Isham (1980)
13 Identification of Outliers D.M. Hawkins (1980)
14 Optimal Design S.D. Silvey (1980)
15 Finite Mixture Distributions B.S. Everitt and D.J. Hand (1981)
16 Classification A.D. Gordon (1981)
17 Distribution-Free Statistical Methods, 2nd edition J.S. Maritz (1995)
18 Residuals and Influence in Regression R.D. Cook and S. Weisberg (1982)
19 Applications of Queueing Theory, 2nd edition G.F. Newell (1982)
20 Risk Theory, 3rd edition R.E. Beard, T. Pentikäinen and E. Pesonen (1984)
21 Analysis of Survival Data D.R. Cox and D. Oakes (1984)
22 An Introduction to Latent Variable Models B.S. Everitt (1984)
23 Bandit Problems D.A. Berry and B. Fristedt (1985)
24 Stochastic Modelling and Control M.H.A. Davis and R. Vinter (1985)
25 The Statistical Analysis of Composition Data J. Aitchison (1986)
26 Density Estimation for Statistics and Data Analysis B.W. Silverman (1986)
27 Regression Analysis with Applications G.B. Wetherill (1986)
28 Sequential Methods in Statistics, 3rd edition
G.B. Wetherill and K.D. Glazebrook (1986)
29 Tensor Methods in Statistics P. McCullagh (1987)
30 Transformation and Weighting in Regression
R.J. Carroll and D. Ruppert (1988)
31 Asymptotic Techniques for Use in Statistics
O.E. Bandorff-Nielsen and D.R. Cox (1989)
32 Analysis of Binary Data, 2nd edition D.R. Cox and E.J. Snell (1989)
33 Analysis of Infectious Disease Data N.G. Becker (1989)
34 Design and Analysis of Cross-Over Trials B. Jones and M.G. Kenward (1989)
35 Empirical Bayes Methods, 2nd edition J.S. Maritz and T. Lwin (1989)
36 Symmetric Multivariate and Related Distributions
K.T. Fang, S. Kotz and K.W. Ng (1990)
37 Generalized Linear Models, 2nd edition P. McCullagh and J.A. Nelder (1989)
38 Cyclic and Computer Generated Designs, 2nd edition
J.A. John and E.R. Williams (1995)
39 Analog Estimation Methods in Econometrics C.F. Manski (1988)
40 Subset Selection in Regression A.J. Miller (1990)
41 Analysis of Repeated Measures M.J. Crowder and D.J. Hand (1990)
42 Statistical Reasoning with Imprecise Probabilities P. Walley (1991)
43 Generalized Additive Models T.J. Hastie and R.J. Tibshirani (1990)
44 Inspection Errors for Attributes in Quality Control
N.L. Johnson, S. Kotz and X. Wu (1991)
45 The Analysis of Contingency Tables, 2nd edition B.S. Everitt (1992)
46 The Analysis of Quantal Response Data B.J.T. Morgan (1992)
47 Longitudinal Data with Serial Correlation—A State-Space Approach
R.H. Jones (1993)
48 Differential Geometry and Statistics M.K. Murray and J.W. Rice (1993)
49 Markov Models and Optimization M.H.A. Davis (1993)
50 Networks and Chaos—Statistical and Probabilistic Aspects
O.E. Barndorff-Nielsen, J.L. Jensen and W.S. Kendall (1993)
51 Number-Theoretic Methods in Statistics K.-T. Fang and Y. Wang (1994)
52 Inference and Asymptotics O.E. Barndorff-Nielsen and D.R. Cox (1994)
53 Practical Risk Theory for Actuaries
C.D. Daykin, T. Pentikäinen and M. Pesonen (1994)
54 Biplots J.C. Gower and D.J. Hand (1996)
55 Predictive Inference—An Introduction S. Geisser (1993)
56 Model-Free Curve Estimation M.E. Tarter and M.D. Lock (1993)
57 An Introduction to the Bootstrap B. Efron and R.J. Tibshirani (1993)
58 Nonparametric Regression and Generalized Linear Models
P.J. Green and B.W. Silverman (1994)
59 Multidimensional Scaling T.F. Cox and M.A.A. Cox (1994)
60 Kernel Smoothing M.P. Wand and M.C. Jones (1995)
61 Statistics for Long Memory Processes J. Beran (1995)
62 Nonlinear Models for Repeated Measurement Data
M. Davidian and D.M. Giltinan (1995)
63 Measurement Error in Nonlinear Models
R.J. Carroll, D. Rupert and L.A. Stefanski (1995)
64 Analyzing and Modeling Rank Data J.J. Marden (1995)
65 Time Series Models—In Econometrics, Finance and Other Fields
D.R. Cox, D.V. Hinkley and O.E. Barndorff-Nielsen (1996)
66 Local Polynomial Modeling and its Applications J. Fan and I. Gijbels (1996)
67 Multivariate Dependencies—Models, Analysis and Interpretation
D.R. Cox and N. Wermuth (1996)
68 Statistical Inference—Based on the Likelihood A. Azzalini (1996)
69 Bayes and Empirical Bayes Methods for Data Analysis
B.P. Carlin and T.A Louis (1996)
70 Hidden Markov and Other Models for Discrete-Valued Time Series
I.L. Macdonald and W. Zucchini (1997)
71 Statistical Evidence—A Likelihood Paradigm R. Royall (1997)
72 Analysis of Incomplete Multivariate Data J.L. Schafer (1997)
73 Multivariate Models and Dependence Concepts H. Joe (1997)
74 Theory of Sample Surveys M.E. Thompson (1997)
75 Retrial Queues G. Falin and J.G.C. Templeton (1997)
76 Theory of Dispersion Models B. Jørgensen (1997)
77 Mixed Poisson Processes J. Grandell (1997)
78 Variance Components Estimation—Mixed Models, Methodologies and Applications
P.S.R.S. Rao (1997)
79 Bayesian Methods for Finite Population Sampling
G. Meeden and M. Ghosh (1997)
80 Stochastic Geometry—Likelihood and computation
O.E. Barndorff-Nielsen, W.S. Kendall and M.N.M. van Lieshout (1998)
81 Computer-Assisted Analysis of Mixtures and Applications—
Meta-analysis, Disease Mapping and Others D. Böhning (1999)
82 Classification, 2nd edition A.D. Gordon (1999)
83 Semimartingales and their Statistical Inference B.L.S. Prakasa Rao (1999)
84 Statistical Aspects of BSE and vCJD—Models for Epidemics
C.A. Donnelly and N.M. Ferguson (1999)
85 Set-Indexed Martingales G. Ivanoff and E. Merzbach (2000)
86 The Theory of the Design of Experiments D.R. Cox and N. Reid (2000)
87 Complex Stochastic Systems
O.E. Barndorff-Nielsen, D.R. Cox and C. Klüppelberg (2001)
88 Multidimensional Scaling, 2nd edition T.F. Cox and M.A.A. Cox (2001)
89 Algebraic Statistics—Computational Commutative Algebra in Statistics
G. Pistone, E. Riccomagno and H.P. Wynn (2001)
90 Analysis of Time Series Structure—SSA and Related Techniques
N. Golyandina, V. Nekrutkin and A.A. Zhigljavsky (2001)
91 Subjective Probability Models for Lifetimes
Fabio Spizzichino (2001)
92 Empirical Likelihood Art B. Owen (2001)
93 Statistics in the 21st Century
Adrian E. Raftery, Martin A. Tanner, and Martin T. Wells (2001)
94 Accelerated Life Models: Modeling and Statistical Analysis
Vilijandas Bagdonavicius and Mikhail Nikulin (2001)
95 Subset Selection in Regression, Second Edition Alan Miller (2002)
96 Topics in Modelling of Clustered Data
Marc Aerts, Helena Geys, Geert Molenberghs, and Louise M. Ryan (2002)
97 Components of Variance D.R. Cox and P.J. Solomon (2002)
98 Design and Analysis of Cross-Over Trials, 2nd Edition
Byron Jones and Michael G. Kenward (2003)
99 Extreme Values in Finance, Telecommunications, and the Environment
Bärbel Finkenstädt and Holger Rootzén (2003)
100 Statistical Inference and Simulation for Spatial Point Processes
Jesper Møller and Rasmus Plenge Waagepetersen (2004)
101 Hierarchical Modeling and Analysis for Spatial Data
Sudipto Banerjee, Bradley P. Carlin, and Alan E. Gelfand (2004)
102 Diagnostic Checks in Time Series Wai Keung Li (2004)
103 Stereology for Statisticians Adrian Baddeley and Eva B. Vedel Jensen (2004)
104 Gaussian Markov Random Fields: Theory and Applications
Håvard Rue and Leonhard Held (2005)
105 Measurement Error in Nonlinear Models: A Modern Perspective, Second Edition
Raymond J. Carroll, David Ruppert, Leonard A. Stefanski,
and Ciprian M. Crainiceanu (2006)
106 Generalized Linear Models with Random Effects: Unified Analysis via H-likelihood
Youngjo Lee, John A. Nelder, and Yudi Pawitan (2006)
Generalized Linear
Models with
Random Effects
Youngjo Lee
Department of Statistics
Seoul National University, Seoul
John A. Nelder FRS
Department of Mathematics
Imperial College, London
Yudi Pawitan
Department of Medical Epidemiology and Biostatistics
Karolinska Institutet, Stockholm
Unified Analysis via H-likelihood
Monographs on Statistics and Applied Probability 106
Boca Raton London New York
Chapman & Hall/CRC is an imprint of the
Taylor & Francis Group, an informa business
Chapman & Hall/CRC
Taylor & Francis Group
6000 Broken Sound Parkway NW, Suite 300
Boca Raton, FL 33487-2742
© 2006 by Taylor and Francis Group, LLC
Chapman & Hall/CRC is an imprint of Taylor & Francis Group, an Informa business
No claim to original U.S. Government works
Printed in the United States of America on acid-free paper
10 9 8 7 6 5 4 3 2 1
International Standard Book Number-10: 1-58488-631-5 (Hardcover)
International Standard Book Number-13: 978-1-58488-631-0 (Hardcover)
This book contains information obtained from authentic and highly regarded sources. Reprinted
material is quoted with permission, and sources are indicated. A wide variety of references are
listed. Reasonable efforts have been made to publish reliable data and information, but the author
and the publisher cannot assume responsibility for the validity of all materials or for the conse-
quences of their use.
No part of this book may be reprinted, reproduced, transmitted, or utilized in any form by any
electronic, mechanical, or other means, now known or hereafter invented, including photocopying,
microfilming, and recording, or in any information storage or retrieval system, without written
permission from the publishers.
For permission to photocopy or use material electronically from this work, please access www.
copyright.com (http://www.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC)
222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization that
provides licenses and registration for a variety of users. For organizations that have been granted a
photocopy license by the CCC, a separate system of payment has been arranged.
Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and
are used only for identification and explanation without intent to infringe.
Visit the Taylor & Francis Web site at
http://www.taylorandfrancis.com
and the CRC Press Web site at
http://www.crcpress.com
Contents
List of notations
Preface
Introduction 1
1 Classical likelihood theory 5
1.1 Definition 5
1.2 Quantities derived from the likelihood 10
1.3 Profile likelihood 14
1.4 Distribution of the likelihood-ratio statistic 16
1.5 Distribution of the MLE and the Wald statistic 20
1.6 Model selection 24
1.7 Marginal and conditional likelihoods 25
1.8 Higher-order approximations 30
1.9 Adjusted profile likelihood 32
1.10 Bayesian and likelihood methods 34
1.11 Jacobian in likelihood methods 36
2 Generalized Linear Models 37
2.1 Linear models 37
2.2 Generalized linear models 42
2.3 Model checking 49
2.4 Examples 53
CONTENTS
3 Quasi-likelihood 65
3.1 Examples 68
3.2 Iterative weighted least squares 72
3.3 Asymptotic inference 73
3.4 Dispersion models 77
3.5 Extended quasi-likelihood 80
3.6 Joint GLM of mean and dispersion 85
3.7 Joint GLMs for quality improvement 90
4 Extended Likelihood Inferences 97
4.1 Two kinds of likelihood 98
4.2 Inference about the fixed parameters 103
4.3 Inference about the random parameters 105
4.4 Optimality in random-parameter estimation 108
4.5 Canonical scale, h-likelihood and joint inference 112
4.6 Statistical prediction 119
4.7 Regression as an extended model 121
4.8 
Missing or incomplete-data problems 122
4.9 Is marginal likelihood enough for inference about fixed
parameters? 130
4.10 Summary: likelihoods in extended framework 131
5 Normal linear mixed models 135
5.1 Developments of normal mixed linear models 138
5.2 Likelihood estimation of fixed parameters 141
5.3 Classical estimation of random effects 146
5.4 H-likelihood approach 155
5.5 Example 163
5.6 Invariance and likelihood inference 166
CONTENTS
6 Hierarchical GLMs 173
6.1 HGLMs 173
6.2 H-likelihood 175
6.3 Inferential procedures using h-likelihood 183
6.4 Penalized quasi-likelihood 189
6.5 Deviances in HGLMs 192
6.6 Examples 194
6.7 Choice of random-effect scale 199
7 HGLMs with structured dispersion 203
7.1 HGLMs with structured dispersion 203
7.2 Quasi-HGLMs 205
7.3 Examples 213
8 Correlated random effects for HGLMs 231
8.1 HGLMs with correlated random effects 231
8.2 Random effects described by fixed L matrices 233
8.3 Random effects described by a covariance matrix 235
8.4 Random effects described by a precision matrix 236
8.5 Fitting and model-checking 237
8.6 Examples 238
8.7 Twin and family data 251
8.8 
Ascertainment problem 264
9 Smoothing 267
9.1 Spline models 267
9.2 Mixed model framework 273
9.3 Automatic smoothing 278
9.4 Non-Gaussian smoothing 281
CONTENTS
10 Random-effect models for survival data 293
10.1 Proportional-hazard model 293
10.2 Frailty models and the associated h-likelihood 295
10.3 ∗
Mixed linear models with censoring 307
10.4 Extensions 313
10.5 Proofs 315
11 Double HGLMs 319
11.1 DHGLMs 319
11.2 Models for finance data 323
11.3 Joint splines 324
11.4 H-likelihood procedure for fitting DHGLMs 325
11.5 Random effects in the λ component 328
11.6 Examples 330
12 Further topics 343
12.1 Model for multivariate responses 344
12.2 Joint model for continuous and binary data 345
12.3 Joint model for repeated measures and survival time 348
12.4 Missing data in longitudinal studies 351
12.5 Denoising signals by imputation 357
References 363
Data Index 380
Author Index 381
Subject Index 385
List of notations
fθ(y) probability density function of outcome y, indexed by
parameter θ, including both discrete and continuous models.
For convenience, the argument determines the function;
for example, fθ(x), fθ(y) or fθ(y|x) might refer to different
densities. This convention applies also to likelihood functions.
H(β, v; y, v) h-likelihood of (β, v) based on data (y, v). When the data
are obvious from the context, it is written as H(β, v);
this convention applies also to other likelihoods.
h(β, v; y, v) h-loglihood (log-likelihood) of (β, v) based on data (y, v).
I(θ) Fisher information.
I(
θ) observed Fisher information.
I(θ) expected Fisher information.
L(θ; y) likelihood of θ based on data y.
(θ; y) log-likelihood (loglihood) of θ based on data y.
pη() adjusted profile of a generic loglihood , after eliminating
a generic nuisance parameter η.
q(μ; y) quasi-likelihood of model μ, based on data y.
S(θ) score statistic.
Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee
Preface
The class of generalized linear models has proved a useful generalization
of classical normal models since its introduction in 1972. Three compo-
nents characterize all members of the class: (1) the error distribution,
which is assumed to come from a one-parameter exponential family; (2)
the linear predictor, which describes the pattern of the systematic effects;
and (3) the algorithm, iterative weighted least squares, which gives the
maximum-likelihood estimates of those effects.
In this book the class is greatly extended, while at the same time re-
taining as much of the simplicity of the original as possible. First, to
the fixed effects may be added one or more sets of random effects on
the same linear scale; secondly GLMs may be fitted simultaneously to
both mean and dispersion; thirdly the random effects may themselves
be correlated, allowing the expression of models for both temporal and
spatial correlation; lastly random effects may appear in the model for
the dispersion as well as that for the mean.
To allow likelihood-based inferences for the new model class, the idea of
h-likelihood is introduced as a criterion to be maximized. This allows a
single algorithm, expressed as a set of interlinked GLMs, to be used for
fitting all members of the class. The algorithm does not require the use
of quadrature in the fitting, and neither are prior probabilities required.
The result is that the algorithm is orders of magnitude faster than some
existing alternatives.
The book will be useful to statisticians and researchers in a wide variety
of fields. These include quality-improvement experiments, combination
of information from many trials (meta-analysis), frailty models in sur-
vival analysis, missing-data analysis, analysis of longitudinal data, anal-
ysis of spatial data on infection etc., and analysis of financial data using
random effects in the dispersion. The theory, which requires competence
in matrix theory and knowledge of elementary probability and likelihood
theory, is illustrated by worked examples and many of these can be run
by the reader using the code supplied on the accompanying CD. The
flexibility of the code makes it easy for the user to try out alternative
PREFACE
analyses for him/herself. We hope that the development will be found
to be self-contained, within the constraint of monograph length.
Youngjo Lee, John Nelder and Yudi Pawitan
Seoul, London and Stockholm
Introduction
We aim to build an extensive class of statistical models by combining
a small number of basic statistical ideas in diverse ways. Although we
use (a very small part of) mathematics as our basic tool to describe
the statistics, our aim is not primarily to develop theorems and proofs
of theorems, but rather to provide the statistician with statistical tools
for dealing with inferences from a wide range of data, which may be
structured in many different ways. We develop an extended likelihood
framework, derived from classical likelihood, which is itself described in
Chapter 1.
The starting point in our development of the model class is the idea of
a generalized linear model (GLM). The original paper is by Nelder and
Wedderburn (1972), and a more extensive treatment is given by McCul-
lagh and Nelder (1989). An account of GLMs in summary form appears
in Chapter 2. The algorithm for fitting GLMs is iterative weighted least
squares, and this forms the basis of fitting algorithms for our entire class,
in that these can be reduced to fitting a set of interconnected GLMs.
Two important extensions of GLMs, discussed in Chapter 3, involve the
ideas of quasi-likelihood (QL) and extended quasi-likelihood (EQL). QL
dates from Wedderburn (1974), and EQL from Nelder and Pregibon
(1987). QL extends the scope of GLMs to errors defined by their mean
and variance function only, while EQL forms the pivotal quantity for the
joint modelling of mean and dispersion; such models can be fitted with
two interlinked GLMs (see Lee and Nelder (1998)).
Chapter 4 discusses the idea of h-likelihood, introduced by Lee and
Nelder (1996), as an extension of Fisher likelihood to models of the
GLM type with additional random effects in the linear predictor. This
extension has led to considerable discussion, including the production of
alleged counterexamples, all of which we have been able to refute. Exten-
sive simulation has shown that the use of h-likelihood and its derivatives
gives good estimates of fixed effects, random effects and dispersion com-
ponents. Important features of algorithms using h-likelihood for fitting is
that quadrature is not required and again a reduction to interconnected
1
2 INTRODUCTION
GLMs suffices to fit the models. Methods requiring quadrature cannot
be used for high-dimensional integration. In the last decades we have
witnessed the emergence of several computational methods to overcome
this difficulty, for examples Monte Carlo-type and/or EM-type methods
to compute the ML estimators for extended class of models. It is now
possible to compute them directly with h-likelihood without resorting to
these computationally intensive methods. The method does not require
the use of prior probabilities
Normal models with additional (normal) random effects are dealt with in
Chapter 5. We compare marginal likelihood with h-likelihood for fitting
the fixed effects, and show how REML can be described as maximizing
an adjusted profile likelihood.
In Chapter 6 we bring together the GLM formulation with additional
random effects in the linear predictor to form HGLMs. Special cases
include GLMMs, where the random effects are assumed normal, and
conjugate HGLMs, where the random effects are assumed to follow the
conjugate distribution to that of the response variable. An adjusted pro-
file h-likelihood gives a generalization of REML to non-normal GLMs.
HGLMs can be further extended by allowing the dispersion parameter
of the response to have a structure defined by its own set of covari-
ates. This brings together the HGLM class with the joint modelling of
mean and dispersion described in Chapter 3, and this synthesis forms
the basis of Chapter 7. HGLMs and conjugate distributions for arbi-
trary variance functions can be extended to quasi-likelihood HGLMs
and quasi-conjugate distributions, respectively.
Many models for spatial and temporal data require the observations to
be correlated. We show how these may be dealt with by transforming
linearly the random terms in the linear predictor. Covariance structures
may have no correlation parameters, or those derived from covariance
matrices or from precision matrices; correlations derived from the various
forms are illustrated in Chapter 8.
Chapter 9 deals with smoothing, whereby a parametric term in the linear
predictor may be replaced by a data-driven smooth curve called a spline.
It is well known that splines are isomorphic to certain random-effect
models, so that they fit easily into the HGLM framework.
In Chapter 10 we show how random-effect models can be extended to
survival data. We study two alternative models, namely frailty models
and normal-normal HGLMs for censored data. We also show how to
model interval-censored data. The h-likelihood provides useful inferences
for the analysis of survival data.
INTRODUCTION 3
Chapter 11 deals with a further extension to HGLMs, whereby the dis-
persion model, as well as the mean model, may have random effects in
its linear predictor. These are shown to be relevant to, and indeed to
extend, certain models proposed for the analysis of financial data. These
double HGLMs represent the furthest extension of our model class, and
the algorithm for fitting them still reduces to the fitting of interconnected
GLMs.
In the last Chapter, further synthesis is made by allowing multivariate
HGLMs. We show how missing mechanisms can be modelled as bivariate
HGLMs. Furthermore, h-likelihood allows a fast imputation to provide
a powerful algorithm for denoising signals.
Many other existing statistical models fall into the HGLM class. We
believe that many statistical areas covered by the classical likelihood
framework fall into our extended framework. The aim of this book is to
illustrate that extended framework for the analysis of various kinds of
data.
We are grateful to Dr. Ildo Ha and Dr. Maengseok Noh, Mr. Heejin Park,
Mr. Woojoo Lee, Mr. Sunmo Kang, Mr. Kunho Chang, Mr. Kwangho
Park and Ms. Minkyung Cho for their proof reading, editorial assistance
and comments, and also to an anonymous referee for numerous useful
comments and suggestions. We are especially grateful to Prof. Roger
Payne of VSN-International for the production of a new (much faster)
version of the algorithm for Genstat, and for the preparation of a version
to accompany this book.
Software
The DHGLM methodology was developed using the GenStat statistical
system. Anyone who has bought this book can obtain free use of GenStat
for a period of 12 months. Details, together with GenStat programs
and data files for many of the examples in this book, can be found at
http://hglm.genstat.co.uk/
Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee
CHAPTER 1
Classical likelihood theory
1.1 Definition
‘The problems of theoretical statistics,’ wrote Fisher in 1921, ‘fall into
two main classes:
a) To discover what quantities are required for the adequate descrip-
tion of a population, which involves the discussion of mathematical
expressions by which frequency distributions may be represented
b) To determine how much information, and of what kind, respecting
these population-values is afforded by a random sample, or a series of
random samples.’
It is clear that these two classes refer to statistical modelling and in-
ference. In the same paper, for the first time, Fisher coined the term
‘likelihood’ explicitly and contrasted it with ‘probability’, two “radically
distinct concepts [that] have been confused under the name of ‘proba-
bility’...”. Likelihood is a key concept in both modelling and inference,
and throughout this book we shall rely greatly on this concept. This
chapter summarizes all the classical likelihood concepts from Pawitan
(2001) that we shall need in this book; occasionally, for more details, we
refer the reader to that book.
Definition 1.1 Assuming a statistical model fθ(y) parameterized by a
fixed and unknown θ, the likelihood L(θ) is the probability of the observed
data y considered as a function of θ.
The generic data y include any set of observations we might get from an
experiment of any complexity, and the model fθ(y) should specify how
the data could have been generated probabilistically. For discrete data
the definition is directly applicable since the probability is nonzero. For
continuous data that are measured with good precision, the probabil-
ity of observing data in a small neighbourhood of y is approximately
equal to the density function times a small constant. We shall use the
5
6 CLASSICAL LIKELIHOOD THEORY
terms ‘probability’ or ‘probability density’ to cover both discrete and
continuous outcomes. So, with many straightforward measurements, the
likelihood is simply the probability density seen as a function of the
parameter.
The parameter θ in the definition is also a generic parameter that, in
principle, can be of any dimension. However, in this chapter we shall re-
strict θ to consist of fixed parameters only. The purpose of the likelihood
function is to convey information about unknown quantities. Its direct
use for inference is controversial, but the most commonly-used form of
inference today is based on quantities derived from the likelihood func-
tion and justified using probabilistic properties of those quantities.
If y1 and y2 are independent datasets with probabilities f1,θ(y1) and
f2,θ(y2) that share a common parameter θ, then the likelihood from the
combined data is
L(θ) = f1,θ(y1)f2,θ(y2)
= L1(θ)L2(θ), (1.1)
where L1(θ) and L2(θ) are the likelihoods from the individual datasets.
On a log scale this property is a simple additive property
(θ) ≡ log L(θ) = log L1(θ) + log L2(θ),
giving a very convenient formula for combining information from in-
dependent experiments. Since the term ‘log-likelihood’ occurs often we
shall shorten it to ‘loglihood’.
The simplest case occurs if y1 and y2 are an independent-and-identically-
distributed (iid) sample from the same density fθ(y), so
L(θ) = fθ(y1)fθ(y2),
or (θ) = log fθ(y1) + log fθ(y2). So, if y1, . . . , yn are an iid sample from
fθ(y) we have
L(θ) =

i=1
fθ(yi),
or (θ) =
n
i=1 log fθ(yi).
Example 1.1: Let y1, . . . , yn be an iid sample from N(θ, σ2
) with known
σ2
. The contribution of yi to the likelihood is
Li(θ) =
1
√
2πσ2
exp

−
(yi − θ)2
2σ2

,
DEFINITION 7
and the total loglihood is
(θ) =
n

i=1
log Li(θ)
= −
n
2
log(2πσ2
) −
1
2σ2
n

i=1
(yi − θ)2
. 2
Example 1.2: We observe the log-ratios of a certain protein expression from
n = 10 tissue samples compared to the reference sample:
-0.86 0.73 1.29 1.41 1.56 1.86 2.33 2.59 3.37 3.48.
The sample mean and standard deviations are 1.776 and 1.286, respectively.
Assume that the measurements are a random sample from N(θ, σ2
= s2
=
1.2862
= 1.65), where the variance is assumed known at the observed value.
Assuming all the data are observed with good precision, the normal density
is immediately applicable, and the likelihood of θ is given in the previous
example. This is plotted as the solid curve in Figure 1.1. Typically, in plotting
the function we set the maximum of the function to one.
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
μ
Likelihood
Figure 1.1 Likelihood of the mean from the normal model, assuming all the
data are observed (solid), assuming the data were reported in grouped form
(dashed), assuming only the sample size and the maximum was reported (dot-
ted), and assuming a single observation equal to the sample mean (dashed-
dotted).
Now, suppose the data were reported in grouped form as the number of values
that are ≤ 0, between 0 and 2, and  2, thus
n1 = 1, n2 = 5, n3 = 4.
8 CLASSICAL LIKELIHOOD THEORY
Let us still assume that the original data came from N(θ, σ2
= 1.65). The
distribution of the counts is multinomial with probabilities
p1 = Φ

0 − θ
σ
p2 = Φ

2 − θ
σ
− Φ

0 − θ
σ
p3 = 1 − p1 − p2
where Φ(z) is the standard normal distribution function, and the likelihood is
L(θ) =
n!
n1!n2!n3!
pn1
1 pn2
2 pn3
3 ,
shown as the dashed line in Figure 1.1. We can also consider this as the
likelihood of interval data. It is interesting to note that it is very close to the
likelihood of the original raw data, so there is only a little loss of information
in the grouped data about the mean parameter.
Now suppose that only the sample size n = 10 and the maximum y(10) = 3.48
were reported. What is the likelihood of θ based on the same model above?
Now, if y1, . . . , yn is an identically and independently distributed (iid) sample
from N(θ, σ2
), the distribution function of y(n) is
F(t) = P(Y(n) ≤ t)
= P(Yi ≤ t, for each i)
=

Φ

t − θ
σ
n
.
So, the likelihood based on observing y(n) is
L(θ) = fθ(y(n)) = n

Φ

t − θ
σ
n−1
φ

t − θ
σ
1
σ
Figure 1.1 shows this likelihood as a dotted line, showing more information is
lost compared to the categorical data above. However, the maximum carries
substantially more information than a single observation alone (assumed equal
to the sample mean and having variance σ2
), as shown by the dashed-dotted
line in the same figure.
1.1.1 Invariance principle and likelihood-ratio
Suppose y = g(x) is a one-to-one transformation of the observed data x;
if x is continuous, the likelihood based on y is
L(θ; y) = L(θ; x)
∂x
∂y
.
Obviously x and y should carry the same information about θ, so to
compare θ1 and θ2 only the likelihood ratio is relevant since it is invariant
DEFINITION 9
with respect to the transformation:
L(θ2; y)
L(θ1; y)
=
L(θ2; x)
L(θ1; x)
.
More formally, we might add that the ratio is maximal invariant, in the
sense that any function of L(θ1; y) and L(θ2; y) that is invariant under
different one-to-one transformations y = g(x) must be a function of the
likelihood ratio.
This means that proportional likelihoods are equivalent, i.e., carrying the
same information about the parameter, so, to make it unique, especially
for plotting, it is customary to normalize the likelihood function to have
unit maximum.
That the likelihood ratio should be the same for different transforma-
tions of the data seems like a perfectly natural requirement. It seems
reasonable also that the ratio should be the same for different trans-
formations of the parameter itself. For example, it should not matter
whether we analyse the dispersion parameter in terms of σ2
or σ, the
data should carry the same information, that is
L∗
(σ2
2; y)
L∗(σ2
1; y)
=
L(σ2; y)
L(σ1; y)
.
Since this requirement does not follow from any other principle, it should
be regarded as an axiom, which is implicitly accepted by all statisticians
except the so-called Bayesians. This axiom implies that in computing the
likelihood of a transformed parameter we cannot use a Jacobian term.
Hence, fundamentally, the likelihood cannot be treated like a probability
density function over the parameter space and it does not obey proba-
bility laws; for example, it does not have to integrate to one.
Any mention of Bayesianism touches on deeply philosophical issues that
are beyond the scope of this book. Suffice it to say that the likelihood-
based approaches we take in this book are fundamentally non-Bayesian.
However, there are some computational similarities between likelihood
and Bayesian methods, and these are discussed in Section 1.10.
1.1.2 Likelihood principle
Why should we start with the likelihood? One of the earliest theoretical
results is that, given a statistical model fθ(y) and observation y from it,
the likelihood function is a minimal sufficient statistic (see, e.g., Pawitan,
2001, Chapter 3). Practically, this means that there is a corresponding
minimal set of statistics that would be needed to draw the likelihood
10 CLASSICAL LIKELIHOOD THEORY
function, so this set would be sufficient and any further data reduc-
tion would involve some loss of information about the parameter. In the
normal example above, for a given sample size and variance, knowing
the sample mean is sufficient to draw the likelihood based on the whole
sample, so the sample mean is minimally sufficient.
Birnbaum (1962) showed that a stronger statement is possible: any mea-
sure of evidence from an experiment depends on the data only through
the likelihood function. Such a result has been elevated into a principle,
the so-called ‘likelihood principle’, intuitively stating that the likelihood
contains all the evidence or information about θ in the data. Violation
of the principle, i.e., by basing an analysis on something other than the
likelihood, leads to a potential loss of information, or it can make the
analysis open to contradictions (see Pawitan, Chapter 7). This means
that in any statistical problem, whenever possible, it is always a good
idea to start with the likelihood function.
Another strong justification comes from optimality considerations: un-
der very general conditions, as the sample size increases, likelihood-based
estimates are usually the best possible estimates of the unknown param-
eters. In finite or small samples, the performance of a likelihood-based
method depends on the models, so that it is not possible to have a simple
general statement about optimality.
We note, however, that these nice properties hold only when the pre-
sumed model is correct. In practice, we have no guarantee that the model
is correct, so that any data analyst should fit a reasonable model and
then perform model checking.
1.2 Quantities derived from the likelihood
In most regular problems, where the loglihood function is reasonably
quadratic, its analysis can focus on the location of the maximum and
the curvature around it. Such an analysis requires only the first two
derivatives. Thus we define the score function S(θ) as the first derivative
of the loglihood:
S(θ) ≡
∂
∂θ
(θ),
and the maximum likelihood estimate (MLE) 
θ is the solution of the
score equation
S(θ) = 0.
QUANTITIES DERIVED FROM THE LIKELIHOOD 11
At the maximum, the second derivative of the loglihood is negative, so
we define the curvature at 
θ as I(
θ), where
I(θ) ≡ −
∂2
∂θ2
(θ).
A large curvature I(
θ) is associated with a tight or strong peak, intu-
itively indicating less uncertainty about θ. I(
θ) is called the observed
Fisher information. For distinction we call I(θ) the Fisher information.
Under some regularity conditions – mostly ensuring valid interchange of
derivative and integration operations – that hold for the models in this
book, the score function has interesting properties:
EθS(θ) = 0
varθS(θ) = EθI(θ) ≡ I(θ).
The latter quantity I(θ) is called the expected Fisher information. For
simple proofs of these results and a discussion of the difference between
observed and expected Fisher information, see Pawitan (2001, Chapter
8). To emphasize, we now have (at least) 3 distinct concepts: Fisher
information I(θ), observed Fisher information I(
θ) and expected Fisher
information I(θ). We could also have the mouthful ‘estimated expected
Fisher information’ I(
θ), which in general is different from the observed
Fisher information, but such a term is never used in practice.
Example 1.3: Let y1, . . . , yn be an iid sample from N(θ, σ2
). For the moment
assume that σ2
is known. Ignoring irrelevant constant terms
(θ) = −
1
2σ2
n

i=1
(yi − θ)2
,
so we immediately get
S(θ) =
∂
∂θ
log L(θ) =
1
σ2
n

i=1
(yi − θ).
Solving S(θ) = 0 produces 
θ = y as the MLE of θ. The second derivative of
the loglihood gives the observed Fisher information
I(
θ) =
n
σ2
.
Here var(
θ) = σ2
/n = I−1
(
θ), so larger information implies a smaller variance.
Furthermore, the standard error of 
θ is se(
θ) = σ/
√
n = I−1/2
(
θ). 2
Example 1.4: Many commonly-used distributions in statistical modelling
such as the normal, Poisson, binomial, and gamma distributions, etc. belong
to the so-called exponential family. It is an important family for its versatility,
12 CLASSICAL LIKELIHOOD THEORY
and many theoretical results hold for this family. A p-parameter exponential
family has a log-density
log fθ(y) =
p

i=1
θiti(y) − b(θ) + c(y),
where θ = (θ1, . . . , θp) and t1(y), . . . , tp(y) are known functions of y. The
parameters θi are called the canonical parameters; if these parameters comprise
p free parameters, the family is called a full exponential family. For most
models, the commonly-used parameterization will not be in canonical form.
For example, for the Poisson model with mean μ
log fθ(y) = y log μ − μ − log y!
so the canonical parameter is θ = log μ, and b(θ) = μ = exp(θ). The canonical
form often leads to simpler formulae. Since the moment-generating function is
m(η) = E exp(ηy) = exp{b(θ + η) − b(θ)},
an exponential family is characterized by the b() function.
From the moment generating function, we can immediately show an important
result about the relationship between the mean and variance of an exponential
family
μ ≡ Ey = b
(θ)
V (μ) ≡ var(y) = b
(θ).
This means that the mean-variance relationship determines the b() function
by a differential equation
V (b
(θ)) = b
(θ).
For example, for Poisson model V (μ) = μ, so b() must satisfy
b
(θ) = b
(θ),
giving b(θ) = exp(θ).
Suppose y1, . . . , yn comprise an independent sample, where yi comes from a
one-parameter exponential family with canonical parameter θi, t(yi) = yi and
having a common function b(). The joint density is also of exponential family
form
log fθ(y) =
n

i=1
{θiyi − b(θi) + c(yi)},
In regression problems the θis are a function of common structural parameter
β, i.e., θi ≡ θi(β), where the common parameter β is p-dimensional. Then the
score function for β is given by
S(β) =
n

i=1
∂θi
∂β
{yi − b
(θi)}
=
n

i=1
∂θi
∂β
(yi − μi)
QUANTITIES DERIVED FROM THE LIKELIHOOD 13
using the above result that μi = Eyi = b
(θi), and the Fisher information
matrix by
I(β) =
n

i=1
−
∂2
θi
∂β∂β
(yi − μi) + b
(θi)
∂θi
∂β
∂θi
∂β
. (1.2)
The expected Fisher information is
I(β) =
n

i=1
b
(θi)
∂θi
∂β
∂θi
∂β
.
In general I(β) = I(β), but equality occurs if the canonical parameter θi is a
linear function of β, since in this case the first term of I(β) in (1.2) becomes
zero. However, in general, since this first term has zero mean, as n gets large,
it tends to be much smaller than the second term. 2
1.2.1 Quadratic approximation of the loglihood
Using a second-order Taylor’s expansion around 
θ
(θ) ≈ log L(
θ) + S(
θ)(θ − 
θ) −
1
2
(θ − 
θ)t
I(
θ)(θ − 
θ)
we get
log
L(θ)
L(
θ)
≈ −
1
2
(θ − 
θ)t
I(
θ)(θ − 
θ),
providing a quadratic approximation of the normalized loglihood around

θ. We can judge the accuracy of the quadratic approximation by plotting
the true loglihood and the approximation together. In a loglihood plot,
we set the maximum of the loglihood to zero and check a range of θ such
that the loglihood is approximately between −4 and 0. In the normal
example above (Example 1.3) the quadratic approximation is exact:
log
L(θ)
L(
θ)
= −
1
2
(θ − 
θ)t
I(
θ)(θ − 
θ),
so a quadratic approximation of the loglihood corresponds to a normal
approximation for 
θ. We shall say the loglihood is regular if it is well
approximated by a quadratic.
The standard error of an estimate is defined as its estimated standard
deviation and it is used as a measure of precision. For scalar parameters,
the most common formula is
se = I−1/2
(
θ).
In the vector case, the standard error for each parameter is given by the
square-root of diagonal terms of the inverse Fisher information. If the
14 CLASSICAL LIKELIHOOD THEORY
likelihood function is not very quadratic, then the standard error is not
meaningful. In this case, a set of likelihood or confidence intervals is a
better supplement to the MLE.
1.3 Profile likelihood
While the definition of likelihood covers multiparameter models, the re-
sulting multidimensional likelihood function can be difficult to describe
or to communicate. Even when we are interested in several parameters,
it is always easier to describe one parameter at a time. The problem also
arises in cases where we may be interested in only a subset of the param-
eters. In the normal model, for example, we might be interested only in
the mean μ, while σ2
is a ‘nuisance’, being there only to make the model
able to adapt to data variability. A method is needed to ‘concentrate’
the likelihood on the parameter of interest by eliminating the nuisance
parameter.
Accounting for the extra uncertainty due to unknown nuisance param-
eters is an essential consideration, especially with small samples. So, a
naive plug-in method for the unknown nuisance parameter is often unsat-
isfactory. A likelihood approach to eliminating a nuisance parameter is
to replace it by its MLE at each fixed value of the parameter of interest.
The resulting likelihood is called the profile likelihood.
Let (θ, η) be the full parameter and θ the parameter of interest.
Definition 1.2 Given the joint likelihood L(θ, η) the profile likelihood
of θ is given by
L(θ) = max
η
L(θ, η),
where the maximization is performed at a fixed value of θ.
It should be emphasized that at fixed θ the MLE of η is generally a
function of θ, so we can also write
L(θ) = L(θ, 
ηθ).
The profile likelihood is then treated like the standard likelihood func-
tion.
The profile likelihood usually gives a reasonable likelihood for each com-
ponent parameter, especially if the number of nuisance parameters is
small relative to sample size. The main problem comes from the fact that
it is not a proper likelihood function, in the sense that it is not based on
a probability of some observed quantity. For example, the score statistic
PROFILE LIKELIHOOD 15
derived from the profile likelihood does not have the usual properties of
a score statistic, in that it often has nonzero mean and its variance does
not match the expected Fisher information. These problems typically
lead to biased estimation and over-precision of the standard errors. Ad-
justments to the profile likelihood needed to overcome these problems
are discussed in Section 1.9.
Example 1.5: Suppose y1, . . . , yn are an iid sample from N(μ, σ2
) with
both parameters unknown. The likelihood function of (μ, σ2
) is given by
L(μ, σ2
) =

1
√
2πσ2
n
exp −
1
2σ2

i
(yi − μ)2

.
A likelihood of μ without reference to σ2
is not an immediately meaningful
quantity, since it is very different at different values of σ2
. As an example,
suppose we observe
0.88 1.07 1.27 1.54 1.91 2.27 3.84 4.50 4.64 9.41.
The MLEs are 
μ = 3.13 and 
σ2
= 6.16. Figure 1.2(a) plots the contours of
the likelihood function at 90%, 70%, 50%, 30% and 10% cutoffs. There is a
need to plot the likelihood of each parameter individually: it is more difficult
to describe or report a multiparameter likelihood function, and usually we are
not interested in a simultaneous inference of μ and σ2
.
μ
σ
2
0 1 2 3 4 5 6
5
10
15
20
25
(a) Likelihood contour
0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
μ
Likelihood
(b) Likelihood of μ
Figure 1.2 (a) Likelihood function of (μ, σ2
). The contour lines are plotted at
90%, 70%, 50%, 30% and 10% cutoffs; (b) Profile likelihood of the mean μ
(solid), L(μ, σ2
= 
σ2
) (dashed), and L(μ, σ2
= 1) (dotted).
The profile likelihood function of μ is computed as follows. For fixed μ the
maximum likelihood estimate of σ2
is

σ2
μ =
1
n

i
(yi − μ)2
,
16 CLASSICAL LIKELIHOOD THEORY
so the profile likelihood of μ is
L(μ) = constant × (
σ2
μ)−n/2
.
This is not the same as
L(μ, σ2
= 
σ2
) = constant × exp −
1
2
σ2

i
(yi − μ)2

,
the slice of L(μ, σ2
) at σ2
= 
σ2
; this is known as an estimated likelihood.
These two likelihoods will be close if σ2
is well estimated, otherwise the profile
likelihood is to be preferred.
For the observed data L(μ) and L(μ, σ2
= 
σ2
) are plotted in Figure 1.2(b).
It is obvious that ignoring the unknown variability, e.g. by assuming σ2
= 1,
would give a wrong inference. So, in general, a nuisance parameter is needed
to allow for a better model, but it has to be eliminated properly in order to
concentrate the inference on the parameter of interest.
The profile likelihood of σ2
is given by
L(σ2
) = constant × (σ2
)−n/2
exp −
1
2σ2

i
(yi − y)2

= constant × (σ2
)−n/2
exp{−n
σ2
/(2σ2
)}. 2
1.4 Distribution of the likelihood-ratio statistic
Traditional inference on an unknown parameter θ relies on the distri-
bution theory of its estimate 
θ. A large-sample theory is needed in the
general case, but in the normal mean model, from Example 1.3 we have
log
L(θ)
L(
θ)
= −
n
2σ2
(y − θ)2
.
Now, we know y is N(θ, σ2
/n), so
n
σ2
(y − θ)2
∼ χ2
1,
or
W ≡ 2 log
L(
θ)
L(θ)
∼ χ2
1. (1.3)
W is called Wilks’s likelihood-ratio statistic. Its χ2
distribution is exact
in the normal mean model and approximate in general cases; see below.
This is the key distribution theory needed to calibrate the likelihood.
One of the most useful inferential quantities we can derive from the
likelihood function is an interval containing parameters with the largest
DISTRIBUTION OF THE LIKELIHOOD-RATIO STATISTIC 17
likelihoods:
θ;
L(θ)
L(
θ)
 c

,
which is the basis of likelihood-based confidence intervals. In view of
(1.3), for an unknown but fixed θ, the probability that the likelihood
interval covers θ is
P

L(θ)
L(
θ)
 c

= P

2 log
L(
θ)
L(θ)
 −2 log c

= P(χ2
1  −2 log c).
So, if for some 0  α  1 we choose a cutoff
c = e− 1
2 χ2
1,(1−α) , (1.4)
where χ2
1,(1−α) is the 100(1 − α) percentile of χ2
1, we have
P

L(θ)
L(
θ)
 c

= P(χ2
1  χ2
1,(1−α)) = 1 − α.
This means that by choosing c in (1.4) the likelihood interval
θ,
L(θ)
L(
θ)
 c

is a 100(1 − α)% confidence interval for θ.
In particular, for α = 0.05 and 0.01 formula (1.4) gives c = 0.15 and 0.04.
So, we arrive at the important conclusion that, in the normal mean case,
we get an exact 95% or 99% confidence interval for the mean by choos-
ing a cutoff of 15% or 4%, respectively. This same confidence-interval
interpretation is approximately true for reasonably regular problems.
1.4.1 Large-sample approximation theory
Using a second-order expansion around 
θ as before
L(θ) ≈ constant × exp

−
1
2
(θ − 
θ)t
I(
θ)(θ − 
θ)

,
which can be seen immediately as the likelihood based on a single ob-
servation 
θ taken from N(θ, I−1
(
θ)), so intuitively
W ≡ 2 log
L(
θ)
L(θ)
≈ (
θ − θ)t
I(
θ)(
θ − θ) ∼ χ2
p.
18 CLASSICAL LIKELIHOOD THEORY
A practical guide to judge the accuracy of the approximation is that the
likelihood is reasonably regular.
The distribution theory may be used to get an approximate P-value for
testing H0 : θ = θ0 versus H1 : θ = θ0. Specifically, on observing a
normalized likelihood
L(θ0)
L(
θ)
= r
we compute w = −2 log r, and
P-value = P(W ≥ w),
where W has a χ2
p distribution.
From the distribution theory we can also set an approximate 100(1−α)%
confidence region for θ as
CR = θ; 2 log
L(
θ)
L(θ)
 χ2
p,(1−α)

.
For example, an approximate 95% CI is
CI = θ; 2 log
L(
θ)
L(θ)
 3.84

= {θ; L(θ)  0.15 × L(
θ)}.
Such a confidence region is unlikely to be useful for p  2 because of
the display problem. The case of p = 2 is particularly simple, since the
100α% likelihood cutoff has an approximate 100(1−α)% confidence level.
This is true since
exp

−
1
2
χ2
p,(1−α)

= α,
so the contour {θ; L(θ) = αL(
θ)} defines an approximate 100(1 − α)%
confidence region.
If there are nuisance parameters, we use the profile likelihood method
to remove them. Let θ = (θ1, θ2) ∈ Rp
, where θ1 ∈ Rq
is the parameter
of interest and θ2 ∈ Rr
is the nuisance parameter, so p = q + r. Given
the likelihood L(θ1, θ2) we compute the profile likelihood as
L(θ1) ≡ max
θ2
L(θ1, θ2)
≡ L(θ1, 
θ2(θ1)),
where 
θ2(θ1) is the MLE of θ2 at a fixed value of θ1.
The theory (Pawitan, 2001, Chapter 9) indicates that we can treat L(θ1)
DISTRIBUTION OF THE LIKELIHOOD-RATIO STATISTIC 19
as if it were a true likelihood; in particular, the profile likelihood ratio
follows the usual asymptotic theory:
W = 2 log
L(
θ1)
L(θ1)
d
→ χ2
q = χ2
p−r. (1.5)
Here is another way of looking at the profile likelihood ratio from the
point of view of testing H0: θ1 = θ10. This is useful for dealing with
hypotheses that are not easily parameterized, for example, testing for
independence in a two-way table. By definition,
L(θ10) = max
θ2,θ1=θ10
L(θ1, θ2)
= max
H0
L(θ)
L(
θ1) = max
θ1
{max
θ2
L(θ1, θ2)}
= max
θ
L(θ).
Therefore,
W = 2 log

max L(θ), no restriction on θ
max L(θ), θ ∈ H0

.
A large value of W means H0 has a small likelihood, or there are other
values with higher support, so we should reject H0.
How large is ‘large’ will be determined by the sampling distribution of
W. We can interpret p and r as
p = dimension of the whole parameter space θ
= the total number of free parameters
= total degrees of freedom of the parameter space
r = dimension of the parameter space under H0
= the number of free parameters under H0
= degrees of freedom of the model under H0.
Hence the number of degrees of freedom in (1.5) is the change in the
dimension of the parameter space from the whole space to the one under
H0. For easy reference, the main result is stated as
Theorem 1.1 Assuming regularity conditions, under H0: θ1 = θ10
W = 2 log

max L(θ)
maxH0
L(θ)

→ χ2
p−r.
In some applications it is possible to get an exact distribution for W. For
20 CLASSICAL LIKELIHOOD THEORY
example, many normal-based classical tests, such as the t-test or F-test,
are exact likelihood-ratio tests.
Example 1.6: Let y1, . . . , yn be an iid sample from N(μ, σ2
) with σ2
un-
known and we are interested in testing H0: μ = μ0 versus H1: μ = μ0. Under
H0 the MLE of σ2
is

σ2
=
1
n

i
(yi − μ0)2
.
Up to a constant term,
max
H0
L(θ) ∝
1
n

i
(yi − μ0)2
−n/2
max L(θ) ∝
1
n

i
(yi − y)2
−n/2
and
W = n log

i(yi − μ0)2

i(yi − y)2
= n log

i(yi − y)2
+ n(y − μ0)2

i(yi − y)2
= n log

1 +
t2
n − 1
,
where t =
√
n(y − μ0)/s) and s2
is the sample variance. Now, W is mono-
tone increasing in t2
, so we reject H0 for large values of t2
or |t|. This is the
usual t-test. A critical value or a P-value can be determined from the tn−1-
distribution. 2
1.5 Distribution of the MLE and the Wald statistic
As defined before, let the expected Fisher information be
I(θ) = EθI(θ)
where the expected value is taken assuming θ is the true parameter. For
independent observations we can show that information is additive, so
for n iid observations we have
I(θ) = nI1(θ),
where I1(θ0) is the expected Fisher information from a single observa-
tion.
We first state the scalar case: Let y1, . . . , yn be an iid sample from fθ0
(y),
DISTRIBUTION OF THE MLE AND THE WALD STATISTIC 21
and assume that the MLE 
θ is consistent in the sense that
P(θ0 −  
θ  θ0 + ) → 1
for all  0 as n gets large. Then, under some regularity conditions,
√
n(
θ − θ0) → N(0, 1/I1(θ0)). (1.6)
For a complete list of standard ‘regularity conditions’ see Lehmann
(1983, Chapter 6). One important condition is that θ must not be a
boundary parameter; for example, the parameter θ in Uniform(0, θ) is a
boundary parameter, for which the likelihood cannot be regular.
We give only an outline of the proof: a linear approximation of the score
function S(θ) around θ0 gives
S(θ) ≈ S(θ0) − I(θ0)(θ − θ0)
and since S(
θ) = 0, we have
√
n(
θ − θ0) ≈ {I(θ0)/n}−1
S(θ0)/
√
n.
The result follows using the law of large numbers:
I(θ0)/n → I1(θ0)
and the central limit theorem (CLT):
S(θ0)/
√
n → N{0, I1(θ0)}.
We can then show that all the following are true:

I(θ0)(
θ − θ0) → N(0, 1)

I(θ0)(
θ − θ0) → N(0, 1)

I(
θ)(
θ − θ0) → N(0, 1)

I(
θ)(
θ − θ0) → N(0, 1).
These statements in fact hold more generally than (1.6) since, under sim-
ilar general conditions, they also apply for independent-but-nonidentical
outcomes, as long as the CLT holds for the score statistic. The last two
forms are the most practical, and informally we say

θ ∼ N(θ0, 1/I(
θ))

θ ∼ N(θ0, 1/I(
θ)).
In the full exponential family (Example 1.4) these two versions are iden-
tical. However, in more complex cases where I(
θ) = I(
θ), the use of I(
θ)
is preferable (Pawitan, 2001, Chapter 9).
22 CLASSICAL LIKELIHOOD THEORY
In the multiparameter case, the asymptotic distribution of the MLE 
θ
is given by the following equivalent results:
√
n(
θ − θ) → N(0, I1(θ)−1
)
I(θ)1/2
(
θ − θ) → N(0, Ip)
I(
θ)1/2
(
θ − θ) → N(0, Ip)
(
θ − θ)t
I(
θ)(
θ − θ) → χ2
p,
where Ip is an identity matrix of order p. In practice, we would use

θ ∼ N(θ, I(
θ)−1
).
The standard error of 
θi is given by the estimated standard deviation
se(
θi) =
√
Iii,
where Iii
is the ith diagonal term of I(
θ)−1
. A test of an individual
parameter H0 : θi = θi0 is given by the Wald statistic
zi =

θi − θi0
se(
θi)
,
whose null distribution is approximately standard normal.
Wald confidence interval
As stated previously the normal approximation is closely associated with
the quadratic approximation of the loglihood. In these regular cases
where the quadratic approximation works well and I(
θ) is meaningful,
we have
log
L(θ)
L(
θ)
≈ −
1
2
I(
θ)(θ − 
θ)2
so the likelihood interval {θ, L(θ)/L(
θ)  c} is approximately

θ ±

−2 log c × I(
θ)−1/2
.
In the normal mean model in Example 1.3 this is an exact CI with
confidence level
P(χ2
1  −2 log c).
For example,

θ ± 1.96 I(
θ)−1/2
is an exact 95% CI. The asymptotic theory justifies its use in nonnor-
mal cases as an approximate 95% CI. Comparing with likelihood-based
intervals, note the two levels of approximation to set up this interval:
DISTRIBUTION OF THE MLE AND THE WALD STATISTIC 23
the loglihood is approximated by a quadratic and the confidence level is
approximate.
What if the loglihood function is far from quadratic? See Figure 1.3.
From the likelihood point of view the Wald interval is deficient, since
it includes values with lower likelihood compared to values outside the
interval.
−1 0 1 2 3 4 5 6
0.0
0.2
0.4
0.6
0.8
1.0
θ
Likelihood
Figure 1.3 Poor quadratic approximation (dotted) of a likelihood function
(solid).
Wald intervals might be called MLE-based intervals. To be clear, confi-
dence intervals based on {θ, L(θ)/L(
θ)  c} will be called likelihood-
based confidence intervals. Wald intervals are always symmetric, but
likelihood-based intervals can be asymmetric. Computationally the Wald
interval is much easier to compute than the likelihood-based interval. If
the likelihood is regular the two intervals will be similar. However, if
they are not similar the likelihood-based CI is preferable.
One problem with the Wald interval is that it is not invariant with
respect to parameter transformation: if (θL, θU ) is the 95% CI for θ,
(g(θL), g(θU )) is not the 95% CI for g(θ), unless g() is linear. This means
Wald intervals works well only on one particular scale where the esti-
mate is most normally distributed. In contrast the likelihood-based CI
is transformation invariant, so it works similarly in any scale.
Example 1.7: Suppose y = 8 is a binomial sample with n = 10 and
probability θ. We can show graphically that the quadratic approximation is
poor. The standard error of 
θ is I(
θ)−1/2
= 1/
√
62.5 = 0.13, so the Wald 95%
CI is
0.8 ± 1.96/
√
62.5,
giving 0.55  θ  1.05, clearly inappropriate for a probability. For n = 100
24 CLASSICAL LIKELIHOOD THEORY
and y = 80, the standard error for 
θ is I(
θ)−1/2
= 1/
√
625 = 0.04. Here we
have a much better quadratic approximation, with the Wald 95% CI
0.8 ± 1.96/
√
625
or 0.72  θ  0.88, compared with 0.72  θ  0.87 from the exact likelihood. 2
1.6 Model selection
The simplest model-selection problem occurs when we are comparing
nested models. For example, suppose we want to compare two models
A: μ = β0 + β1x versus B: μ = β0. The models are nested in the sense
that B is a submodel of A. The problem is immediately recognizable as
a hypothesis testing problem of H0: β1 = 0, so many standard method-
ologies apply. This is the case with all nested comparisons.
A non-nested comparison is not so easy, since we cannot reduce it to
a standard hypothesis-testing problem. For example, to model positive
outcome data we might consider two competing models:
A: generalized linear model (GLM) with normal family and identity
link function with possible heteroscedastic errors.
B: GLM with gamma family and log-link function.
(These models are discussed in the next chapter, they are stated here
only for illustration of a model selection problem, so no specific under-
standing is expected.) In this case the usual parameters in the models
take the role of nuisance parameters in the model comparison.
We can imagine maximizing the likelihood over all potential models.
Suppose we want to compare K models fk(·, θk) for k = 1, . . . , K, given
data y1, . . . , yn, where θk is the parameter associated with model k.
The parameter dimension is allowed to vary between models, and the
interpretation of the parameter can be model dependent. Then
• find the best θk in each model via the standard maximum likelihood,
i.e. by choosing

θk = argmaxθ

i
log fk(yi, θk).
This is the likelihood profiling step.
• choose the model k that maximizes the log-likelihood
log L(
θk) ≡

i
log fk(yi, 
θk).
MARGINAL AND CONDITIONAL LIKELIHOODS 25
As a crucial difference with the comparison of nested models, here
all the constants in the density function must be kept. This can be
problematic when we use likelihood values reported by standard sta-
tistical software, since it is not always clear if they are based on the
full definition of the density, including all the constant terms.
We cannot naively compare the maximized log-likelihood log L(
θk) since
it is a biased quantity: the same data are used to compute 
θk by maximiz-
ing the likelihood. For example, we can always increase the maximized
likelihood by enlarging the parameter set, even though a model with
more parameters is not necessarily better. The Akaike information cri-
terion (AIC) formula tries to correct this bias by a simple adjustment
determined by the number of free parameters only. Thus
AIC(k) = −2

i
log fk(yi, 
θk) + 2p,
where p is the number of parameters, so the model with minimum AIC
is considered the best model. We can interpret the first term in AIC(k)
as a measure of data fit and the second as a penalty. If we are comparing
models with the same number of parameters then we need only compare
the maximized likelihood.
In summary, if we are comparing nested models we can always use the
standard likelihood ratio test and its associated probability-based infer-
ence. In non-nested comparisons, we use the AIC and will not attach
any probability-based assessment such as the p-value.
1.7 Marginal and conditional likelihoods
As a general method, consider a transformation of the data y to (v, w)
such that either the marginal distribution of v or the conditional distri-
bution of v given w depends only on the parameter of interest θ. Let the
total parameter be (θ, η). In the first case
L(θ, η) = fθ,η(v, w)
= fθ(v)fθ,η(w|v)
≡ L1(θ)L2(θ, η),
so the marginal likelihood of θ is defined as
L1(θ) = fθ(v).
In the second case
L(θ, η) = fθ(v|w)fθ,η(w)
≡ L1(θ)L2(θ, η),
26 CLASSICAL LIKELIHOOD THEORY
where the conditional likelihood is defined as
L1(θ) = fθ(v|w).
The question of which one is applicable has to be decided on a case-
by-case basis. If v and w are independent the two likelihood functions
coincide. Marginal or conditional likelihoods are useful if
• fθ(v) or fθ(v|w) are simpler than the original model fθ,η(y).
• Not much information is lost by ignoring L2(θ, η).
• The use of full likelihood is inconsistent.
Proving the second condition is often difficult, so it is usually argued
informally on an intuitive basis. If the last condition applies, the use
of marginal or conditional likelihood is essential. When available, these
likelihoods are true likelihoods in the sense that they correspond to a
probability of the observed data; this is their main advantage over profile
likelihood. However, it is not always obvious how to transform the data
to arrive at a model that is free of the nuisance parameter.
Example 1.8: Suppose yi1 and yi2 are an iid sample from N(μi, σ2
), for
i = 1, . . . , N, and they are all independent over index i; the parameter of
interest is σ2
. This matched-pair dataset is one example of highly stratified or
clustered data. The key feature here is that the number of nuisance parameters
N is of the same order as the number of observations 2N. To compute the
profile likelihood of σ2
, we first show that 
μi = yi. Using the residual sum of
squares SSE =

i

j(yij − yi)2
, the profile likelihood of σ2
is given by
log L(σ2
) = maxμ1,...,μN log L(μ1, . . . , μN , σ2
)
= −N log σ2
−
SSE
2σ2
and the MLE is

σ2
=
SSE
2N
.
It is clear that the SSE is σ2
χ2
N , so E
σ2
= σ2
/2 for any N.
To get an unbiased inference for σ2
, consider the following transformations:
vi = (yi1 − yi2)/
√
2
wi = (yi1 + yi2)/
√
2.
Clearly vis are iid N(0, σ2
), and wis are iid N(μi
√
2, σ2
). The likelihood of σ2
based on vis is a marginal likelihood, given by
Lv(σ2
) =

1
√
2πσ2
N
exp

−
1
2σ2
N

i=1
v2
i

.
MARGINAL AND CONDITIONAL LIKELIHOODS 27
Since vi and wi are independent, in this case it is also a conditional likelihood.
The MLE from the marginal likelihood is given by

σ2
=
1
N
N

i=1
v2
i =
SSE
N
,
which is now an unbiased and consistent estimator.
How much information is lost by ignoring the wi? The answer depends on
the structure of μi. It is clear that the maximum loss occurs if μi ≡ μ for all
i, since in this case we should have used 2N data points to estimate σ2
, so
there is 50% loss of information by conditioning. Hence we should expect that
if the variation between the μis is small relative to within-pair variation, an
unconditional analysis that assumes some structure on them should improve
on the conditional analysis.
Now suppose, for i = 1, . . . , n, yi1 is N(μi1, σ2
) and yi2 is N(μi2, σ2
), with σ2
known and these are all independent. In practice, these might be observations
from a study where two treatments are randomized within each pair. Assume
a common mean difference across the pairs, so that
μi1 = μi2 + θ.
Again, since vi is iid N(θ/
√
2, σ2
), the conditional or marginal inference based
on vi is free of the nuisance pair effects, and the conditional MLE of θ is

θ =
1
N
N

i=1
(yi1 − yi2).
The main implication of conditional analysis is that we are using only infor-
mation from within the pair. However, in this case, regardless of what values
μ1is take, 
θ is the same as the unconditional MLE of θ from the full data. This
means that, in contrast to the estimation of σ2
, in the estimation of the mean
difference θ, we incur no loss of information by conditioning. This normal-
theory result occurs in balanced cases, otherwise an unconditional analysis
may carry more information than the conditional analysis, a situation called
‘recovery of inter-block information’ (Yates, 1939); see also Section 5.1.
Note, however, that inference of θ requires knowledge of σ2
, and from the
previous argument, when σ2
is unknown, conditioning may lose information.
So, in a practical problem where σ2
is unknown, even in balanced cases, it is
possible to beat the conditional analysis by an unconditional analysis. 2
Example 1.9: Suppose that y1 and y2 are independent Poisson with means
μ1 and μ2, and we are interested in the ratio θ = μ2/μ1. The conditional
distribution of y2 given the sum y1 +y2 is binomial with parameters n = y1 +y2
and probability
π =
μ2
μ1 + μ2
=
θ
1 + θ
,
28 CLASSICAL LIKELIHOOD THEORY
which is free of nuisance parameters. Alternatively, we may write
π
1 − π
= θ,
so that it is clear the MLE of θ from the conditional model is y2/y1. This
result shows a connection between odd-ratios for the binomial and intensity
ratios for the Poisson that is useful for modelling of paired Poisson data.
Intuitively it seems that there will be little information in the sum n about
the ratio parameter; in fact, in this case there is no information loss. This
can be seen as follows: If we have a collection of paired Poisson data (yi1, yi2)
with mean (μi, θμi), then, conditionally, yi2 given the sum ni = yi1 + yi2 is
independent binomial with parameter (ni, π). So, conditioning has removed
the pair effects, and from the conditional model we get the MLEs

π =

i yi2

i ni

θ =

i yi2

i yi1
.
Now, assuming there are no pair effects so that μi ≡ μ, based on the same
dataset, unconditionally the MLE of θ is also 
θ =

i yi2/

i yi1. So, in con-
trast with the estimation of σ2
but similar to the estimation of mean difference
θ in Example 1.8 above, there is no loss of information by conditioning. This
can be extended to more than two Poisson means, where conditioning gives
the multinomial distribution. 2
Example 1.10: Suppose y1 is binomial B(n1, π1) and independently y2 is
B(n2, π2), say measuring the number of people with certain conditions. The
data are tabulated into a 2-by-2 table
Group 1 Group 2 total
present y1 y2 t
absent n1 − y1 n2 − y2 u
total n1 n2 n
As the parameter of interest, we consider the log odds-ratio θ defined by
θ = log
π1/(1 − π1)
π2/(1 − π2)
.
Now we make the following transformation: (y1, y2) to (y1, y1 + y2). The con-
ditional probability of Y1 = y1 given Y1 + Y2 = t is
P(Y1 = y1|Y1 + Y2 = t) =
P(Y1 = y1, Y1 + Y2 = t)
P(Y1 + Y2 = t)
.
The numerator is equal to

n1
y1

n2
t − y1
eθy1

π2
1 − π2
t
(1 − π1)n1
(1 − π1)n2
,
MARGINAL AND CONDITIONAL LIKELIHOODS 29
so that the conditional probability is
P(Y1 = y1|Y1 + Y2 = t) =

n1
y1

n2
t − y1
eθy1
t
s=0

n1
s

n2
t − s
eθs
,
which is free of any nuisance parameters. The common hypothesis of interest
H0: π1 = π2 is equivalent to H0: θ = 0, and it leads to the so-called Fisher’s
exact test with the hypergeometric null distribution.
If we have a collection of paired binomials (yi1, yi2) with parameters (ni1, πi1)
and (ni2, πi2) with a common odds ratio θ, a reasonable inference on θ can
be based on the conditional argument above. However, when there is no pair
effect, so that πi1 = π1, the situation is more complicated than in the Poisson
case of Example 1.9. We have no closed-form solutions here, and the condi-
tional and unconditional estimates of θ are no longer the same, indicating a
potential loss of information due to conditioning.
In the important special case of binary matched pairs, where ni1 = ni2 = 1,
it is possible to write more explicitly. The sum y1i + y2i = ti is either 0, 1 or
2, corresponding to paired outcomes (0,0), {(0,1) or (1,0)} and (1,1). If ti = 0
then both yi1 and yi2 are 0, and if ti = 2 then both yi1 and yi2 are 1. So in the
conditional analysis these concordant pairs do not contribute any information.
If ti = 1, then the likelihood contribution is determined by
p = P(yi1 = 1|yi1 + yi2 = 1) =
eθ
1 + eθ
or
log
p
1 − p
= θ, (1.7)
so that θ can be easily estimated from the discordant pairs only as the log-ratio
of the number of (1, 0) over (0, 1) pairs.
The matched-pair design allows general predictors xij, so that starting with
the model
log
P(yij = 1)
1 − P(yij = 1)
= xt
ijβ + vi
we can follow the previous derivation and get
pi = P(yi1 = 1|yi1 + yi2 = 1) =
e(xi1−xi2)t
β
1 + e(xi1−xi2)tβ
=
ext
i1β
ext
i1β
+ ext
i2β
or
log
pi
1 − pi
= (xi1 − xi2)t
β, (1.8)
so the conditioning gets rid of the pair effects vis. When θ is the only pa-
rameter as in model (1.7), Lindsay (1983) shows the conditional analysis is
asymptotically close to an unconditional analysis, meaning that there is no
30 CLASSICAL LIKELIHOOD THEORY
loss of information due to conditioning. However, this may not be true if there
are other covariates; see Kang et al. (2005). In particular, in model (1.8), the
conditional approach allows only covariates that vary within the pair (e.g. 2
treatments assigned within the pair), but there is a complete loss of informa-
tion on covariates that vary only between the pairs (e.g. age of a twin pair). 2
Example 1.11: In general, an exact conditional likelihood is available if
both the parameter of interest and the nuisance parameter are the canonical
parameters of an exponential family model; see Example 1.4. Suppose y is in
the (q + r)-parameter exponential family with log-density
log fθ,η(y) = θt
t1(y) + ηt
t2(y) − b(θ, η) + c(y),
where θ is a q-vector of parameters of interest, and η is an r-vector of nuisance
parameters. The marginal log-density of t1(y) is of the form
log fθ,η(t1) = θt
t1(y) − A(θ, η) + c1(t1, η),
which involves both θ and η. But the conditional density of t1 given t2 depends
only on θ, according to
log fθ(t1|t2) = θt
t1(y) − A1(θ, t2) + h1(t1, t2),
for some (potentially complicated) functions A1(·) and h1(·). An approxima-
tion to the conditional likelihood can be made using the adjusted profile like-
lihood given in Section 1.9.
However, even in the exponential family, parameters of interest can appear in
a form that cannot be isolated using conditioning or marginalizing. Let y1 and
y2 be independent exponential variates with mean η and θη respectively, and
suppose that the parameter of interest θ is the mean ratio. Here
log f(y1, y2) = − log θ − 2 log η − y1/η − y2/(θη).
The parameter of interest is not a canonical parameter, and the conditional
distribution of y2 given y1 is not free of η. An approximate conditional inference
using a adjusted profile likelihood is given in Section 1.9. 2
1.8 Higher-order approximations
Likelihood theory is an important route to many higher-order approxi-
mations in statistics. From the standard theory we have, approximately,

θ ∼ N{θ, I(
θ)−1
}
so that the approximate density of 
θ is
fθ(
θ) ≈ |I(
θ)/(2π)|1/2
exp

−(
θ − θ)t
I(
θ)(
θ − θ)/2

. (1.9)
HIGHER-ORDER APPROXIMATIONS 31
We have also shown the quadratic approximation
log
L(θ)
L(
θ)
≈ −(
θ − θ)t
I(
θ)(
θ − θ)/2,
so immediately we have another approximate density
fθ(
θ) ≈ |I(
θ)/(2π)|1/2 L(θ)
L(
θ)
. (1.10)
We shall refer to this as the likelihood-based p-formula, which turns out
to be much more accurate than the normal-based formula (1.9). Even
though we are using a likelihood ratio it should be understood that (1.10)
is a formula for a sampling density: θ is fixed and 
θ varies.
Example 1.12: Let y1, . . . , yn be an iid sample from N(θ, σ2
) with σ2
known.
Here we know that 
θ = y is N(θ, σ2
/n). To use formula (1.10) we need
log L(θ) = −
1
2σ2

i
(yi − y)2
+ n(y − θ)2

log L(
θ) = −
1
2σ2

i
(yi − y)2
I(
θ) = n/σ2
,
so
fθ(y) ≈ |2πσ2
|−n/2
exp

−
n
2σ2
(y − θ)2

,
exactly the density of the normal distribution N(θ, σ2
/n). 2
Example 1.13: Let y be Poisson with mean θ. The MLE of θ is 
θ = y, and
the Fisher information is I(
θ) = 1/
θ = 1/y. So, the p-formula (1.10) is
fθ(y) ≈ (2π)−1/2
(1/y)1/2 e−θ
θy
/y!
e−yyy/y!
=
e−θ
θy
(2πy)1/2e−yyy
,
so in effect we have approximated the Poisson probability by replacing y! with
its Stirling approximation. The approximation is excellent for y  3, but not
so good for y ≤ 3. Nelder and Pregibon (1987) suggested a simple modification
of the denominator to
(2π(y + 1/6))1/2
e−y
yy
,
which works remarkably well for all y ≥ 0. 2
The p-formula can be further improved by a generic normalizing constant
to make the density integrate to one. The formula
p∗
θ(
θ) = c(θ)|I(
θ)/(2π)|1/2 L(θ)
L(
θ)
(1.11)
32 CLASSICAL LIKELIHOOD THEORY
is called Barndorff-Nielsen’s (1983) p∗
-formula. As we should expect, in
many cases c(θ) is very nearly one; in fact, c(θ) ≈ 1 + B(θ)/n, where
B(θ) is bounded over n. If difficult to derive analytically, c(θ) can be
computed numerically. For likelihood approximations the p-formula is
more convenient.
1.9 Adjusted profile likelihood
In general problems, exact marginal or conditional likelihoods are often
unavailable. Even when theoretically available, the exact form may be
difficult to derive (see Example 1.11). It turns out that an approximate
marginal or conditional likelihood can be found by adjusting the ordi-
nary profile likelihood (Barndorff-Nielsen, 1983). We shall provide here
a heuristic derivation only.
First recall the likelihood-based p-formula from Section 1.8 that provides
an approximate density for 
θ:
fθ(
θ) ≈ |I(
θ)/(2π)|1/2 L(θ)
L(
θ)
.
In the multiparameter case, let (
θ, 
η) be the MLE of (θ, η); then we have
the approximate density
f(
θ, 
η) ≈ |I(
θ, 
η)/(2π)|1/2 L(θ, η)
L(
θ, 
η)
.
Let 
ηθ be the MLE of η at a fixed value of θ, and I(
ηθ) the corresponding
observed Fisher information. Given θ, the approximate density of 
ηθ is
f(
ηθ) = |I(
ηθ)/(2π)|1/2 L(θ, η)
L(θ, 
ηθ)
,
where L(θ, 
ηθ) is the profile likelihood of θ. So, the marginal density of

η is
f(
η) = f(
ηθ)
∂
ηθ
∂
η
≈ |I(
ηθ)/(2π)|1/2 L(θ, η)
L(θ, 
ηθ)
∂
ηθ
∂
η
. (1.12)
The conditional distribution of 
θ given 
η is
f(
θ|
η) =
f(
θ, 
η)
f(
η)
≈ |I(
ηθ)/(2π)|−1/2 L(θ, 
ηθ)
L(
θ, 
η)
∂
η
∂
ηθ
,
ADJUSTED PROFILE LIKELIHOOD 33
where we have used the p-formula on both the numerator and the de-
nominator. Hence, the approximate conditional loglihood of θ is
m(θ) = (θ, 
ηθ) −
1
2
log |I(
ηθ)/(2π)| + log
∂
η
∂
ηθ
. (1.13)
We can arrive at the same formula using a marginal distribution of 
θ.
Note here that the constant 2π is kept so that the formula is as close
as possible to log of a proper density function. It is especially impor-
tant when comparing non-nested models using the AIC, where all the
constants in the density must be kept in the likelihood computation
(Section 1.6). In certain models, such as the variance-component models
studied in later chapters, the constant 2π is also necessary even when
we want to compare likelihoods from nested models where the formula
does not allow simply setting certain parameter values to zero.
The quantity 1
2 log |I(
ηθ)/(2π)| can be interpreted as the information
concerning θ carried by 
ηθ in the ordinary profile likelihood. The Jaco-
bian term |∂
η/∂
ηθ| keeps the modified profile likelihood invariant with
respect to transformations of the nuisance parameter. In lucky situa-
tions we might have orthogonal parameters in the sense 
ηθ = 
η, implying
| ∂
η/∂
ηθ| = 1, so that the last term of (1.13) vanishes. Cox and Reid
(1987) showed that if θ is scalar it is possible to set the nuisance pa-
rameter η such that |∂
η/∂
ηθ| ≈ 1. We shall use their adjusted profile
likelihood formula heavily with the notation
pη(|θ) ≡ (θ, 
ηθ) −
1
2
log |I(
ηθ)/(2π)|, (1.14)
to emphasize that we are profiling the loglihood  over the nuisance pa-
rameter η. When obvious from the context, the parameter θ is dropped,
so the adjusted profile likelihood becomes pη(). In some models, for com-
putational convenience, we may use the expected Fisher information for
the adjustment term.
Example 1.14: Suppose the outcome vector y is normal with mean μ and
variance V , where
μ = Xβ
for a known design matrix X, and V ≡ V (θ). In practice θ will contain the
variance component parameters. The overall likelihood is
(β, θ) = −
1
2
log |2πV | −
1
2
(y − Xβ)t
V −1
(y − Xβ).
Given θ, the MLE of β is the generalized least-squares estimate

βθ = (Xt
V −1
X)−1
Xt
V −1
y,
and the profile likelihood of θ is
p(θ) = −
1
2
log |2πV | −
1
2
(y − X 
βθ)t
V −1
(y − X 
βθ).
34 CLASSICAL LIKELIHOOD THEORY
Here the observed and expected Fisher information are the same and given by
I(
βθ) = Xt
V −1
X.
We can check that
E

∂2
∂β∂θi
log L(β, θ)

= E

Xt
V −1 ∂V
∂θi
V −1
(Y − Xβ)

= 0
for any θi, so that β and θ are information orthogonal. Hence the adjusted
profile likelihood is
pβ(|θ) = p(θ) −
1
2
log |Xt
V −1
X/(2π)|. (1.15)
This matches exactly the so-called restricted maximum likelihood (REML),
derived by Patterson and Thompson (1971) and Harville (1974), using the
marginal distribution of the error term y − X 
βθ.
Since the adjustment term does not involve 
βθ, computationally we have an
interesting coincidence that the two-step estimation procedure of β and θ is
equivalent to a single-step joint optimization of an objective function
Q(β, θ) = −
1
2
log |2πV | −
1
2
(y − Xβ)t
V −1
(y − Xβ) −
1
2
log |Xt
V −1
X/(2π)|.
(1.16)
However, strictly speaking this function Q(β, θ) is no longer a loglihood func-
tion as it does not correspond to an exact log density or an approximation to
one. Furthermore, if the adjustment term for the profile likelihood (1.15) were
a function of 
βθ, then the joint optimization of Q(β, θ) is no longer equivalent
to the original two-step optimization involving the full likelihood and the ad-
justed profile likelihood. Thus, here when we refer to REML adjustment we
refer to the adjustment to the likelihood of the variance components given in
equation (1.15). 2
1.10 Bayesian and likelihood methods
We shall now describe very briefly the similarities and differences be-
tween the likelihood and Bayesian approaches. In Bayesian computations
we begin with a prior f(θ) and compute the posterior
f(θ|y) = constant × f(θ)f(y|θ)
= constant × f(θ)L(θ), (1.17)
where, to follow Bayesian thinking we use f(y|θ) ≡ fθ(y). Comparing
(1.17) with (1.1) we see that the Bayesian method achieves the same
effect as the likelihood method: it combines the information from the
prior and the current likelihood by a simple multiplication.
If we treat the prior f(θ) as a ‘prior likelihood’ then the posterior is
a combined likelihood. However, without putting much of the Bayesian
BAYESIAN AND LIKELIHOOD METHODS 35
philosophical and intellectual investment in the prior, if we know abso-
lutely nothing about θ prior to observing X = x, the prior likelihood is
always f(θ) ≡ 1, and the likelihood function then expresses the current
information on θ after observing y. As a corollary, if we knew anything
about θ prior to observing y, we should feel encouraged to include it in
the consideration. Using a uniform prior, the Bayesian posterior density
and the likelihood functions would be the same up to a constant term.
Note, however, that the likelihood is not a probability density function,
so it does not have to integrate to one, and there is no such thing as an
‘improper prior likelihood’.
Bayesians eliminate all unwanted parameters by integrating them out;
that is consistent with their view that parameters have regular density
functions. However, the likelihood function is not a probability density
function, and it does not obey probability laws (see Section 1.1), so in-
tegrating out a parameter in a likelihood function is not a meaningful
operation. It turns out, however, there is a close connection between the
Bayesian integrated likelihood and an adjusted profile likelihood (Sec-
tion 1.9).
For scalar parameters, the quadratic approximation
log
L(θ)
L(
θ)
≈ −
1
2
I(
θ)(θ − 
θ)2
implies

L(θ)dθ ≈ L(
θ)

e− 1
2 I(
θ)(θ−
θ)2
dθ (1.18)
= L(
θ)|I(
θ)/(2π)|−1/2
. (1.19)
This is known as Laplace’s integral approximation; it is highly accurate
if (θ) is well approximated by a quadratic. For a two-parameter model
with joint likelihood L(θ, η), we immediately have
Lint(θ) ≡

L(θ, η)dη ≈ L(θ, 
ηθ)|I(
ηθ)/(2π)|−1/2
,
and
int(θ) ≈ (θ, 
ηθ) −
1
2
log |I(
ηθ)/(2π)|, (1.20)
so the integrated likelihood is approximately the adjusted profile likeli-
hood in the case of orthogonal parameters (Cox and Reid, 1987).
Recent advances in Bayesian computation have generated many power-
ful methodologies such as Gibbs sampling or Markov-Chain Monte-Carlo
(MCMC) methods for computing posterior distributions. Similarities be-
tween likelihood and posterior densities mean that the same method-
ologies can be used to compute likelihood. However, from the classical
Other documents randomly have
different content
gutmeinende Dorfbevölkerung bäte, rasch abzuziehen, weil sonst
beide, Banditen wie Dörfler, verloren seien. Alle Wege wären gut
passierbar, das Wetter erträglich, es werde ein rasches Frühjahr
geben.
Von den Männern, die zu der Einsiedelei geschickt waren,
gehörten drei zu den engeren Freunden Wangs von den
Pochwerken. Es waren die erfahrensten, zuverlässigsten Männer.
Auf das erregte Bitten Wangs blieben sie fast einen halben Tag
gemeinsam in Ma-nohs Hütte.
Wang konnte sich schwer bezwingen. Er ging ratlos in einem
Durcheinander von Empfindungen an den niedrigen glühenden Herd,
über dem der Wassertopf an einem rohen, schlecht geschnittenen
Eichmast hing. Sein breites Gesicht schrumpfte unter der Hitze. Er
wandte sich und streifte mit den fliegenden Ärmeln die goldenen
Buddhas, die ihre bezaubernde, flimmernde, irisierende Miene
zuwandten dem stummen Ma-noh, der ihre Blicke aufzufangen
suchte, dem Wanderer Wang, den hockenden fünf Vagabunden, die
die Köpfe zusammensteckten, teeschlürfend die Nachbarorte
durchhechelten. Über und über waren sie bepackt mit zerlumpten
Kitteln, Tuchfässer, schwer bewegliche Fleischpakete.
Wang schwankte unter einer Aufwallung und einem unertragbaren
Sieden in der Brust die Stiege herunter, und seine schrägen
schmalen Augenschlitze kniffen sich zu, geblendet vom Weiß, das
entgegenprallte. Er stand am Rand der Bergstraße. Aus dem Flußtal
schleiften Nebelschlieren. Von einem drehenden Windstoß gerafft
zogen sie sich schlangenartig rasch hoch und pufften,
breitschleiernd, über Wang und die lange Bergstraße. Das Rauschen
der Schnellen klang unglaublich nah. Das Tal kochte kalt und war
verschüttet in den brodelnden Dunst. Muskellose weiche
Schneearme streckten sich herauf.
Sie berieten in der kaum mannshohen Hütte unter dem Felsen.
Ma-noh mit welkem spitzen Gesicht, im bunten Flickmantel und
aufgewundenen Zopf, höflich, leicht gnädig, im Inneren aufgebläht,
erwartungsvoll erregt. Wang, zwischen den andern am Herd, bog
den Rücken rund; seine Blicke wanderten von einem Augenpaar zum
andern.
Er fing an zu sprechen, die Hände auszustrecken, die Freunde zu
beschwören: „Die vier Alten haben die Reiter mitgenommen, und
man wird sie ins Gefängnis werfen und ihnen die Köpfe abschlagen.
Sie konnten nicht so schnell laufen wie ihr. Den Lahmen hab ich auf
meinem Rücken getragen, als wir vom Berg herunterliefen. Es wird
ihnen keiner glauben, wie elend wir sind und daß der Frost so
schlimm war. Der Lahme muß daran glauben, daß ihm ein
Bootsmann das Bein zerschlagen hat. Sein Unglück ist groß, man
wird ihn an einem ungünstigen Ort verscharren, sein Geist muß
betteln, wie im Leben hungern, frieren. Sein Bein war zu kurz und
die Soldaten hatten Pferde. Uns nimmt man alles. Wir sollen in den
leeren Bergen erfrieren, die Raben sind mit uns ausgezogen, keiner
konnte mehr leben, keine Karawane gab zu essen. Unsere armen
Brüder nimmt man uns. O, wir sind arm.“
So jammerte Wang-lun, blickte ihnen allen in die traurigen
gesenkten Gesichter und litt. Mit einmal kam die Angst wieder und
die Befremdung vor ihnen. Er wandte sich, schluckte an dem Kloß
hinter seinem Gaumen. Er preßte es gewaltsam herunter, hielt seine
eiskalten schwitzenden Hände über den Herd. Sie taten ihm nichts,
sie wollten nichts von ihm, es war nur ein Gerede gewesen, er wollte
sie gar nicht fragen. O, war das Leben schwer. Dazu blitzte es ihm
vor den Augen; bald schienen es von dem Herd verwehte Funken zu
sein, bald fuhr es so rasch und glatt zusammen, fünf Säbel und eine
kleine getünchte Mauer.
Ein breitschultriger alter Mann unter den abgesandten, ein Bauer,
dem sein Land mitsamt seiner Familie fortgeschwommen war,
veränderte seine entschlossene Miene nicht bei den zitternden
Worten Wangs: „Wir müssen unsere Brüder wieder holen. Wenn du
ihn in das Dorf getragen hast, Wang, mußt du ihn zurückbringen.
Hätten wir Pferde und Bogen wie die Soldaten, wäre nichts
geschehen. Der Unterpräfekt von Cha-tuo soll ein kluger Mann sein
aus Sze-chuan. Aber er ist zu feingebildet für uns in Nan-ku. Sag
selbst, Chu, Ma-noh, wir müssen mit unserer Sprache
herauskommen.“
„Der Unterpräfekt Liu von Cha-tuo,“ fiel ein jüngerer großer neben
ihm ein, auffallend helle Gesichtsfarbe, große scharfe Augen, „der ist
aus Sze-chuan gekommen, aber der klägliche Sü weiß, woher Liu
seine Täls genommen hat. Er hat sie nicht aus den kanonischen
Büchern herausgelesen, die Lieder des Schi-king sollen keine
Goldschnüre um den Hals tragen. Ich habe gehört von einer großen
Stadt Kwan-juan, als ich einmal über den Ta-pa-schan
herüberwanderte. Da kam in das Jamen des glanzvollen
Unterpräfekten ein Kurier vom Vizekönig von Sze-chuan; es sollten
neue Steuern für den Krieg mit dem und dem erhoben werden auf
das und das. Der klägliche Sü weiß die Antwort, die der glanzvolle
Liu an den erhabenen Vizekönig zurücksandte, weil er nämlich dem
heimwandernden Kurier einen Strick um die Beine legte, um ein paar
Käsch beim Betreten einer so großen Stadt zu besitzen. Liu, besorgt
um die Stadt, wie ein echter Vater, lehnte die Steuer ab für Kwan-
juan: „Die Stadt ist zu arm, die schwarzen Blattern grassieren, die
Reispreise unerschwinglich für den kleinen Mann.“ Aber als ich selber
nach zwei Tagen entzückt über solche Landesliebe in die glücklichen
Mauern eintrat, klebten schöne lange Zettel an jeder Wand mit dem
Stempel des glanzvollen Liu, in deutlicher würdevoller Sprache. Er
gab dem mächtigen Vizekönig zuerst das Wort: „Himmelssohn, Krieg
mit dem und dem.“ Und zum Schluß Steuern auf das und das, für
jeden eine Gabe, diese Gilde jene Gilde. Die guten Leute wußten auf
einmal, wie unbezahlbar bei ihnen in den Mauern alles war, das und
das und das. Sie waren sehr glücklich und priesen Liu, der sich um
die Hebung ihrer Stadt so wohl verdient machte, priesen seine Eltern
und Großeltern und zahlten drei Jahre die Likinabgaben für — Liu,
den weisen Unterpräfekten.“
Der hellfarbene Mann lachte wie berauscht. Ma sah ihn streng an;
Wang erkannte, daß Sü nicht zu halten war. Einer neben Wang stieß
seinen Nachbarn an, dessen Gesicht glühte von dem heißen Wasser,
flüsterte, er solle doch reden; das sei besser, als halblaut fluchen vor
den Fenstern anderer Leute.
Wang wurde von seinem Schmerz gefaßt und mit eisernen Händen
unter ein dickes dunkles Moor zum Ersticken gehalten. Er keuchte.
Das war alles falsch, was hier gesprochen wurde.
Während die zwei neben ihm verlegen gestikulierten und heftig
auf sich einsprachen, Sü prahlerisch eine neue Geschichte
schmetterte, fing Wang an zu klagen, Ma-noh neben sich auf den
Boden zu ziehen. Er redete hilflos schnappend, drehte den Kopf,
seine Lippen bebten: „Ma, bleib sitzen hier. Seid nicht aufgeregt,
liebe Brüder. Sü, du bist gut, es ist richtig, was du sagst. Ich will
euch ja nicht langweilen, aber mir fiel etwas ein, wie Sü erzählte von
dem Unterpräfekten aus Kwan-juan in Sze-chuan, der uns die vier
Armen hat rauben lassen. Wir wollen sie ihm gewiß nicht lassen,
liebe Kinder. Habt mich nicht im Verdacht, liebe Kinder, als ob ich das
tun wollte. Mir fiel nur ein von Schan-tung etwas, als ich in der Stadt
Tsi-nan-fu war, in dem großen Tsi-nan-fu und bei einem Bonzen
diente; er hieß Toh-tsin. Ihr werdet ihn nicht kennen, es war ein
guter Mann, der mich sehr geschützt hat. Da war mein Freund ein
Mann, den sie auch totgeschlagen haben. Ich will euch alles
erzählen von Su-koh, so hieß er. Ihr werdet mir glauben, daß ich
unsere armen Vier nicht dem Unterpräfekten lassen werde.
Nachdem mir das passiert ist in Tsi-nan-fu, und sie mir meinen
Freund Su-koh totgeschlagen haben. Er war ein Anhänger des
westlichen Gottes Allah, der seinen Anhängern vieles erfüllen soll.
Aber in Kan-suh fingen Unruhen an, als diese Leute plötzlich laut
beten wollten, und Su-kohs Neffe las zuerst aus einem alten Buch
laut vor, und sie haben ihn in Stücke geschlagen mit seiner Familie.
Dann haben sie nach meinem Freund in Tsi-nan-fu gesucht, er war
ein so würdiger ernster Mann, er hätte die höchsten Prüfungen
bestanden. Es kam, wie es will. Sie haben ihn wieder gefaßt, als ich
ihn schon herausgeholt hatte mit seinen beiden Söhnen. Er sagte,
sie dürften ihm nichts anhaben, er wolle schon auswandern, erst
müsse er seine Schulden bezahlen und sein Haus verkaufen und sein
Priester müsse ihm einen günstigen Tag angeben. Aber es gab ein
Trommeln. Eine Eidechse, ein weißer Tiger, ein dünnbeiniger Tou-
ssee gab ihm einen Stoß von hinten mit dem Degenknauf, neben
seinem Haus an einer kleinen getünchten Mauer. Dann haben sie ihn
eben, wie er sich umdrehte, mit fünf Säbeln totgeschlagen. Ihr müßt
nicht lachen, weil ich nichts dabei getan habe. Sein Geist, der eben
aus ihm geflogen war, muß in meine Leber gefahren sein, denn ich
war besessen die Tage darauf. Und dies ist mir in Tsi-nan-fu an
meinem eigenen Freunde passiert. Der Tou-ssee lebt nicht mehr, ihr
werdet es mir glauben. Aber es ist zum Weinen, um selbst über den
Nai-ho zu gehen: sie kommen immer wieder und nehmen etwas
weg. Sie geben keinen Frieden und keine Ruhe. Sie wollen mich und
euch und uns alle ausrotten und nicht leben lassen. Was wollen wir
machen, liebe Kinder? Ich, euer Freund Wang aus Hun-kang-tsun,
bin schon wie weich gerittenes Fleisch, wie stinkende Zeugmasse.
Ich kann nur weinen und jammern.“ Wang hatte die Haltung eines
kranken Kindes angenommen vor Ma-noh, und in einem Stöhnen,
Keuchen und Schluchzen arbeitete seine Brust.
Das Wasser stürzte ihm aus Auge und Nase, sein breites
derbhäutiges Gesicht war ganz klein und mädchenhaft. Er lehnte
gegen Ma-noh in einer Art Betäubung.
Er log nicht von Su-koh. Man hatte ihm in Su-koh einen Freund
weggerissen. Wang, der Gassenläufer und Ausrufer in Tsi-nan-fu,
war in der Herberge dem Mohammedaner begegnet. Das ernste
gelassene Wesen fesselte ihn stark. Es zog ihn intensiver an, als er
sich bewußt wurde in dem unruhigen Treiben der Stadt. Er hatte
rasch das völlig unklare Gefühl, hier etwas Verhängnisvolles zu
treffen, etwas so Tiefes, daß er sich davon abwenden müßte. Er kam
wenig mit Su-koh und seinen Söhnen zusammen; ihre Gespräche
betrafen tägliche Dinge. Dann kam die Verhaftung Su-kohs, und sie
deckte ihm die Stärke seiner Beziehungen zu dem Mann mit
Furchtbarkeit auf. Nicht kam er zu einer Vorstellung, worum es sich
handelte zwischen ihm und dem Mohammedaner; er merkte nur die
Hingerissenheit und unbedingte Teilnahme an Sus Schicksal. Wang
hatte das schwerlastende Empfinden, daß man ihn selbst, etwas in
ihm von einer schaurigen Verborgenheit, angriff. Und es war nicht
die Roheit des Eingriffs, die ihn erschreckte, sondern das Entsetzen
vor dem Verborgenen, das ihm vor Gesicht kam, das er nicht sehen
wollte, nicht jetzt schon, vielleicht später, viel viel später. Die fünf
Säbel und die kleine Mauer fuhren vor seinen Augen zusammen,
immer erneut, jede Stunde jede Minute; es war nicht zu ertragen, es
mußte überdeckt, vergraben werden. Und so kam die Rache für Su
als etwas Erdachtes, Erzwungenes. Erst als er sein Hirschgeweih in
Händen hatte in der Kammer des Bonzen, als er sich flüchtete zu
den Erinnerungen an die Späße, die mit dem starken Geruch des
Geweihs in ihm aufstiegen, an die Jagden über Marktplätze,
Jonglieren über Dächer, da wußte er sicher, daß er den Tou-ssee
töten würde, mit der Maske glatt und fest alles zustülpen würde.
Diese Bewegung machte ihn damals glücklich und sicher: zustülpen.
Er wollte sich noch einmal wegtäuschen über die Zukunft, vor der er
sich schämte und graute. Es war schon nicht mehr nötig, daß er am
Morgen aus dem Wegeschrank aufstand und auf den Übungsplatz
lief: er hatte in der Nacht schon zehn, fünfzigmal den Hauptmann
erstickt unter der Maske, es war schon alles geschehen. Aber er lief
hin; er mußte sich dabei sehen, es sich tief einprägen. Und so
geschah der Mord, als ein Opfer, das er sich brachte. So rächte
Wang den Mohammedaner, seinen Freund.
Die scharfe nüchterne Stimme des Mannes, den vorher Wangs
Nachbar gedrängt hatte, übertönte das Durcheinander von
gezischelter Wut und Drohworten. Er rief, es möchte derjenige,
welcher am nächsten der Türe sitze, die Hütte umgehen und
nachsehen, ob einer draußen sei; er wolle dann sprechen. Als die
Türe aufgestoßen wurde und ein langer Bursche mit vorgestrecktem
Kopf aus der Hütte verschwand, war es für eine Minute still in der
Hütte, so daß man zum erstenmal das Geräusch des Flusses und der
stürzenden Schneemassen hörte. Der Bursche kam grinsend zurück:
es hätte nur etwas Totes neben der Hütte gesessen. Und er zog das
Fell einer graubraunen Zibetkatze aus seinem Kittel hervor. Ma-noh
schüttelte sich vor Abscheu; er wollte den Burschen davonjagen,
bezwang sich und schnüffelte erregt, als er die andern überernsten
Gesichter sah.
Der Mann am Herd, dem unter dem Kinn ein kleiner grauer Bart
wuchs, stand auf, stellte sich an die Tür, die er mit seinem Rücken
versperrte, sprach leise scharf; fuchtelte sonderbar in der Luft, als
ob er Fliegen fange. Er zupfte seinen Bart. Sein altes Gesicht mit den
großen Augensäcken war lebendig wie eines schnurrenden Katers.
Die schlaffe Haut tat dem Spiel seines Ausdrucks keinen Eintrag; es
kräuselte, blitzte, rollte über das platte Gesicht mit dem weit
vorgeschobenen Unterkiefer. Er klappte oft laut die Zähne
zusammen, man sah seine dünne rosa Zunge spielen, er bog den
dickgepolsterten Rücken, machte dies und dies Knie krumm. Von
dem Mann wußte man, daß er ohne Grund aus seiner Heimat
aufgebrochen war in geachteter Stellung. Er hauste seit Jahren in
den Nan-ku-Bergen, tat in Dörfern ehrbare Dienste. Leute aus seiner
Heimatstadt, die von dem neugierigen Gesindel nach ihm ausgefragt
wurden, berichteten kopfschüttelnd, daß er ohne mindeste
Veranlassung alles habe stehen und liegen lassen. Sie waren
überzeugt, daß der Alte der Aufdeckung eines Verbrechens zuvor
gekommen sei, das aber dann nicht aufgedeckt wurde, eine
Geschichte, die sie viel belachten und zur Beleuchtung seines ebenso
furchtsamen wie geheimtuerischen Wesens benutzten.
Chu sprach leise: „Da niemand vor der Türe horcht, will euer
Diener reden. Wir müssen verschwiegen darüber sein, werte Herren,
nicht meine ich aus Angst und Besorgtheit, die gar nicht angebracht
ist bei Leuten, welche nichts zu besorgen haben, sondern aus
Gründen. Euer Diener Chu hat viele Gründe, leise zu sprechen und
die Türe zu versperren, und wenn die werten Herren ihn ruhig
angehört haben und ihm zustimmen sollten, so werden sie wie er
leise sprechen. Ich habe gute Beziehungen zu Po-schan, meiner
Heimatsstadt in Schan-tung, wo meine Neffen und Geschwister
meinen Besitz verwalten. Was der geliebte Bruder Wang erlitten hat
und was die Einwohner Kwan-juans erlitten haben, ist uns vielmals
begegnet da. Schöne Sachen sind uns begegnet, schöne Sachen,
aber das Kind, das vor euch steht, will nicht vor alten Kennern
schwatzen. Seht einmal: wie oft tritt in den südlichen reichen
Provinzen der Gelbe Fluß über die Ufer, und wie oft wirft sich das
Meer mit einer weißen Brust über das Land und erdrückt Häuser und
Mann und Frau und Kind? Wie oft läuft der Taifun die wimmelnde
Küste herunter, tanzt über das gelbe Meer, und alle Dschunken,
Boote, großen Segler bekommen plötzlich Beine und tanzen mit ihm
auf eine barbarische grausige Art mit. Und das kleine Kind will gar
nicht sprechen von den bösen Dämonen, die den Mißwachs auf den
Äckern bringen, daß die Hungersnöte ausbrechen. Aber seht, die
Menschen wollen es den großen Gewalten nachtun; und wer ein
großer Herr ist, will ein größerer sein. Und da treiben Menschen, von
Müttern geboren, in den achtzehn Provinzen herum, die die Macht in
Händen haben, und werfen sich wie die finstere See über das flache,
sorgsam bebaute Land hin und quetschen mit ihrem breiten Leib den
Reis und alle Früchte zusammen. Da gibt es Herren, die drehen sich
wie die dunkelfarbigen Sandstürme über ganze Städte und bewohnte
Dörfer und reißen im Drehen soviel Sand wie Menschen mit, daß alle
das Atmen vergessen. Und am schlimmsten wütet eine Springflut,
die vor langer Zeit über das kostbare Land, über die Blume der
Mitte, gefallen ist, ihr die Blätter und Blüten abreißt. Von Norden ist
die Springflut gekommen und brandet über unsere fetten Äcker und
Städte. Sie hat den Schlamm und das spitze Geröll auf unsere fetten
Äcker und friedreichen Städte geworfen, und sie nennt sich Tai-tsing,
die reine Dynastie. Und von ihr will ich etwas erzählen.“
Wang hatte sich längst hochgerichtet, sah den Alten mit
aufgerissenen Augen an, stellte sich ihm gegenüber. Die andern
reckten die Hälse, rückten näher an die Tür; die Pulse rollten voller
durch ihre Schläfen; sie sahen den Alten, sie waren seine Beute.
„Ich will euch nichts von ihr erzählen, denn die alten Herren
wissen alles selbst. Wenn der Tiger heult, dringt der Wind in die
Täler. Die Mandschus, die harten Tataren, die aus ihren nördlichen
Bergen geradewegs von der Fuchsjagd über unser schwaches Land
gefallen sind, werden nicht bis zum Eintritt der Ewigkeit über uns
leben. Unser Volk ist arm und schwach, aber wir sind viel und
überleben die stärksten. Ihr wißt, was man macht, wenn man am
Meere wohnt und die sieben ruhigen Jahre sind vorbei, die Regenzeit
und der Nordweststurm ist vorbei, das Unglück ist geschehen, was
man macht, wenn man noch lebt? Bauen, Dämme bauen, Tag und
Nacht, Pfähle rammen, den Lehm häufen, Ruten, Stroh dazwischen,
Weiden anpflanzen. Die klugen Männer werden mich unbescheiden
nennen, wenn ich sie in dem fremden Hause frage, welche Dämme
sie gebaut haben, weil sie sich doch vor der Springflut fürchten und
weil sie die Wasser aus dem Lande zurückdrängen wollen? Aber
andere haben langsam und leise den Lehm in den Händen
zusammengetragen, haben Stroh gestohlen von dem und dem, zu
einer Zeit, wo keiner auf sie achtete, haben heimlich feine
Weidenschößlinge gesetzt und sie geschützt. Es gehen schon
unsichtbar Wälle und Dämme durch das Land, mit Schleusen und
Abzügen, die wir schließen, wenn der Augenblick gekommen ist: das
Wasser kann nicht zum Meer zurück, das Land ist nicht ersoffen; wir
verdunsten unter dem Feuer langsam das Wasser wie die
Salzpfänner und behalten die Körner zurück. Ich bin aus Po-schan;
wir haben nicht soviele Fruchtbarkeit wie am gelben Sandfluß; aber
bei uns blüht zwischen den Kohlen seit langer Zeit eine Blume,
heimlich, aber wohl geschützt: die Weiße Wasserlilie.“
Keiner der Männer saß mehr an der Erde; „die Weiße Wasserlilie“
stießen sie erregt aus, um Chu sich stellend, klopften ihm freudig die
Hände, blitzten ihn aus ihren schwarzen Augen an. Sie waren
entzückt über die Verwandlung des trotteligen Katers. Sie lachten
mannigfach, befriedigt leise, meckernd und mit Herausforderung,
wie Hornsignale klar und triumphierend; Ma-noh glucksend, aber
unsicher. Ihre Lippen waren naß, die Münder voll Speichel. Unter
ihren Backen glühten dünne Heizplatten. Der Magen schlingerte
sanft hin und her.
„Wir sind, alte Herren, zur Beratung hier. Jeder kann beitragen,
soviel er im Kopf hat. Wang hat geredet, was ihm mit einem ernsten
Su-koh in Tsi-nan-fu begegnete. Ich bin nicht weit her von Tsi-nan,
aus Po-schan. Ich habe nicht gewartet, bis mich ein flinker Freund
rächen brauchte, und hätte vielleicht nicht gleich einen so raschen
gefunden. Steht hinter meiner Straße auch schon die kleine
getünchte Mauer, die für mich bestimmt war. Hat die leblose Hand
des Himmelssohns schon den roten Todeskreis hinter meinen Namen
gemalt. Das Urteil war schon fertig, das nötig gewesen ist, meinen
Mund zu versperren.“
Der Alte wollte weiter stammeln; Wang unterbrach ihn. Er nahm
ihn stark bei der Schulter, preßte ihn neben sich auf den Boden.
Wang streichelte dem Alten die Wangen und die knotigen Hände,
bot ihm heißen Tee. Der schluckte noch, schnappte, schlug mit dem
Unterkiefer, sah aus geröteten Augen geradezu, hatte gellende
Ohren.
Die Vagabunden, von Grimm ausgehöhlt, schluchzten ihren Ballast
von sich. Die Arme wurden in einem Wirbel herumgerissen. Die
heiße Wut wurde in die Hälse gepreßt, über einen blechernen
Resonanzboden geledert, und schnarrend, tremolierend weg in die
Luft geprustet. Sie kamen sich bloßgelegt bis auf die Blutröhren, die
Lungenbläschen, vor, ihr Rätsel war von Chu gelöst: sie waren
Ausgestoßene, Opfer; sie hatten einen Feind und waren glückselig in
ihrem schäumenden Haß.
In dieser Minute gab sich Ma-noh an Wang verloren. Ma erlebte
die mitleidigen, umdunkelten Blicke Wangs, fühlte, wie Wang
innerlich diese rasenden Tiere an sich zog, furchtlos begütigte und
küßte; und jäh riß ein Faden in ihm. Was kam nun? In ihm war keine
Besinnung. Was lag an ihm! Was lag an dem Prior, an den Buddhas,
an den Freudenhimmeln! Versagen aller Bremsen, Niederschmettern
aller Widerstände. Verächtliches Lippenzucken über die Vagabunden;
ihre Not belanglos gegen das, was in Wang vorgeht. Frösteln. Eine
stählerne fremde Sicherheit, von innen heraus zielend.
Schwindelloses Fallenlassen in einen Schlund. Schwaches
federleichtes Hinlegen vor Wangs Fuß.
Wang bemühte sich stumm, traurig um den Alten. Er sah schon
sie alle mit Messern zwischen den Zähnen den Berg herunterlaufen.
Sie entglitten ihm.
Er sprach erst, als sie unruhig seine veränderte abwesende Miene
bemerkten. Sein Gesicht war noch naß von den Tränen. Er redete
müde, er murmelte vor sich hin, zuckte oft zusammen: „Das nutzt
alles nicht. Das nimmt kein Ende, und wenn wir zehnmal hundertmal
so viel wären als wir sind. Was sind wir? Weniger als die Freunde
früher des Chu, und Chu sitzt bei uns und muß sein Herz aufreiben.
Eine Schar von Bettlern aus den Nan-kubergen. Es wird Mord auf
Mord kommen.“ Der listige Erzähler von Kwan-juan überschrie ihn.
Seine vorhin höhnende harte Stimme klang bewegt, weich und leicht
zornig. Wang und er rangen mit den Blicken. Sie seien keine faulen
Bettler. Wer dies erlebt hätte, was sie, sei kein bloßer Wegelagerer.
Ja, sie seien arme ausgestoßene Menschen, die kaum mehr
widerstreben könnten, halbtote, denen man rasch einen Schluck
Wasser einflöße und die man dann mit Fußstößen aufjage, rasch,
damit sie nicht vor der Tür stürben. Ihre vier Brüder seien verloren,
bald käme die Reihe an sie. Wieder funkelten seine Augen.
Wang zog seine Beine an, ging vorsichtig zwischen ihnen durch,
umfaßte vorübergehend Ma-noh und blieb ganz im Hintergrund an
der Wand stehen, wo man ihn kaum sah; nur wenn die dunkle Glut
auf dem Herd heller aufschlug, erkannte man, daß er mit gesenktem
Kopf stand, mit den Händen nach rückwärts die Bildsäule eines
Buddha berührte. Ma-noh neben ihm. Wang fühlte sich schwimmen
auf einem tobenden Meer. Es schien ihm, als ob er, schwankend zu
sterben oder zu leben, plötzlich die Arme niedergeschlagen hätte auf
ein Floß, sich mit dem Leib drüber wegzog und zu Ertrinkenden
sprach, mit den Beinen sein steinsicheres Floß an Land steuernd.
„Man hat nicht gut an uns getan: das ist das Schicksal. Man wird
nicht gut an uns tun: das ist das Schicksal. Ich habe es auf allen
Wegen, auf den Äckern, Straßen, Bergen, von den alten Leuten
gehört, daß nur eins hilft gegen das Schicksal: nicht widerstreben.
Ein Frosch kann keinen Storch verschlingen. Ich glaube, liebe Brüder,
und will mich daran halten: daß der allmächtige Weltenlauf starr,
unbeugsam ist, und nicht von seiner Richtung abweicht. Wenn ihr
kämpfen wollt, so mögt ihr es tun. Ihr werdet nichts ändern, ich
werde euch nicht helfen können. Und ich will euch dann, liebe
Brüder, verlassen, denn ich scheide mich ab von denen, die im
Fieber leben, von denen, die nicht zur Besinnung kommen. Ein Alter
hat von ihnen gesagt: man kann sie töten, man kann sie am Leben
lassen, ihr Schicksal wird von außen bestimmt. Ich muß den Tod
über mich ergehen lassen und das Leben über mich ergehen lassen
und beides unwichtig nehmen, nicht zögern, nicht hasten. Und es
wäre gut, wenn ihr wie ich tätet. Denn alles andere ist ja
aussichtslos. Ich will wunschlos, ohne Schwergewicht das Kleine und
Große tragen, mich abseits wenden, wo man nicht tötet. Ja, dies will
ich euch von der Kuan-yin und den anderen goldenen Fos sagen, die
Ma-noh verehrt; sie sind kluge und gereifte Götter, ich will sie
verehren, weil sie dies gesagt haben: man soll nichts Lebendiges
töten. Ich will ein Ende machen mit dem Morden und Rächen; ich
komme damit nicht von der Stelle. Seid mir nicht böse, wenn ich
euch nicht zustimme. Ich will arm sein, um nichts zu verlieren. Der
Reichtum läuft uns auf der Straße nach; er wird uns nicht einholen.
Ich muß, mit euch, wenn ihr wollt, auf eine andere Spitze laufen, die
schöner ist als die ich sonst gesehen habe, auf den Gipfel der
Kaiserherrlichkeit. Nicht handeln; wie das weiße Wasser schwach
D
und folgsam sein; wie das Licht von jedem dünnen Blatt abgleiten.
Aber was werdet ihr mir darauf sagen, liebe Brüder?“
Sie schwiegen. Chu seufzte: „Du mußt uns führen, Wang. Tu, wie
du willst.“
Wang schüttelte den Kopf: „Ich führe euch nicht. Wenn ihr meinen
Willen habt, will ich euch auch führen. Ihr müßt mir zustimmen,
gleich und in diesem Augenblick. Und ihr werdet nicht zögern, und
die im Dorfe sind, werden nicht zögern, denn im Grunde spricht ja
keiner von euch anders. Ihr schäumt nur noch so, wie ich selber
früher, liebe Brüder. Geht mit mir. Wir sind Ausgestoßene und wollen
es eingestehen. Wenn wir so schwach sind, sind wir doch stärker als
alle anderen. Glaubt mir, es wird uns keiner erschlagen; wir biegen
jeden Stachel um. Und ich verlaß euch nicht. Wer uns schlagen wird,
wird seine Schwäche fühlen. Ich will euch und mich schützen; ich
werde nach Schan-tung wandern und den Schutz der Brüder von der
Weißen Lilie erbitten, wie Chu will. Aber ich beschütze keine Räuber
und Mörder. Wir wollen sein, was wir sind: schwache hilfsbedürftige
Brüder eines armen Volkes.“
Ma-noh hielt den großen Wang an den Schultern umschlungen; er
flüsterte heiß: „Und ich will mit dir wandern; ich will ein schwacher
armer Bruder sein unter deinem Schutz.“ Die andern hatten still
dagesessen, sich lange angeblickt. Dann warfen sie sich, erst Chu,
darauf die vier vor Wang mit der Stirn an den Boden.
ie Hütte des Ma-noh leer.
Die Krähen und großen Raben hüpften über die Stiegen durch
die offene Tür, saßen auf dem Herd, der noch warm war,
zerrten mit ihren Schnäbeln an den dicken Binsenmatten. Zwei graue
Zibetkatzen ließen sich an den Schwänzen vom Dach herunter,
warfen sich mit einem Schwung langgestreckt mitten in die
aufgehäuften Tuch- und Pelzlagen, wühlten unter ihnen herum;
unter den Reflexen des Abendlichts blitzte ihr glanzvolles fleckiges
Fell. Ein dicker Rabe schaukelte auf dem leeren Regal und sah nach
unten; als die größere der beiden Katzen an die Wand gedrückt
kurzbeinig sich in die Höhe zog, rauschte er unter ängstlichem
Flügelschlagen und grellem Krächzen auf, an die Decke, zur offenen
Türe hinaus.
Im Dorfe gingen um dieselbe Abendstunde die Wegelagerer einer
hinter dem andern in das Haus des Bauern Leh, das zu den vier
Häusern gehörte um die Eiche am Eingang des Dorfes. Auf dem
hinteren Hofe stand eine weite leere Scheune, die von den Bauern
zu Versammlungen benutzt wurde. Die offenen breiten Tore an den
Längsseiten ließen weite Lichtmassen herein.
Was auf dieser Versammlung besprochen wurde, in der Scheune,
in welcher ein schwerer Geruch von verfaultem Stroh, muffigen
Menschenkleidern und Ochsenmist herrschte, ist kurz berichtet.
Wang war nicht anwesend; Ma-noh hatte ihn den langen Weg, wo
sie zusammen die goldenen Buddhas und die süß lächelnde Kuan-yin
aus Bergkristall heruntertrugen, nicht allein gelassen; sie saßen in
jener Gerätekammer zusammen und sprachen.
Ma-noh war von einer Kette losgebunden; überglücklich,
ungeschickt und possierlich. Seine alte Gereiztheit klang peinlich in
seiner Stimme; er hatte einen Kampf zu bestehen mit seinen
Grimassen, seiner Redemanier, plötzlichen Affekten, die bodenlos
geworden waren, und die er mit sich herumschleppte, wie ein
krankes Tier seinen Winterpelz in das Frühjahr. Er kannte mit dem
feinsten Gefühl seine Aufgabe, Wang zu beobachten; sah mit Angst
die Gefahren, die Wang drohten; sah im Hintergrund die Furcht
Wangs vor der Anbetung der Vagabunden. Sie blieben bis in die
Nacht in der dunklen kalten Kammer. Ma-noh konnte mit Freude
verfolgen, wie sich in Wang das väterliche und herrschaftliche Gefühl
für die Brüder, die ihm vertrauten, fest und fester setzte.
In der Scheune berichteten die fünf Abgesandten, was sie mit
Wang-lun beraten hätten und was ihnen Wang gesagt hätte.
Vermochten fast Wort für Wort zu wiederholen. Sie standen in der
Mitte des zugigen Raums; die Männer drängten sich um sie. Was die
Boten berichteten, wirkte ungeheuer.
Neuer Überfall, Bogenschüsse in ihre Masse hinein hätten nicht so
stark erregen können. Bei einigen, die sich abseits von den übrigen
zu bewegen pflegten, kamen hohnvolle Bemerkungen auf von
Bonzenwirtschaft; sie hielten sich geduckt, als sie sich umringt
fanden von leidenschaftlichen Gebärden, stillem Vorsichhinstarren,
hastigem Ausfragen, gedankenvollem Hin- und Herspazieren.
Die von Ma-nohs Hütte herunterkamen, strömten eine
unablenkbare Sicherheit aus; sie standen eingekeilt; aus dem
Haufen klang immer ihr: „Wang hat recht.“ Diese Boten, vom alten
Chu bis zu dem ungeschlachten langen Burschen, welcher das
blutige Fell in Ma-nohs Hütte getragen hatte, wurden angestarrt,
umgangen von ihren Bekannten; man faßte sie an die Hände, man
lechzte sie aus, staunte ihre Ruhe an. Wang, der ein paar Häuser
entfernt in der Kammer hockte, an die jetzt alle dachten, rief man
nicht; man hätte ihn ungern gesehen; er sollte dies alles nicht
ansehen, dieses Herumgehen, dieses Zweifeln, diese Ratlosigkeit;
man fürchtete das Auslöschen aller Lampen durch ihn.
Den meisten kam Wangs Plan wie ein Rausch, dessen man sich
erwehrt. Es war eine Generalabsolution, die ihnen erteilt wurde. Sie
sollten, geschützt einer durch den andern, durch die Provinz
wandern, betteln, arbeiten, an keinem Ort sich lange aufhalten, in
keinem geschlossenen Hause wohnen, keinen Menschen töten; sie
sollten niemandem wehtun, keinen betrügen, nicht rachsüchtig sein.
Wer will, solle die mildesten Götter anbeten, die Götter des Cakya-
muni, die Ma-noh und Wang vom Berge heruntergetragen hätten.
Man würde Großes, so Großes erreichen durch dies alles, daß es gar
nicht ausgesprochen werden könne: die Augen der fünf Sprecher
wurden klein vor Überschwenglichkeit und Heimlichkeit. Besonders
der ungeschlachte Bursche hatte jetzt etwas Hölzernes, Ungelenkes
in seinem Wesen, sprach abgerissen, war stark gebunden in seiner
Haltung, als wäre er plötzlich versunken, fände sich in seiner Haut
nicht zurecht. Die andern fragten, was man denn erreichen werde,
nicht neugierig oder skeptisch, sondern lüstern, aufgewühlt; aber die
Boten Wang-luns schnitten darauf nur ein befangenes Lächeln; es
schien sich um Geheimnisse zu handeln, in die auch sie noch nicht
eingeweiht waren oder die so stark waren, so stark. Die Frager
schwiegen selbst, im Gemüt beängstigt und zugleich erschauernd.
Sie hatten das Gefühl der Rückkehr und zugleich des Abkettens.
Die sich nicht beherrschen konnten und Opfer ihrer Begierden
geworden waren, diese verbrauchten Weltverächter und kalten
Ironiker, wurden am ehesten gepackt von dem Plane. Sie waren leer,
trieben und rollten sich durch ein wechselvolles erbärmliches Leben,
gutmütig, an vielem interessiert. Diese waren einer Bannung am
ehesten zugänglich, denn sie verloren und gewannen nichts, waren
völlig widerstandslos, da sie nichts beschäftigte. So tapfer sie sich in
den furchtbarsten Lagen benahmen, so unerschrockene Beschützer,
Angreifer sie waren, so waren sie am wehrlosesten, wo sich eine
ernsterstarrte Miene zeigte und ein Gefühl strömte. Es wickelte sie
ein; sie liefen ihm nach, sie bettelten hinter ihm her; sie tobten in
Wut und glaubten sich um ihr Eigentum betrogen und verloren,
wenn es vor ihnen auswich. Sie waren die verlässigste Avantgarde
jeder, jeder Lehre. Sie gingen in der Scheune herum, witzelten
unverändert. Sie konnten kaum die Worte der Boten lange hören, sie
waren so innig gefangen, gequält von jedem Zuviel; sie schämten
sich ihrer Veränderung.
Die Glücklichen, die aus dem Drangsal des Bürgerlebens geflohen
waren, hörten erregt, daß man zurückkehren wolle. Sie sollten
verzeihen, sie wurden gedrängt, sich zu erinnern. Sie waren es, die
tief beschäftigt herumgingen, oft zuhörten, oft sich umsahen und die
Stirnen falteten. Sie empfanden ganz leise einen Puff: man drängte
sie. Der wüste Schwall ihrer Erlebnisse und Verwicklungen stand vor
ihren Augen; sie hatten einen Ekel davor wie vor einer
Schlangengrube. Sie sollten verzeihen, niemandem wehtun: das
sollte die ganze Wirrnis lichten. Sie hielten sich an die Boten, sie
hingen an ihren Lippen, klagten innerlich. In ihnen tauchte das
Rachegefühl auf, heilend, versöhnte sie mit sich und den andern; sie
würden durch die alten Gassen gehen, Brüder eines geheimen
Bundes, furchterregend, ohne wehezutun. Es zog sie in dem
Augenblick, wo sie daran dachten, an die Orte hin, sie sahen sich
wandern; die Rolle des Anklägers verlockte sie. Sie sollten
zurückkehren; das gab ihnen den Schwung der Erwartung; sie
hielten sich an die Boten, hingen an ihren Lippen, sehnten sich.
In den Ecken standen mürrische Gesichter; junge und ältere, die
miteinander nicht sprachen, an den Knöcheln kauten, Stückchen
Stroh vom Boden aufhoben und zwischen die Lippen zogen. Solche
finsteren Gruppen bildeten die verjagten Gesellen, welche sich elend
unter den Vagabunden fühlten, denen sie sich notgedrungen
anschlossen und die bösartig unter ihnen geworden waren. Ihnen
konnte man eine offene Quelle zeigen, und sie wagten nicht durstig
sich hinzustürzen, sooft waren sie schon zerschlagen worden; sie
sahen in einer gewohnheitsmäßigen Verbissenheit ruhig zu, wie die
andern tranken, sie, unter den Ausgestoßenen Ausgestoßene. Sie
wußten nicht ob sie mitgalten, ob sie Brüder von Brüdern sein
dürften. Erst als sich die lächelnden verschämten Witzbolde unter sie
mischten, wo sie sich am sichersten fühlten, lösten sich ihre Mienen.
Es gab unter allen, die in der Scheune Wangs Botschaft, diese alten
herzlichen Dinge, hörten, keinen, dessen Herz sich mit ihrem an
Verlassenheit und Weiche hätte vergleichen lassen. Wo man an ihre
Herzen mit einer Nagelspitze ritzte, sprang alles Blut hervor. Sie
waren unendlich verschüchtert. Sie schmolzen unter Wangs Worten;
es gab unter ihnen einige ältere, die sich umarmten und mit ihrem
Schluchzen die tönende Scheune erfüllten. Mit einer jungfräulichen
Zagheit ließen sie zu, daß die andern sich ihnen näherten, und
hatten noch später eine erinnerungsschwere Scheu vor ihren neuen
Brüdern. Einige von ihnen, außer sich über das, was ihnen zuteil
wurde, knieten vor den Boten nieder, nachdem sie sich durch den
Knäuel geschoben hatten, bogen die Leiber zur Erde, sprachen
unverständlich. Die Verzückung befiel sie, wo sie Brüder, schwache
hilfsbedürftige Brüder schlimmer Vagabunden sein durften.
Die Wartenden, die Verführten, die Heimatlosen und Krüppel aßen
Worte und Mienen wie ein süßes Gebäck. Sie fühlten sich
wohlgeleitet; sie fühlten, ihnen geschähe Recht und man führe ihre
Sache würdig vor aller Welt. Sie waren es, die schon lange am
innigsten zu Wang standen und am meisten von ihm erwarteten; er
war, wie sie glaubten, ihr Bruder mehr wie der der andern. Sie
träumten mit offenen Augen und frohlockten innerlich.
Kein einziger von den vier, fünf Raubtiermenschen, die mit ihnen
auf den Bergen gehaust hatten, befand sich mehr im Dorfe. Sie
waren einzeln, sobald es wärmer geworden war, nach oben
geschlichen, trabten auf den verschneiten Wegen, gruben ihre
Höhlen und Hütten frei und warteten, warteten.
Als die fünf Boten spät in der Nacht in Wang-luns Haus traten,
und ihm in der warmen Wohnstube, derselben, in welcher er mit
dem Lederbeutel gescherzt hatte, zu erzählen anfingen von der
Versammlung und dem Verlauf, sank Wang zitternd gegen den Tisch,
hörte ohne zu fragen einen nach dem andern an.
Er sagte ihnen dann, was er vorhätte und was sie in den nächsten
Wochen tun sollten. Er würde allein nach Schan-tung wandern; es
würde Wochen, vielleicht einen Monat dauern, bis er sie wiedersehe.
Prägte ihnen ein, sich zu zerstreuen, nur an einem oder dem andern
Tage zusammenzukommen, sich nirgends lange aufzuhalten, aber
immer voneinander zu wissen. Es stünde ihnen frei, andere, die
ihresgleichen wären und sich zu ihnen hingezogen fühlten,
aufzunehmen in ihre Gemeinschaft; aber darauf sollten sie keinen
Wert legen, neue Brüder zu gewinnen. Sollten keine Früchte von den
Bäumen reißen; sollten warten, bis sie selber fallen. Nur um sich
sollten sie sich kümmern, dies könnte er ihnen nicht tief genug
einprägen. Und dann sprachen sie den Rest der Nacht, ehe sie
schlafen gingen, noch Geheimes und Himmlisches.
Es war keine Besprechung mehr. Nach den Erregungen des letzten
Tages saßen sie in dem halbdunklen niedrigen Zimmer um den
leeren Holztisch herum, die Arme aufgestemmt, mit dem Kopf
ermüdet nach vorn übergesunken, starrten vor sich hin, atmeten. Sie
schwiegen, und dann redete einer für sich, spann seine dunklen
Gedanken aus, schwieg. Sie hatten manches gehört auf ihren
Fahrten; es hielt sie wach, kundschaften zu gehen auf dem neuen
Gebiet.
Einer erzählte von den großen Meistern Tung-gin und Ta-pe,
welche auf Wolkenwagen stiegen, auf dem Regenbogen gingen und
dann sich verirrten im Schoß des Nebels. Sie erreichten den Scheitel
des Weltalls, ohne eine Fußspur zu hinterlassen im Schlamm und
Schnee, sie warfen keine Schatten. Sie schritten über Berge und
Felsen, bis sie zum Kun-lungebirge kamen, an die Pforte des
Himmels; sie drangen in seine Umzäunung ein, sahen den Himmel
über sich, einen Baldachin, die Erde unten, eine Sänfte.
A
Geheimnisvoll fing Wang selber an, leise zu sprechen von den
Spitzen der Welt und den drei Juwelen. Er verstummte bald, wandte
den Kopf wie beirrt suchend zur Seite zu Ma-noh. Ma-noh im
Klostersingsang: „Cakya beschützt alle; der Maitreya kommt nach
ihm, den erwarten die Frommen, des kostbaren Mondes weißen,
majestätisch stillen König.“ Er summte entrückt von den
Verwandlungen.
Jeder saß mit sich beschäftigt.
Als es hell am Morgen geworden war, nahm Wang Abschied nur
von Ma-noh. Er lehnte ohne Begründung ab, sich begleiten zu
lassen. Vor Ma tat Wang in der engen leeren Kammer das
schweigende Gelübde; ließ sich die Scheitelhaare sengen, hielt seine
Finger über eine Flamme, warf sein letztes Geld auf den Boden.
n demselben Tage, an dem die Bettler das Dorf verließen und
sich nordwärts zerstreuten, trat Wang-lun seine Reise nach
Schan-tung zu den Brüdern von der Weißen Wasserlilie an. Er
wanderte ununterbrochen, oft sechzig bis siebenzig Li den Tag. Ein
furchtbarer Schneesturm hielt ihn zwei Tage im Gebirge fest, ehe er
in das Hügelland und die Ebene eintreten konnte.
Auf seiner beschwerlichen Wanderung brach dann der Frühling an.
Die Stadt Yang-chou-fu sah den Bettler und beachtete ihn nicht; sie
sah nicht lange später Anhänger dieses Mannes Entsetzliches in
ihren Mauern leiden, fiel halb in Schutt. Er setzte über große Flüsse,
über den Kaiserkanal und übernachtete einmal in Lint-sing, der
Stadt, in der er sterben sollte. Während es Frühling wurde, näherte
er sich den reichen, ihm wohlbekannten Gefilden am Westfuß des
Tai-ngan. Man schälte noch auf den Winteräckern die Binsen ab, zog
die langen Markstangen heraus; er dachte an Tsi-nan-fu, das nicht
mehr fern war, und an Su-koh. Als der erste Regen fiel, begannen sie
die Aussaat auf den Feldern, warfen Raps, Bohnen, Weizen. Das
Brüllen der starken Pflugtiere, die nahen und weiten Lieder der
Saatwerfer begleiteten Wang. Er zog weiter, südlich und östlich,
umging das brausende Tsi-nan.
Seine Nahrung gewann er durch Betteln, Trägerdienste; auf dem
Felde half er. In den größeren Dörfern und Städten trat er als
Geschichtenerzähler auf, trug das Weckholz, den Würfel in der Hand,
das ihm ein großer Lehrer namens Ma-noh verliehen habe; er hörte
die Leute aus, warf seine Saat mit großer Kraft.
Er hatte Tschi-li verlassen, war wieder in Schan-tung, dem Lande,
das den großen weisen Kung-fu-tse geboren hatte, den
Wiederhersteller der alten Ordnung, die stählerne Mittelsäule des
Staatsgebäudes; dem Lande, das auch durch Jahrhunderte die
Geheimbünde hervorbrachte, welche Kaiser stürzten und furchtlos
das notwendige Gleichmaß wiederherstellten, dessen dies Gebäude
bedurfte. Das Land hatte einen ungeheuren Toten geboren, bot nun
unablässig Lebendige auf, um zu bewirken, daß sein Fleisch, seine
riesenhaften Knochen die Erde düngten, nicht breit auf dem
kostbaren Boden laste. Die Geheimbünde waren die Spitzhacke, die
Schaufel, die Barke der Provinz. Sie überlebten Regierungen,
Dynastien, Kriege und Revolutionen. Sie schmiegten sich elastisch
und windend allen Veränderungen an, blieben völlig in jeder
Drehung unwandelbar und dieselben. Die Bünde waren das Land
selbst, das sich mit blinden Augen lang hinstreckte; die Leute
schacherten oben, feierten ihre Feste, vermehrten sich, besänftigten
ihre Ahnen, Heerführer kamen, Soldatenvölker, kaiserliche Prinzen,
Feuersbrünste, Schlachten, Sieg, Niederlage; nach einiger Zeit, einer
unbestimmten Zahl von Monaten zitterte das Land in kleinen
Schwingungen, Vulkanaugen warfen flammende, nicht zärtliche
Blicke, Ebenen senkten sich; ein breitmäuliges Donnern; und das
Land, beunruhigt, hatte sich auf die andere Seite zum Schlafen
gelegt; es war alles wieder gut geworden. Es waren Jahrhunderte
her, als die Mingherrschaft, die vom Volk getragene, echt
chinesische, schwächer wurde, sich drehte, langsam verzuckte. In
die schwere Zerrüttung des Reiches, bereitet durch Verbrüderung
von Ohnmacht, Verbrecherwesen, Eunuchentum, griffen die Bünde
ein; sie nahmen eisig den Hohn der Höflinge hin, die einen Knaben
auf den Thron setzten. Dann erklärten sie ihm öffentlich den Krieg,
bemächtigten sich des Landes; erschreckend weiß schimmerte in die
Provinzen hinein die Wasserlilie Schan-tungs. Die Bünde hatten die
glückliche Zeit der Mingkaiser nicht vergessen in den Jahrhunderten.
Sagen schlangen sich um ihre Namen. Die Mandschus drückten nicht
schwer; sie ließen das Volk gehen, wenn es sich nur beherrschen
ließ. So große Kaiser die Mandschus dem Reiche gaben, die
Unvergängliches schufen und unterstützten, so blieben sie den
starren Genossenschaften Fremde, die nicht Recht haben durften. So
milde, liebevoll und selbstvergessend die starken Fremden sich um
das Volk bemühten, sie vermochten kein aufrichtiges Lächeln auf
den Lippen der Frau zu erwecken, die sie auf Tod und Leben in den
Armen hielten. Die Mandschu mußten erkennen, daß ihnen diese
Herzen verschlossen waren. Es kam zu keiner Rachsucht. Sie hielten
das Volk unter dem Schwert. Es fing an Gewalt mit Gewalt zu ringen.
China, die Witwe, die sich in einer aussichtslosen Sehnsucht
verzehrte, sammelte Freunde gegen den ernsten Gemahl. Zur Kühle
trat Zorn, zur Enttäuschung trat Zorn.
Wang umging die grünen Weinberge am Westfluß des Tai-ngan.
Als er die ersten Hügel des Gebirges hinter sich hatte, rastete er bei
seinen alten Freunden aus der Tsi-nanzeit einige Tage. Einen
verschmitzten jungen Töpfer, den er bei ihnen vorfand, schickte er
nach Tsi-nan herunter mit einem Gruß an den Bonzen Toh, den
Verwalter des Tempels des Musikfürsten Hang-tsiang-tse. Die
Rückkehr des Boten konnte Wang dann nicht mehr erwarten. Der
Töpfer fand den Bonzen nicht im Tempel; er hatte nach Wangs Mord
an dem Tou-ssee seine Kammer verlassen und hielt sich in der Stadt
verborgen, erst in den grünen Häusern, wo ihn eine Wang
befreundete Dirne aufnahm, dann in einem Dörfchen jenseits des
Flusses, wo er seine Fähigkeit des Ziselierens an Zinngefäßen
auszuüben begann. Hier traf ihn der gewandte Töpfersmann. Der
Schreck und die Freude bei der Nachricht ließ Toh den Stahlgriffel
aus der Hand fallen. Er forschte bei versperrter Tür den jungen
Menschen aus, der von Wangs ernstem, ja ehrfurchtgebietenden
Auftreten berichtete und dessen Mission in Schan-tung ahnte. Beide,
Toh und der Töpfer, gingen frühmorgens aus dem Dörfchen heraus.
Als sie im Gebirge eintrafen, waren vier Tage seit der Abreise des
Töpfers verstrichen und Wang einen Tag weitermarschiert, ohne zu
sagen wohin. Erst viel später, in den Zeiten der letzten Not, sah
Wang noch einmal seinen Lehrer und lernte noch einmal seine
Anhänglichkeit kennen.
Die Birken und das lichte Haselgehölz in der schönen
Berglandschaft, die der Mann aus den Nan-kubergen durchwanderte,
schlugen aus. Kraniche segelten durch die Luft. Das Stoßen und
Verhalten des Windes nahm ab; die Felsen wurden höher und kahler.
Das Kohlengebiet von Po-schan kam näher. Ab und zu begegneten
ihm lange endlose Züge von Maultieren, die kandierte Datteln, die
süßen roten Früchte, in die Ebene hinunter schleppten.
Dann verbreiterten sich die Wege; auch die Berge traten
auseinander. Dunkle weite Felder dehnten sich mit unregelmäßigen
Löchern, Püngen, in denen die abgebaute Kohle zu Tag lag. Die Luft
wurde, selbst bei Sonnenlicht, dichter und dunkler. An vielen Orten
stiegen Rauchsäulen in die Luft, wie Balken, die das Gebiet
abgrenzten und eingitterten. Die Straße war hart; runde Granitblöcke
lagen herum. Der Boden ging wellig. Auf der nackten steinernen
Ebene stand die große Stadt Po-schan.
Wang hatte von Chu die Adresse eines reichen Grubenbesitzers
erhalten. Er traf den Mann in seinem ungeheuren festen Hause nicht
an; er bereiste zu Handelszwecken, hieß es, die Nachbarschaft.
Wang mußte seine Rückkehr abwarten. Er ging hinaus und
vermietete sich als Arbeiter bei einer Grube. Sie standen zu fünf und
zehn an den tiefen Schachten, mit geschwärzten Oberkörpern, zogen
an mächtigen Winden. Im Takt, Hand hinter Hand an dem
schlüpfrigen Lederriemen, zogen sie; ihr Gesang fiel gleichmäßig von
Höhe zu Tiefe und stieg an, wie der Eimer mit Wasser und Kohle. Sie
wohnten in der Ebene dicht zusammen in Lehmhütten.
Abend um Abend ging Wang herüber in die Stadt. Zwischen den
Kohlenhaufen mußte er sich durchwinden, die wie spitze Hüte
aussahen. Dann kamen leere abgezäunte Flächen, über denen ein
erstickender Säuregeruch stand; hier kristallisierte in großen
Gefäßen das Schwefeleisen an der Sonne, das sie aus einer Lauge
von Schwefelkies gewannen. Am sechsten Tage traf der Besitzer ein,
er hatte schon von dem fremden Arbeiter gehört, der Tag für Tag
nach ihm fragte.
Chen-yao-fen war groß und breitschultrig, mit starkknochiger
Stirn; hatte ein energisches Wesen, sprach in den kurzen dringlichen
Sätzen der vielbeschäftigten; seine Fragen griffen unmittelbar an.
Wang hatte solchem Manne noch nicht gegenüber gestanden. Er
schwankte im Beginn des Gespräches; seine Sicherheit verließ ihn
einen Augenblick; einige dunkle Erinnerungen aus seiner
Betrügerzeit in Tsi-nan überhuschten ihn; er kam sich ertappt vor.
Erst als er den Namen Chus ausgesprochen hatte, der Kaufmann
verblüfft an ihn herantrat, und er, Wang mit Chen zu verhandeln
anfing, schwieg alles unter kalter aufmerksamer Ruhe. Chen stand
geraume Zeit, die linke ringgeschmückte Hand am Mund, still da,
von dem Schicksal Chus erschüttert. Dann versperrte er die Türe,
hieß den Gast, dessen Wünsche er nicht begriff, sich an einem
kleinen Tisch vor dem Hausaltar setzen, bot ihm seine eigene
Teetasse an. Wang, dessen Gesicht und Ohren Reste von
Kohlenstaub bedeckten, trug sein Anliegen vor, knapp und einfach;
welche Not sie in den Nan-kubergen gelitten hätten diesen Winter,
wie sie in das kleine Dorf eingedrungen wären, wie die Bettler sich
verbrüdert hätten und ihm folgten, was der Unterpräfekt von Cha-
tuo gegen sie unternommen hätte. Sie würden untergehen, bäten
um den Schutz der Vaterlandsfreunde, denn sie seien schuldlos, wie
Chu.
Der Kaufmann, der die aufgerissenen Augen nicht von dem Mann
ließ, welcher mit hängenden Armen und geschwollenen Fäusten
dasaß und seine Sache hersagte, wie wenn es sich um eine Schale
Reis handle, fragte nur, welcher Art der Schutz sei, den man ihnen
gewähren sollte. Er erhielt zur Antwort: Druck auf die Behörden; im
Notfall unmittelbare Aufnahme der Verfolgten und Eintreten für sie.
Dann bat er schon mit leisen Worten Wang zu gehen, um keinen
Verdacht zu erregen; morgen würden sie bei den Laugetöpfen, an
denen er ein neues Verfahren ausprobe, das er auf seiner Reise
kennen gelernt habe, sich in Ruhe weiter sprechen können. Wang
verneigte sich und schwang die Hände, nachdem er auf das
stündlich Dringende seiner Sendung hingewiesen hatte.
Der Kaufmann keuchte, als er allein war. Er verstand dies alles
nicht, verstand nicht, warum Chu, der Schweigsamste von allen, der
Hab und Gut liegen gelassen hatte, ohne ein Wort zu verlieren, sich
diesen Vagabunden offenbart hätte, sie alle verraten hätte. Er warf
sich in der Nacht. Als er sich morgens ankleidete, steckte er ein
kurzes breites Messer in seinen Tabaksbeutel am Gürtel; wenn es
sein müßte, wollte er den Sendboten bei den Laugetöpfen
beseitigen. Chen war nichts weniger als totschlaglaunig; diese Sache
erforderte ein augenblickliches Eingreifen. Um keinen weiter zu
belasten, suchte er seine Freunde und Gildengenossen nicht auf. Er
zündete Räucherkerzen an vor der Ahnentafel in seinem
Wohnzimmer, gelobte hundert Täls zum Bau einer Pagode
beizutragen, wenn diese Angelegenheit gut abliefe, rief seine Träger.
Seine Sänfte trug ihn bis an die Abzäunung der Felder. Dann
schleppten die Träger zu zweien große eigentümlich geformte
Tonkrüge mit einer bleischweren Masse gefüllt hinter ihm her,
setzten sie auf seinen Ruf neben eine der flachen Laugeschalen ab,
die groß wie ein Zimmer war. Eine schwarzbraune Flüssigkeit
bedeckte ihren Boden, atmete einen zusammenziehenden ätzenden
Dunst aus. Die Träger schickte Chen weg mit einer Handbewegung.
Wang kam, hockte auf Chens Wink neben ihn vor der Schale
nieder. Beide wanden sich dünne Seidenschals, die neben Chen
lagen, vor Mund und Nase.
Wieviel sie auf den Nan-kubergen seien?
Hundert, als er wegging, jetzt vielleicht vierhundert, vielleicht
tausend.
Warum so ungewiß, vielleicht vierhundert, vielleicht tausend?
Wodurch könnten sie sich so rasch vermehren?
Sie seien einer Ansicht. Sie litten alle viel. Sie beschützten sich
gegenseitig.
Noch einmal, wer er sei, woher er stamme, welche Rolle er bei
ihnen spiele?
Er heiße Wang-lun, sei der Sohn eines Fischers, aus Hun-kang-
tsun im Distrikt Hai-ling, Schan-tung, gebürtig. Er führe sie; er hätte
ihnen geraten, nichts zu tun gegen Bedrückungen, sondern als
Ausgestoßene zu leben ohne Widerstand gegen den Weltlauf.
Was er damit bezwecke, der Führung, dem Raterteilen, was er mit
alledem bezwecke? Warum sie sich denn nicht einfach in die acht
Welcome to our website – the perfect destination for book lovers and
knowledge seekers. We believe that every book holds a new world,
offering opportunities for learning, discovery, and personal growth.
That’s why we are dedicated to bringing you a diverse collection of
books, ranging from classic literature and specialized publications to
self-development guides and children's books.
More than just a book-buying platform, we strive to be a bridge
connecting you with timeless cultural and intellectual values. With an
elegant, user-friendly interface and a smart search system, you can
quickly find the books that best suit your interests. Additionally,
our special promotions and home delivery services help you save time
and fully enjoy the joy of reading.
Join us on a journey of knowledge exploration, passion nurturing, and
personal growth every day!
ebookbell.com

Weitere ähnliche Inhalte

PDF
Extreme Values in Finance Telecommunications and the Environment 1st Edition ...
PDF
Multiple Time Series Models 1st Edition Patrick T. Brandt
PDF
Exploring Rating Scale Functioning For Survey Research Stefanie A Wind
PDF
The basic practice of statistics 3rd Edition David S. Moore
PDF
(eBook PDF) The Analysis of Biological Data Second Edition
PDF
Solution Manual for Statistics for The Behavioral Sciences, 10th Edition
PDF
Statistics for Social Data Analysis 4th Edition David Knoke
PDF
Bayesian Methods A Social and Behavioral Sciences Approach 3rd Edition Gill
Extreme Values in Finance Telecommunications and the Environment 1st Edition ...
Multiple Time Series Models 1st Edition Patrick T. Brandt
Exploring Rating Scale Functioning For Survey Research Stefanie A Wind
The basic practice of statistics 3rd Edition David S. Moore
(eBook PDF) The Analysis of Biological Data Second Edition
Solution Manual for Statistics for The Behavioral Sciences, 10th Edition
Statistics for Social Data Analysis 4th Edition David Knoke
Bayesian Methods A Social and Behavioral Sciences Approach 3rd Edition Gill

Ähnlich wie Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee (19)

PDF
Business Statistics, 4th Global Edition Norean R. Sharpe
PDF
Solution manual for Basic Econometrics Gujarati Porter 5th edition
PDF
Discovering Statistics using IBM SPSS Statistics Field 4th Edition Test Bank
PDF
Business Statistics 2nd Edition Donnelly Test Bank
PDF
Conditional Measures and Applications 2nd Edition James O. Hamblen
PDF
Medical Informatics And Data Analysis Pentti Nieminen
PDF
Compositional Data Analysis Theory and Applications 1st Edition Vera Pawlowsk...
PDF
Clustering in Bioinformatics and Drug Discovery 1st Edition John David Maccui...
PDF
Stochastic Finance An Introduction With Examples 1st Edition Turner
PDF
Estadística aplicada a los negocios y la economía : decimosexta edición Dougl...
PDF
The Econometrics of Networks 1st Edition Áureo De Paula
PPT
ARIMA stands for auto-regressive integrated moving average.
PDF
Statistik Der Weg zur Datenanalyse, 9te 9th Edition Ludwig Fahrmeir
PDF
Statistics for the Behavioral Sciences 3rd Edition Privitera Test Bank
PDF
Test Bank for Applied Statistics in Business and Economics, 4th Edition: Davi...
PDF
Test Bank for Applied Statistics in Business and Economics, 4th Edition: Davi...
PDF
Statistics for Management and Economics Keller 10th Edition Test Bank
PDF
Reliability and Risk A Bayesian Perspective 1st Edition Nozer D. Singpurwalla
PDF
Elements Of Causal Inference Foundations And Learning Algorithms Jonas Peters...
Business Statistics, 4th Global Edition Norean R. Sharpe
Solution manual for Basic Econometrics Gujarati Porter 5th edition
Discovering Statistics using IBM SPSS Statistics Field 4th Edition Test Bank
Business Statistics 2nd Edition Donnelly Test Bank
Conditional Measures and Applications 2nd Edition James O. Hamblen
Medical Informatics And Data Analysis Pentti Nieminen
Compositional Data Analysis Theory and Applications 1st Edition Vera Pawlowsk...
Clustering in Bioinformatics and Drug Discovery 1st Edition John David Maccui...
Stochastic Finance An Introduction With Examples 1st Edition Turner
Estadística aplicada a los negocios y la economía : decimosexta edición Dougl...
The Econometrics of Networks 1st Edition Áureo De Paula
ARIMA stands for auto-regressive integrated moving average.
Statistik Der Weg zur Datenanalyse, 9te 9th Edition Ludwig Fahrmeir
Statistics for the Behavioral Sciences 3rd Edition Privitera Test Bank
Test Bank for Applied Statistics in Business and Economics, 4th Edition: Davi...
Test Bank for Applied Statistics in Business and Economics, 4th Edition: Davi...
Statistics for Management and Economics Keller 10th Edition Test Bank
Reliability and Risk A Bayesian Perspective 1st Edition Nozer D. Singpurwalla
Elements Of Causal Inference Foundations And Learning Algorithms Jonas Peters...
Anzeige

Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee

  • 1. Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Chapman Hall Crc Monographs On Statistics Applied Probability Youngjo Lee download https://ebookbell.com/product/generalized-linear-models-with- random-effects-unified-analysis-via-hlikelihood-chapman-hall-crc- monographs-on-statistics-applied-probability-youngjo-lee-2116730 Explore and download more ebooks at ebookbell.com
  • 2. Here are some recommended products that we believe you will be interested in. You can click the link to download. Generalized Linear Models With Random Effects Unified Analysis Via Hlikelihood Second Edition 2nd Ed Lee https://ebookbell.com/product/generalized-linear-models-with-random- effects-unified-analysis-via-hlikelihood-second-edition-2nd-ed- lee-20717658 Generalized Linear Models With Applications In Engineering And The Sciences Wiley Series In Probability And Statistics 2nd Raymond H Myers https://ebookbell.com/product/generalized-linear-models-with- applications-in-engineering-and-the-sciences-wiley-series-in- probability-and-statistics-2nd-raymond-h-myers-2519938 Generalized Linear Models With Examples In R Peter K Dunn Gordon K Smyth https://ebookbell.com/product/generalized-linear-models-with-examples- in-r-peter-k-dunn-gordon-k-smyth-7250006 Data Analysis Using Hierarchical Generalized Linear Models With R 1st Edition Lee https://ebookbell.com/product/data-analysis-using-hierarchical- generalized-linear-models-with-r-1st-edition-lee-55540290
  • 3. Vector Generalized Linear And Additive Models With An Implementation In R 1st Edition Thomas W Yee Auth https://ebookbell.com/product/vector-generalized-linear-and-additive- models-with-an-implementation-in-r-1st-edition-thomas-w-yee- auth-5234060 Nonlife Insurance Pricing With Generalized Linear Models 1st Edition Esbjrn Ohlsson https://ebookbell.com/product/nonlife-insurance-pricing-with- generalized-linear-models-1st-edition-esbjrn-ohlsson-1373380 Repeated Measures Design With Generalized Linear Mixed Models For Randomized Controlled Trials 1st Edition Toshiro Tango https://ebookbell.com/product/repeated-measures-design-with- generalized-linear-mixed-models-for-randomized-controlled-trials-1st- edition-toshiro-tango-6838676 Generalized Linear Models A Unified Approach Jeff Gill Michelle Torres https://ebookbell.com/product/generalized-linear-models-a-unified- approach-jeff-gill-michelle-torres-50006220 Generalized Linear Models For Categorical And Continuous Limited Dependent Variables Michael Smithson https://ebookbell.com/product/generalized-linear-models-for- categorical-and-continuous-limited-dependent-variables-michael- smithson-52688452
  • 6. Generalized Linear Models with Random Effects Unified Analysis via H-likelihood Monographs on Statistics and Applied Probability 106
  • 7. MONOGRAPHS ON STATISTICS AND APPLIED PROBABILITY General Editors V. Isham, N. Keiding, T. Louis, S. Murphy, R. L. Smith, and H. Tong 1 Stochastic Population Models in Ecology and Epidemiology M.S. Barlett (1960) 2 Queues D.R. Cox and W.L. Smith (1961) 3 Monte Carlo Methods J.M. Hammersley and D.C. Handscomb (1964) 4 The Statistical Analysis of Series of Events D.R. Cox and P.A.W. Lewis (1966) 5 Population Genetics W.J. Ewens (1969) 6 Probability, Statistics and Time M.S. Barlett (1975) 7 Statistical Inference S.D. Silvey (1975) 8 The Analysis of Contingency Tables B.S. Everitt (1977) 9 Multivariate Analysis in Behavioural Research A.E. Maxwell (1977) 10 Stochastic Abundance Models S. Engen (1978) 11 Some Basic Theory for Statistical Inference E.J.G. Pitman (1979) 12 Point Processes D.R. Cox and V. Isham (1980) 13 Identification of Outliers D.M. Hawkins (1980) 14 Optimal Design S.D. Silvey (1980) 15 Finite Mixture Distributions B.S. Everitt and D.J. Hand (1981) 16 Classification A.D. Gordon (1981) 17 Distribution-Free Statistical Methods, 2nd edition J.S. Maritz (1995) 18 Residuals and Influence in Regression R.D. Cook and S. Weisberg (1982) 19 Applications of Queueing Theory, 2nd edition G.F. Newell (1982) 20 Risk Theory, 3rd edition R.E. Beard, T. Pentikäinen and E. Pesonen (1984) 21 Analysis of Survival Data D.R. Cox and D. Oakes (1984) 22 An Introduction to Latent Variable Models B.S. Everitt (1984) 23 Bandit Problems D.A. Berry and B. Fristedt (1985) 24 Stochastic Modelling and Control M.H.A. Davis and R. Vinter (1985) 25 The Statistical Analysis of Composition Data J. Aitchison (1986) 26 Density Estimation for Statistics and Data Analysis B.W. Silverman (1986) 27 Regression Analysis with Applications G.B. Wetherill (1986) 28 Sequential Methods in Statistics, 3rd edition G.B. Wetherill and K.D. Glazebrook (1986) 29 Tensor Methods in Statistics P. McCullagh (1987) 30 Transformation and Weighting in Regression R.J. Carroll and D. Ruppert (1988) 31 Asymptotic Techniques for Use in Statistics O.E. Bandorff-Nielsen and D.R. Cox (1989) 32 Analysis of Binary Data, 2nd edition D.R. Cox and E.J. Snell (1989) 33 Analysis of Infectious Disease Data N.G. Becker (1989) 34 Design and Analysis of Cross-Over Trials B. Jones and M.G. Kenward (1989) 35 Empirical Bayes Methods, 2nd edition J.S. Maritz and T. Lwin (1989) 36 Symmetric Multivariate and Related Distributions K.T. Fang, S. Kotz and K.W. Ng (1990) 37 Generalized Linear Models, 2nd edition P. McCullagh and J.A. Nelder (1989) 38 Cyclic and Computer Generated Designs, 2nd edition J.A. John and E.R. Williams (1995) 39 Analog Estimation Methods in Econometrics C.F. Manski (1988) 40 Subset Selection in Regression A.J. Miller (1990) 41 Analysis of Repeated Measures M.J. Crowder and D.J. Hand (1990) 42 Statistical Reasoning with Imprecise Probabilities P. Walley (1991) 43 Generalized Additive Models T.J. Hastie and R.J. Tibshirani (1990)
  • 8. 44 Inspection Errors for Attributes in Quality Control N.L. Johnson, S. Kotz and X. Wu (1991) 45 The Analysis of Contingency Tables, 2nd edition B.S. Everitt (1992) 46 The Analysis of Quantal Response Data B.J.T. Morgan (1992) 47 Longitudinal Data with Serial Correlation—A State-Space Approach R.H. Jones (1993) 48 Differential Geometry and Statistics M.K. Murray and J.W. Rice (1993) 49 Markov Models and Optimization M.H.A. Davis (1993) 50 Networks and Chaos—Statistical and Probabilistic Aspects O.E. Barndorff-Nielsen, J.L. Jensen and W.S. Kendall (1993) 51 Number-Theoretic Methods in Statistics K.-T. Fang and Y. Wang (1994) 52 Inference and Asymptotics O.E. Barndorff-Nielsen and D.R. Cox (1994) 53 Practical Risk Theory for Actuaries C.D. Daykin, T. Pentikäinen and M. Pesonen (1994) 54 Biplots J.C. Gower and D.J. Hand (1996) 55 Predictive Inference—An Introduction S. Geisser (1993) 56 Model-Free Curve Estimation M.E. Tarter and M.D. Lock (1993) 57 An Introduction to the Bootstrap B. Efron and R.J. Tibshirani (1993) 58 Nonparametric Regression and Generalized Linear Models P.J. Green and B.W. Silverman (1994) 59 Multidimensional Scaling T.F. Cox and M.A.A. Cox (1994) 60 Kernel Smoothing M.P. Wand and M.C. Jones (1995) 61 Statistics for Long Memory Processes J. Beran (1995) 62 Nonlinear Models for Repeated Measurement Data M. Davidian and D.M. Giltinan (1995) 63 Measurement Error in Nonlinear Models R.J. Carroll, D. Rupert and L.A. Stefanski (1995) 64 Analyzing and Modeling Rank Data J.J. Marden (1995) 65 Time Series Models—In Econometrics, Finance and Other Fields D.R. Cox, D.V. Hinkley and O.E. Barndorff-Nielsen (1996) 66 Local Polynomial Modeling and its Applications J. Fan and I. Gijbels (1996) 67 Multivariate Dependencies—Models, Analysis and Interpretation D.R. Cox and N. Wermuth (1996) 68 Statistical Inference—Based on the Likelihood A. Azzalini (1996) 69 Bayes and Empirical Bayes Methods for Data Analysis B.P. Carlin and T.A Louis (1996) 70 Hidden Markov and Other Models for Discrete-Valued Time Series I.L. Macdonald and W. Zucchini (1997) 71 Statistical Evidence—A Likelihood Paradigm R. Royall (1997) 72 Analysis of Incomplete Multivariate Data J.L. Schafer (1997) 73 Multivariate Models and Dependence Concepts H. Joe (1997) 74 Theory of Sample Surveys M.E. Thompson (1997) 75 Retrial Queues G. Falin and J.G.C. Templeton (1997) 76 Theory of Dispersion Models B. Jørgensen (1997) 77 Mixed Poisson Processes J. Grandell (1997) 78 Variance Components Estimation—Mixed Models, Methodologies and Applications P.S.R.S. Rao (1997) 79 Bayesian Methods for Finite Population Sampling G. Meeden and M. Ghosh (1997) 80 Stochastic Geometry—Likelihood and computation O.E. Barndorff-Nielsen, W.S. Kendall and M.N.M. van Lieshout (1998) 81 Computer-Assisted Analysis of Mixtures and Applications— Meta-analysis, Disease Mapping and Others D. Böhning (1999) 82 Classification, 2nd edition A.D. Gordon (1999)
  • 9. 83 Semimartingales and their Statistical Inference B.L.S. Prakasa Rao (1999) 84 Statistical Aspects of BSE and vCJD—Models for Epidemics C.A. Donnelly and N.M. Ferguson (1999) 85 Set-Indexed Martingales G. Ivanoff and E. Merzbach (2000) 86 The Theory of the Design of Experiments D.R. Cox and N. Reid (2000) 87 Complex Stochastic Systems O.E. Barndorff-Nielsen, D.R. Cox and C. Klüppelberg (2001) 88 Multidimensional Scaling, 2nd edition T.F. Cox and M.A.A. Cox (2001) 89 Algebraic Statistics—Computational Commutative Algebra in Statistics G. Pistone, E. Riccomagno and H.P. Wynn (2001) 90 Analysis of Time Series Structure—SSA and Related Techniques N. Golyandina, V. Nekrutkin and A.A. Zhigljavsky (2001) 91 Subjective Probability Models for Lifetimes Fabio Spizzichino (2001) 92 Empirical Likelihood Art B. Owen (2001) 93 Statistics in the 21st Century Adrian E. Raftery, Martin A. Tanner, and Martin T. Wells (2001) 94 Accelerated Life Models: Modeling and Statistical Analysis Vilijandas Bagdonavicius and Mikhail Nikulin (2001) 95 Subset Selection in Regression, Second Edition Alan Miller (2002) 96 Topics in Modelling of Clustered Data Marc Aerts, Helena Geys, Geert Molenberghs, and Louise M. Ryan (2002) 97 Components of Variance D.R. Cox and P.J. Solomon (2002) 98 Design and Analysis of Cross-Over Trials, 2nd Edition Byron Jones and Michael G. Kenward (2003) 99 Extreme Values in Finance, Telecommunications, and the Environment Bärbel Finkenstädt and Holger Rootzén (2003) 100 Statistical Inference and Simulation for Spatial Point Processes Jesper Møller and Rasmus Plenge Waagepetersen (2004) 101 Hierarchical Modeling and Analysis for Spatial Data Sudipto Banerjee, Bradley P. Carlin, and Alan E. Gelfand (2004) 102 Diagnostic Checks in Time Series Wai Keung Li (2004) 103 Stereology for Statisticians Adrian Baddeley and Eva B. Vedel Jensen (2004) 104 Gaussian Markov Random Fields: Theory and Applications Håvard Rue and Leonhard Held (2005) 105 Measurement Error in Nonlinear Models: A Modern Perspective, Second Edition Raymond J. Carroll, David Ruppert, Leonard A. Stefanski, and Ciprian M. Crainiceanu (2006) 106 Generalized Linear Models with Random Effects: Unified Analysis via H-likelihood Youngjo Lee, John A. Nelder, and Yudi Pawitan (2006)
  • 10. Generalized Linear Models with Random Effects Youngjo Lee Department of Statistics Seoul National University, Seoul John A. Nelder FRS Department of Mathematics Imperial College, London Yudi Pawitan Department of Medical Epidemiology and Biostatistics Karolinska Institutet, Stockholm Unified Analysis via H-likelihood Monographs on Statistics and Applied Probability 106 Boca Raton London New York Chapman & Hall/CRC is an imprint of the Taylor & Francis Group, an informa business
  • 11. Chapman & Hall/CRC Taylor & Francis Group 6000 Broken Sound Parkway NW, Suite 300 Boca Raton, FL 33487-2742 © 2006 by Taylor and Francis Group, LLC Chapman & Hall/CRC is an imprint of Taylor & Francis Group, an Informa business No claim to original U.S. Government works Printed in the United States of America on acid-free paper 10 9 8 7 6 5 4 3 2 1 International Standard Book Number-10: 1-58488-631-5 (Hardcover) International Standard Book Number-13: 978-1-58488-631-0 (Hardcover) This book contains information obtained from authentic and highly regarded sources. Reprinted material is quoted with permission, and sources are indicated. A wide variety of references are listed. Reasonable efforts have been made to publish reliable data and information, but the author and the publisher cannot assume responsibility for the validity of all materials or for the conse- quences of their use. No part of this book may be reprinted, reproduced, transmitted, or utilized in any form by any electronic, mechanical, or other means, now known or hereafter invented, including photocopying, microfilming, and recording, or in any information storage or retrieval system, without written permission from the publishers. For permission to photocopy or use material electronically from this work, please access www. copyright.com (http://www.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC) 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC is a not-for-profit organization that provides licenses and registration for a variety of users. For organizations that have been granted a photocopy license by the CCC, a separate system of payment has been arranged. Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and are used only for identification and explanation without intent to infringe. Visit the Taylor & Francis Web site at http://www.taylorandfrancis.com and the CRC Press Web site at http://www.crcpress.com
  • 12. Contents List of notations Preface Introduction 1 1 Classical likelihood theory 5 1.1 Definition 5 1.2 Quantities derived from the likelihood 10 1.3 Profile likelihood 14 1.4 Distribution of the likelihood-ratio statistic 16 1.5 Distribution of the MLE and the Wald statistic 20 1.6 Model selection 24 1.7 Marginal and conditional likelihoods 25 1.8 Higher-order approximations 30 1.9 Adjusted profile likelihood 32 1.10 Bayesian and likelihood methods 34 1.11 Jacobian in likelihood methods 36 2 Generalized Linear Models 37 2.1 Linear models 37 2.2 Generalized linear models 42 2.3 Model checking 49 2.4 Examples 53
  • 13. CONTENTS 3 Quasi-likelihood 65 3.1 Examples 68 3.2 Iterative weighted least squares 72 3.3 Asymptotic inference 73 3.4 Dispersion models 77 3.5 Extended quasi-likelihood 80 3.6 Joint GLM of mean and dispersion 85 3.7 Joint GLMs for quality improvement 90 4 Extended Likelihood Inferences 97 4.1 Two kinds of likelihood 98 4.2 Inference about the fixed parameters 103 4.3 Inference about the random parameters 105 4.4 Optimality in random-parameter estimation 108 4.5 Canonical scale, h-likelihood and joint inference 112 4.6 Statistical prediction 119 4.7 Regression as an extended model 121 4.8 Missing or incomplete-data problems 122 4.9 Is marginal likelihood enough for inference about fixed parameters? 130 4.10 Summary: likelihoods in extended framework 131 5 Normal linear mixed models 135 5.1 Developments of normal mixed linear models 138 5.2 Likelihood estimation of fixed parameters 141 5.3 Classical estimation of random effects 146 5.4 H-likelihood approach 155 5.5 Example 163 5.6 Invariance and likelihood inference 166
  • 14. CONTENTS 6 Hierarchical GLMs 173 6.1 HGLMs 173 6.2 H-likelihood 175 6.3 Inferential procedures using h-likelihood 183 6.4 Penalized quasi-likelihood 189 6.5 Deviances in HGLMs 192 6.6 Examples 194 6.7 Choice of random-effect scale 199 7 HGLMs with structured dispersion 203 7.1 HGLMs with structured dispersion 203 7.2 Quasi-HGLMs 205 7.3 Examples 213 8 Correlated random effects for HGLMs 231 8.1 HGLMs with correlated random effects 231 8.2 Random effects described by fixed L matrices 233 8.3 Random effects described by a covariance matrix 235 8.4 Random effects described by a precision matrix 236 8.5 Fitting and model-checking 237 8.6 Examples 238 8.7 Twin and family data 251 8.8 Ascertainment problem 264 9 Smoothing 267 9.1 Spline models 267 9.2 Mixed model framework 273 9.3 Automatic smoothing 278 9.4 Non-Gaussian smoothing 281
  • 15. CONTENTS 10 Random-effect models for survival data 293 10.1 Proportional-hazard model 293 10.2 Frailty models and the associated h-likelihood 295 10.3 ∗ Mixed linear models with censoring 307 10.4 Extensions 313 10.5 Proofs 315 11 Double HGLMs 319 11.1 DHGLMs 319 11.2 Models for finance data 323 11.3 Joint splines 324 11.4 H-likelihood procedure for fitting DHGLMs 325 11.5 Random effects in the λ component 328 11.6 Examples 330 12 Further topics 343 12.1 Model for multivariate responses 344 12.2 Joint model for continuous and binary data 345 12.3 Joint model for repeated measures and survival time 348 12.4 Missing data in longitudinal studies 351 12.5 Denoising signals by imputation 357 References 363 Data Index 380 Author Index 381 Subject Index 385
  • 16. List of notations fθ(y) probability density function of outcome y, indexed by parameter θ, including both discrete and continuous models. For convenience, the argument determines the function; for example, fθ(x), fθ(y) or fθ(y|x) might refer to different densities. This convention applies also to likelihood functions. H(β, v; y, v) h-likelihood of (β, v) based on data (y, v). When the data are obvious from the context, it is written as H(β, v); this convention applies also to other likelihoods. h(β, v; y, v) h-loglihood (log-likelihood) of (β, v) based on data (y, v). I(θ) Fisher information. I( θ) observed Fisher information. I(θ) expected Fisher information. L(θ; y) likelihood of θ based on data y. (θ; y) log-likelihood (loglihood) of θ based on data y. pη() adjusted profile of a generic loglihood , after eliminating a generic nuisance parameter η. q(μ; y) quasi-likelihood of model μ, based on data y. S(θ) score statistic.
  • 18. Preface The class of generalized linear models has proved a useful generalization of classical normal models since its introduction in 1972. Three compo- nents characterize all members of the class: (1) the error distribution, which is assumed to come from a one-parameter exponential family; (2) the linear predictor, which describes the pattern of the systematic effects; and (3) the algorithm, iterative weighted least squares, which gives the maximum-likelihood estimates of those effects. In this book the class is greatly extended, while at the same time re- taining as much of the simplicity of the original as possible. First, to the fixed effects may be added one or more sets of random effects on the same linear scale; secondly GLMs may be fitted simultaneously to both mean and dispersion; thirdly the random effects may themselves be correlated, allowing the expression of models for both temporal and spatial correlation; lastly random effects may appear in the model for the dispersion as well as that for the mean. To allow likelihood-based inferences for the new model class, the idea of h-likelihood is introduced as a criterion to be maximized. This allows a single algorithm, expressed as a set of interlinked GLMs, to be used for fitting all members of the class. The algorithm does not require the use of quadrature in the fitting, and neither are prior probabilities required. The result is that the algorithm is orders of magnitude faster than some existing alternatives. The book will be useful to statisticians and researchers in a wide variety of fields. These include quality-improvement experiments, combination of information from many trials (meta-analysis), frailty models in sur- vival analysis, missing-data analysis, analysis of longitudinal data, anal- ysis of spatial data on infection etc., and analysis of financial data using random effects in the dispersion. The theory, which requires competence in matrix theory and knowledge of elementary probability and likelihood theory, is illustrated by worked examples and many of these can be run by the reader using the code supplied on the accompanying CD. The flexibility of the code makes it easy for the user to try out alternative
  • 19. PREFACE analyses for him/herself. We hope that the development will be found to be self-contained, within the constraint of monograph length. Youngjo Lee, John Nelder and Yudi Pawitan Seoul, London and Stockholm
  • 20. Introduction We aim to build an extensive class of statistical models by combining a small number of basic statistical ideas in diverse ways. Although we use (a very small part of) mathematics as our basic tool to describe the statistics, our aim is not primarily to develop theorems and proofs of theorems, but rather to provide the statistician with statistical tools for dealing with inferences from a wide range of data, which may be structured in many different ways. We develop an extended likelihood framework, derived from classical likelihood, which is itself described in Chapter 1. The starting point in our development of the model class is the idea of a generalized linear model (GLM). The original paper is by Nelder and Wedderburn (1972), and a more extensive treatment is given by McCul- lagh and Nelder (1989). An account of GLMs in summary form appears in Chapter 2. The algorithm for fitting GLMs is iterative weighted least squares, and this forms the basis of fitting algorithms for our entire class, in that these can be reduced to fitting a set of interconnected GLMs. Two important extensions of GLMs, discussed in Chapter 3, involve the ideas of quasi-likelihood (QL) and extended quasi-likelihood (EQL). QL dates from Wedderburn (1974), and EQL from Nelder and Pregibon (1987). QL extends the scope of GLMs to errors defined by their mean and variance function only, while EQL forms the pivotal quantity for the joint modelling of mean and dispersion; such models can be fitted with two interlinked GLMs (see Lee and Nelder (1998)). Chapter 4 discusses the idea of h-likelihood, introduced by Lee and Nelder (1996), as an extension of Fisher likelihood to models of the GLM type with additional random effects in the linear predictor. This extension has led to considerable discussion, including the production of alleged counterexamples, all of which we have been able to refute. Exten- sive simulation has shown that the use of h-likelihood and its derivatives gives good estimates of fixed effects, random effects and dispersion com- ponents. Important features of algorithms using h-likelihood for fitting is that quadrature is not required and again a reduction to interconnected 1
  • 21. 2 INTRODUCTION GLMs suffices to fit the models. Methods requiring quadrature cannot be used for high-dimensional integration. In the last decades we have witnessed the emergence of several computational methods to overcome this difficulty, for examples Monte Carlo-type and/or EM-type methods to compute the ML estimators for extended class of models. It is now possible to compute them directly with h-likelihood without resorting to these computationally intensive methods. The method does not require the use of prior probabilities Normal models with additional (normal) random effects are dealt with in Chapter 5. We compare marginal likelihood with h-likelihood for fitting the fixed effects, and show how REML can be described as maximizing an adjusted profile likelihood. In Chapter 6 we bring together the GLM formulation with additional random effects in the linear predictor to form HGLMs. Special cases include GLMMs, where the random effects are assumed normal, and conjugate HGLMs, where the random effects are assumed to follow the conjugate distribution to that of the response variable. An adjusted pro- file h-likelihood gives a generalization of REML to non-normal GLMs. HGLMs can be further extended by allowing the dispersion parameter of the response to have a structure defined by its own set of covari- ates. This brings together the HGLM class with the joint modelling of mean and dispersion described in Chapter 3, and this synthesis forms the basis of Chapter 7. HGLMs and conjugate distributions for arbi- trary variance functions can be extended to quasi-likelihood HGLMs and quasi-conjugate distributions, respectively. Many models for spatial and temporal data require the observations to be correlated. We show how these may be dealt with by transforming linearly the random terms in the linear predictor. Covariance structures may have no correlation parameters, or those derived from covariance matrices or from precision matrices; correlations derived from the various forms are illustrated in Chapter 8. Chapter 9 deals with smoothing, whereby a parametric term in the linear predictor may be replaced by a data-driven smooth curve called a spline. It is well known that splines are isomorphic to certain random-effect models, so that they fit easily into the HGLM framework. In Chapter 10 we show how random-effect models can be extended to survival data. We study two alternative models, namely frailty models and normal-normal HGLMs for censored data. We also show how to model interval-censored data. The h-likelihood provides useful inferences for the analysis of survival data.
  • 22. INTRODUCTION 3 Chapter 11 deals with a further extension to HGLMs, whereby the dis- persion model, as well as the mean model, may have random effects in its linear predictor. These are shown to be relevant to, and indeed to extend, certain models proposed for the analysis of financial data. These double HGLMs represent the furthest extension of our model class, and the algorithm for fitting them still reduces to the fitting of interconnected GLMs. In the last Chapter, further synthesis is made by allowing multivariate HGLMs. We show how missing mechanisms can be modelled as bivariate HGLMs. Furthermore, h-likelihood allows a fast imputation to provide a powerful algorithm for denoising signals. Many other existing statistical models fall into the HGLM class. We believe that many statistical areas covered by the classical likelihood framework fall into our extended framework. The aim of this book is to illustrate that extended framework for the analysis of various kinds of data. We are grateful to Dr. Ildo Ha and Dr. Maengseok Noh, Mr. Heejin Park, Mr. Woojoo Lee, Mr. Sunmo Kang, Mr. Kunho Chang, Mr. Kwangho Park and Ms. Minkyung Cho for their proof reading, editorial assistance and comments, and also to an anonymous referee for numerous useful comments and suggestions. We are especially grateful to Prof. Roger Payne of VSN-International for the production of a new (much faster) version of the algorithm for Genstat, and for the preparation of a version to accompany this book. Software The DHGLM methodology was developed using the GenStat statistical system. Anyone who has bought this book can obtain free use of GenStat for a period of 12 months. Details, together with GenStat programs and data files for many of the examples in this book, can be found at http://hglm.genstat.co.uk/
  • 24. CHAPTER 1 Classical likelihood theory 1.1 Definition ‘The problems of theoretical statistics,’ wrote Fisher in 1921, ‘fall into two main classes: a) To discover what quantities are required for the adequate descrip- tion of a population, which involves the discussion of mathematical expressions by which frequency distributions may be represented b) To determine how much information, and of what kind, respecting these population-values is afforded by a random sample, or a series of random samples.’ It is clear that these two classes refer to statistical modelling and in- ference. In the same paper, for the first time, Fisher coined the term ‘likelihood’ explicitly and contrasted it with ‘probability’, two “radically distinct concepts [that] have been confused under the name of ‘proba- bility’...”. Likelihood is a key concept in both modelling and inference, and throughout this book we shall rely greatly on this concept. This chapter summarizes all the classical likelihood concepts from Pawitan (2001) that we shall need in this book; occasionally, for more details, we refer the reader to that book. Definition 1.1 Assuming a statistical model fθ(y) parameterized by a fixed and unknown θ, the likelihood L(θ) is the probability of the observed data y considered as a function of θ. The generic data y include any set of observations we might get from an experiment of any complexity, and the model fθ(y) should specify how the data could have been generated probabilistically. For discrete data the definition is directly applicable since the probability is nonzero. For continuous data that are measured with good precision, the probabil- ity of observing data in a small neighbourhood of y is approximately equal to the density function times a small constant. We shall use the 5
  • 25. 6 CLASSICAL LIKELIHOOD THEORY terms ‘probability’ or ‘probability density’ to cover both discrete and continuous outcomes. So, with many straightforward measurements, the likelihood is simply the probability density seen as a function of the parameter. The parameter θ in the definition is also a generic parameter that, in principle, can be of any dimension. However, in this chapter we shall re- strict θ to consist of fixed parameters only. The purpose of the likelihood function is to convey information about unknown quantities. Its direct use for inference is controversial, but the most commonly-used form of inference today is based on quantities derived from the likelihood func- tion and justified using probabilistic properties of those quantities. If y1 and y2 are independent datasets with probabilities f1,θ(y1) and f2,θ(y2) that share a common parameter θ, then the likelihood from the combined data is L(θ) = f1,θ(y1)f2,θ(y2) = L1(θ)L2(θ), (1.1) where L1(θ) and L2(θ) are the likelihoods from the individual datasets. On a log scale this property is a simple additive property (θ) ≡ log L(θ) = log L1(θ) + log L2(θ), giving a very convenient formula for combining information from in- dependent experiments. Since the term ‘log-likelihood’ occurs often we shall shorten it to ‘loglihood’. The simplest case occurs if y1 and y2 are an independent-and-identically- distributed (iid) sample from the same density fθ(y), so L(θ) = fθ(y1)fθ(y2), or (θ) = log fθ(y1) + log fθ(y2). So, if y1, . . . , yn are an iid sample from fθ(y) we have L(θ) = i=1 fθ(yi), or (θ) = n i=1 log fθ(yi). Example 1.1: Let y1, . . . , yn be an iid sample from N(θ, σ2 ) with known σ2 . The contribution of yi to the likelihood is Li(θ) = 1 √ 2πσ2 exp − (yi − θ)2 2σ2 ,
  • 26. DEFINITION 7 and the total loglihood is (θ) = n i=1 log Li(θ) = − n 2 log(2πσ2 ) − 1 2σ2 n i=1 (yi − θ)2 . 2 Example 1.2: We observe the log-ratios of a certain protein expression from n = 10 tissue samples compared to the reference sample: -0.86 0.73 1.29 1.41 1.56 1.86 2.33 2.59 3.37 3.48. The sample mean and standard deviations are 1.776 and 1.286, respectively. Assume that the measurements are a random sample from N(θ, σ2 = s2 = 1.2862 = 1.65), where the variance is assumed known at the observed value. Assuming all the data are observed with good precision, the normal density is immediately applicable, and the likelihood of θ is given in the previous example. This is plotted as the solid curve in Figure 1.1. Typically, in plotting the function we set the maximum of the function to one. 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 μ Likelihood Figure 1.1 Likelihood of the mean from the normal model, assuming all the data are observed (solid), assuming the data were reported in grouped form (dashed), assuming only the sample size and the maximum was reported (dot- ted), and assuming a single observation equal to the sample mean (dashed- dotted). Now, suppose the data were reported in grouped form as the number of values that are ≤ 0, between 0 and 2, and 2, thus n1 = 1, n2 = 5, n3 = 4.
  • 27. 8 CLASSICAL LIKELIHOOD THEORY Let us still assume that the original data came from N(θ, σ2 = 1.65). The distribution of the counts is multinomial with probabilities p1 = Φ 0 − θ σ p2 = Φ 2 − θ σ − Φ 0 − θ σ p3 = 1 − p1 − p2 where Φ(z) is the standard normal distribution function, and the likelihood is L(θ) = n! n1!n2!n3! pn1 1 pn2 2 pn3 3 , shown as the dashed line in Figure 1.1. We can also consider this as the likelihood of interval data. It is interesting to note that it is very close to the likelihood of the original raw data, so there is only a little loss of information in the grouped data about the mean parameter. Now suppose that only the sample size n = 10 and the maximum y(10) = 3.48 were reported. What is the likelihood of θ based on the same model above? Now, if y1, . . . , yn is an identically and independently distributed (iid) sample from N(θ, σ2 ), the distribution function of y(n) is F(t) = P(Y(n) ≤ t) = P(Yi ≤ t, for each i) = Φ t − θ σ n . So, the likelihood based on observing y(n) is L(θ) = fθ(y(n)) = n Φ t − θ σ n−1 φ t − θ σ 1 σ Figure 1.1 shows this likelihood as a dotted line, showing more information is lost compared to the categorical data above. However, the maximum carries substantially more information than a single observation alone (assumed equal to the sample mean and having variance σ2 ), as shown by the dashed-dotted line in the same figure. 1.1.1 Invariance principle and likelihood-ratio Suppose y = g(x) is a one-to-one transformation of the observed data x; if x is continuous, the likelihood based on y is L(θ; y) = L(θ; x) ∂x ∂y . Obviously x and y should carry the same information about θ, so to compare θ1 and θ2 only the likelihood ratio is relevant since it is invariant
  • 28. DEFINITION 9 with respect to the transformation: L(θ2; y) L(θ1; y) = L(θ2; x) L(θ1; x) . More formally, we might add that the ratio is maximal invariant, in the sense that any function of L(θ1; y) and L(θ2; y) that is invariant under different one-to-one transformations y = g(x) must be a function of the likelihood ratio. This means that proportional likelihoods are equivalent, i.e., carrying the same information about the parameter, so, to make it unique, especially for plotting, it is customary to normalize the likelihood function to have unit maximum. That the likelihood ratio should be the same for different transforma- tions of the data seems like a perfectly natural requirement. It seems reasonable also that the ratio should be the same for different trans- formations of the parameter itself. For example, it should not matter whether we analyse the dispersion parameter in terms of σ2 or σ, the data should carry the same information, that is L∗ (σ2 2; y) L∗(σ2 1; y) = L(σ2; y) L(σ1; y) . Since this requirement does not follow from any other principle, it should be regarded as an axiom, which is implicitly accepted by all statisticians except the so-called Bayesians. This axiom implies that in computing the likelihood of a transformed parameter we cannot use a Jacobian term. Hence, fundamentally, the likelihood cannot be treated like a probability density function over the parameter space and it does not obey proba- bility laws; for example, it does not have to integrate to one. Any mention of Bayesianism touches on deeply philosophical issues that are beyond the scope of this book. Suffice it to say that the likelihood- based approaches we take in this book are fundamentally non-Bayesian. However, there are some computational similarities between likelihood and Bayesian methods, and these are discussed in Section 1.10. 1.1.2 Likelihood principle Why should we start with the likelihood? One of the earliest theoretical results is that, given a statistical model fθ(y) and observation y from it, the likelihood function is a minimal sufficient statistic (see, e.g., Pawitan, 2001, Chapter 3). Practically, this means that there is a corresponding minimal set of statistics that would be needed to draw the likelihood
  • 29. 10 CLASSICAL LIKELIHOOD THEORY function, so this set would be sufficient and any further data reduc- tion would involve some loss of information about the parameter. In the normal example above, for a given sample size and variance, knowing the sample mean is sufficient to draw the likelihood based on the whole sample, so the sample mean is minimally sufficient. Birnbaum (1962) showed that a stronger statement is possible: any mea- sure of evidence from an experiment depends on the data only through the likelihood function. Such a result has been elevated into a principle, the so-called ‘likelihood principle’, intuitively stating that the likelihood contains all the evidence or information about θ in the data. Violation of the principle, i.e., by basing an analysis on something other than the likelihood, leads to a potential loss of information, or it can make the analysis open to contradictions (see Pawitan, Chapter 7). This means that in any statistical problem, whenever possible, it is always a good idea to start with the likelihood function. Another strong justification comes from optimality considerations: un- der very general conditions, as the sample size increases, likelihood-based estimates are usually the best possible estimates of the unknown param- eters. In finite or small samples, the performance of a likelihood-based method depends on the models, so that it is not possible to have a simple general statement about optimality. We note, however, that these nice properties hold only when the pre- sumed model is correct. In practice, we have no guarantee that the model is correct, so that any data analyst should fit a reasonable model and then perform model checking. 1.2 Quantities derived from the likelihood In most regular problems, where the loglihood function is reasonably quadratic, its analysis can focus on the location of the maximum and the curvature around it. Such an analysis requires only the first two derivatives. Thus we define the score function S(θ) as the first derivative of the loglihood: S(θ) ≡ ∂ ∂θ (θ), and the maximum likelihood estimate (MLE) θ is the solution of the score equation S(θ) = 0.
  • 30. QUANTITIES DERIVED FROM THE LIKELIHOOD 11 At the maximum, the second derivative of the loglihood is negative, so we define the curvature at θ as I( θ), where I(θ) ≡ − ∂2 ∂θ2 (θ). A large curvature I( θ) is associated with a tight or strong peak, intu- itively indicating less uncertainty about θ. I( θ) is called the observed Fisher information. For distinction we call I(θ) the Fisher information. Under some regularity conditions – mostly ensuring valid interchange of derivative and integration operations – that hold for the models in this book, the score function has interesting properties: EθS(θ) = 0 varθS(θ) = EθI(θ) ≡ I(θ). The latter quantity I(θ) is called the expected Fisher information. For simple proofs of these results and a discussion of the difference between observed and expected Fisher information, see Pawitan (2001, Chapter 8). To emphasize, we now have (at least) 3 distinct concepts: Fisher information I(θ), observed Fisher information I( θ) and expected Fisher information I(θ). We could also have the mouthful ‘estimated expected Fisher information’ I( θ), which in general is different from the observed Fisher information, but such a term is never used in practice. Example 1.3: Let y1, . . . , yn be an iid sample from N(θ, σ2 ). For the moment assume that σ2 is known. Ignoring irrelevant constant terms (θ) = − 1 2σ2 n i=1 (yi − θ)2 , so we immediately get S(θ) = ∂ ∂θ log L(θ) = 1 σ2 n i=1 (yi − θ). Solving S(θ) = 0 produces θ = y as the MLE of θ. The second derivative of the loglihood gives the observed Fisher information I( θ) = n σ2 . Here var( θ) = σ2 /n = I−1 ( θ), so larger information implies a smaller variance. Furthermore, the standard error of θ is se( θ) = σ/ √ n = I−1/2 ( θ). 2 Example 1.4: Many commonly-used distributions in statistical modelling such as the normal, Poisson, binomial, and gamma distributions, etc. belong to the so-called exponential family. It is an important family for its versatility,
  • 31. 12 CLASSICAL LIKELIHOOD THEORY and many theoretical results hold for this family. A p-parameter exponential family has a log-density log fθ(y) = p i=1 θiti(y) − b(θ) + c(y), where θ = (θ1, . . . , θp) and t1(y), . . . , tp(y) are known functions of y. The parameters θi are called the canonical parameters; if these parameters comprise p free parameters, the family is called a full exponential family. For most models, the commonly-used parameterization will not be in canonical form. For example, for the Poisson model with mean μ log fθ(y) = y log μ − μ − log y! so the canonical parameter is θ = log μ, and b(θ) = μ = exp(θ). The canonical form often leads to simpler formulae. Since the moment-generating function is m(η) = E exp(ηy) = exp{b(θ + η) − b(θ)}, an exponential family is characterized by the b() function. From the moment generating function, we can immediately show an important result about the relationship between the mean and variance of an exponential family μ ≡ Ey = b (θ) V (μ) ≡ var(y) = b (θ). This means that the mean-variance relationship determines the b() function by a differential equation V (b (θ)) = b (θ). For example, for Poisson model V (μ) = μ, so b() must satisfy b (θ) = b (θ), giving b(θ) = exp(θ). Suppose y1, . . . , yn comprise an independent sample, where yi comes from a one-parameter exponential family with canonical parameter θi, t(yi) = yi and having a common function b(). The joint density is also of exponential family form log fθ(y) = n i=1 {θiyi − b(θi) + c(yi)}, In regression problems the θis are a function of common structural parameter β, i.e., θi ≡ θi(β), where the common parameter β is p-dimensional. Then the score function for β is given by S(β) = n i=1 ∂θi ∂β {yi − b (θi)} = n i=1 ∂θi ∂β (yi − μi)
  • 32. QUANTITIES DERIVED FROM THE LIKELIHOOD 13 using the above result that μi = Eyi = b (θi), and the Fisher information matrix by I(β) = n i=1 − ∂2 θi ∂β∂β (yi − μi) + b (θi) ∂θi ∂β ∂θi ∂β . (1.2) The expected Fisher information is I(β) = n i=1 b (θi) ∂θi ∂β ∂θi ∂β . In general I(β) = I(β), but equality occurs if the canonical parameter θi is a linear function of β, since in this case the first term of I(β) in (1.2) becomes zero. However, in general, since this first term has zero mean, as n gets large, it tends to be much smaller than the second term. 2 1.2.1 Quadratic approximation of the loglihood Using a second-order Taylor’s expansion around θ (θ) ≈ log L( θ) + S( θ)(θ − θ) − 1 2 (θ − θ)t I( θ)(θ − θ) we get log L(θ) L( θ) ≈ − 1 2 (θ − θ)t I( θ)(θ − θ), providing a quadratic approximation of the normalized loglihood around θ. We can judge the accuracy of the quadratic approximation by plotting the true loglihood and the approximation together. In a loglihood plot, we set the maximum of the loglihood to zero and check a range of θ such that the loglihood is approximately between −4 and 0. In the normal example above (Example 1.3) the quadratic approximation is exact: log L(θ) L( θ) = − 1 2 (θ − θ)t I( θ)(θ − θ), so a quadratic approximation of the loglihood corresponds to a normal approximation for θ. We shall say the loglihood is regular if it is well approximated by a quadratic. The standard error of an estimate is defined as its estimated standard deviation and it is used as a measure of precision. For scalar parameters, the most common formula is se = I−1/2 ( θ). In the vector case, the standard error for each parameter is given by the square-root of diagonal terms of the inverse Fisher information. If the
  • 33. 14 CLASSICAL LIKELIHOOD THEORY likelihood function is not very quadratic, then the standard error is not meaningful. In this case, a set of likelihood or confidence intervals is a better supplement to the MLE. 1.3 Profile likelihood While the definition of likelihood covers multiparameter models, the re- sulting multidimensional likelihood function can be difficult to describe or to communicate. Even when we are interested in several parameters, it is always easier to describe one parameter at a time. The problem also arises in cases where we may be interested in only a subset of the param- eters. In the normal model, for example, we might be interested only in the mean μ, while σ2 is a ‘nuisance’, being there only to make the model able to adapt to data variability. A method is needed to ‘concentrate’ the likelihood on the parameter of interest by eliminating the nuisance parameter. Accounting for the extra uncertainty due to unknown nuisance param- eters is an essential consideration, especially with small samples. So, a naive plug-in method for the unknown nuisance parameter is often unsat- isfactory. A likelihood approach to eliminating a nuisance parameter is to replace it by its MLE at each fixed value of the parameter of interest. The resulting likelihood is called the profile likelihood. Let (θ, η) be the full parameter and θ the parameter of interest. Definition 1.2 Given the joint likelihood L(θ, η) the profile likelihood of θ is given by L(θ) = max η L(θ, η), where the maximization is performed at a fixed value of θ. It should be emphasized that at fixed θ the MLE of η is generally a function of θ, so we can also write L(θ) = L(θ, ηθ). The profile likelihood is then treated like the standard likelihood func- tion. The profile likelihood usually gives a reasonable likelihood for each com- ponent parameter, especially if the number of nuisance parameters is small relative to sample size. The main problem comes from the fact that it is not a proper likelihood function, in the sense that it is not based on a probability of some observed quantity. For example, the score statistic
  • 34. PROFILE LIKELIHOOD 15 derived from the profile likelihood does not have the usual properties of a score statistic, in that it often has nonzero mean and its variance does not match the expected Fisher information. These problems typically lead to biased estimation and over-precision of the standard errors. Ad- justments to the profile likelihood needed to overcome these problems are discussed in Section 1.9. Example 1.5: Suppose y1, . . . , yn are an iid sample from N(μ, σ2 ) with both parameters unknown. The likelihood function of (μ, σ2 ) is given by L(μ, σ2 ) = 1 √ 2πσ2 n exp − 1 2σ2 i (yi − μ)2 . A likelihood of μ without reference to σ2 is not an immediately meaningful quantity, since it is very different at different values of σ2 . As an example, suppose we observe 0.88 1.07 1.27 1.54 1.91 2.27 3.84 4.50 4.64 9.41. The MLEs are μ = 3.13 and σ2 = 6.16. Figure 1.2(a) plots the contours of the likelihood function at 90%, 70%, 50%, 30% and 10% cutoffs. There is a need to plot the likelihood of each parameter individually: it is more difficult to describe or report a multiparameter likelihood function, and usually we are not interested in a simultaneous inference of μ and σ2 . μ σ 2 0 1 2 3 4 5 6 5 10 15 20 25 (a) Likelihood contour 0 1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0 μ Likelihood (b) Likelihood of μ Figure 1.2 (a) Likelihood function of (μ, σ2 ). The contour lines are plotted at 90%, 70%, 50%, 30% and 10% cutoffs; (b) Profile likelihood of the mean μ (solid), L(μ, σ2 = σ2 ) (dashed), and L(μ, σ2 = 1) (dotted). The profile likelihood function of μ is computed as follows. For fixed μ the maximum likelihood estimate of σ2 is σ2 μ = 1 n i (yi − μ)2 ,
  • 35. 16 CLASSICAL LIKELIHOOD THEORY so the profile likelihood of μ is L(μ) = constant × ( σ2 μ)−n/2 . This is not the same as L(μ, σ2 = σ2 ) = constant × exp − 1 2 σ2 i (yi − μ)2 , the slice of L(μ, σ2 ) at σ2 = σ2 ; this is known as an estimated likelihood. These two likelihoods will be close if σ2 is well estimated, otherwise the profile likelihood is to be preferred. For the observed data L(μ) and L(μ, σ2 = σ2 ) are plotted in Figure 1.2(b). It is obvious that ignoring the unknown variability, e.g. by assuming σ2 = 1, would give a wrong inference. So, in general, a nuisance parameter is needed to allow for a better model, but it has to be eliminated properly in order to concentrate the inference on the parameter of interest. The profile likelihood of σ2 is given by L(σ2 ) = constant × (σ2 )−n/2 exp − 1 2σ2 i (yi − y)2 = constant × (σ2 )−n/2 exp{−n σ2 /(2σ2 )}. 2 1.4 Distribution of the likelihood-ratio statistic Traditional inference on an unknown parameter θ relies on the distri- bution theory of its estimate θ. A large-sample theory is needed in the general case, but in the normal mean model, from Example 1.3 we have log L(θ) L( θ) = − n 2σ2 (y − θ)2 . Now, we know y is N(θ, σ2 /n), so n σ2 (y − θ)2 ∼ χ2 1, or W ≡ 2 log L( θ) L(θ) ∼ χ2 1. (1.3) W is called Wilks’s likelihood-ratio statistic. Its χ2 distribution is exact in the normal mean model and approximate in general cases; see below. This is the key distribution theory needed to calibrate the likelihood. One of the most useful inferential quantities we can derive from the likelihood function is an interval containing parameters with the largest
  • 36. DISTRIBUTION OF THE LIKELIHOOD-RATIO STATISTIC 17 likelihoods: θ; L(θ) L( θ) c , which is the basis of likelihood-based confidence intervals. In view of (1.3), for an unknown but fixed θ, the probability that the likelihood interval covers θ is P L(θ) L( θ) c = P 2 log L( θ) L(θ) −2 log c = P(χ2 1 −2 log c). So, if for some 0 α 1 we choose a cutoff c = e− 1 2 χ2 1,(1−α) , (1.4) where χ2 1,(1−α) is the 100(1 − α) percentile of χ2 1, we have P L(θ) L( θ) c = P(χ2 1 χ2 1,(1−α)) = 1 − α. This means that by choosing c in (1.4) the likelihood interval θ, L(θ) L( θ) c is a 100(1 − α)% confidence interval for θ. In particular, for α = 0.05 and 0.01 formula (1.4) gives c = 0.15 and 0.04. So, we arrive at the important conclusion that, in the normal mean case, we get an exact 95% or 99% confidence interval for the mean by choos- ing a cutoff of 15% or 4%, respectively. This same confidence-interval interpretation is approximately true for reasonably regular problems. 1.4.1 Large-sample approximation theory Using a second-order expansion around θ as before L(θ) ≈ constant × exp − 1 2 (θ − θ)t I( θ)(θ − θ) , which can be seen immediately as the likelihood based on a single ob- servation θ taken from N(θ, I−1 ( θ)), so intuitively W ≡ 2 log L( θ) L(θ) ≈ ( θ − θ)t I( θ)( θ − θ) ∼ χ2 p.
  • 37. 18 CLASSICAL LIKELIHOOD THEORY A practical guide to judge the accuracy of the approximation is that the likelihood is reasonably regular. The distribution theory may be used to get an approximate P-value for testing H0 : θ = θ0 versus H1 : θ = θ0. Specifically, on observing a normalized likelihood L(θ0) L( θ) = r we compute w = −2 log r, and P-value = P(W ≥ w), where W has a χ2 p distribution. From the distribution theory we can also set an approximate 100(1−α)% confidence region for θ as CR = θ; 2 log L( θ) L(θ) χ2 p,(1−α) . For example, an approximate 95% CI is CI = θ; 2 log L( θ) L(θ) 3.84 = {θ; L(θ) 0.15 × L( θ)}. Such a confidence region is unlikely to be useful for p 2 because of the display problem. The case of p = 2 is particularly simple, since the 100α% likelihood cutoff has an approximate 100(1−α)% confidence level. This is true since exp − 1 2 χ2 p,(1−α) = α, so the contour {θ; L(θ) = αL( θ)} defines an approximate 100(1 − α)% confidence region. If there are nuisance parameters, we use the profile likelihood method to remove them. Let θ = (θ1, θ2) ∈ Rp , where θ1 ∈ Rq is the parameter of interest and θ2 ∈ Rr is the nuisance parameter, so p = q + r. Given the likelihood L(θ1, θ2) we compute the profile likelihood as L(θ1) ≡ max θ2 L(θ1, θ2) ≡ L(θ1, θ2(θ1)), where θ2(θ1) is the MLE of θ2 at a fixed value of θ1. The theory (Pawitan, 2001, Chapter 9) indicates that we can treat L(θ1)
  • 38. DISTRIBUTION OF THE LIKELIHOOD-RATIO STATISTIC 19 as if it were a true likelihood; in particular, the profile likelihood ratio follows the usual asymptotic theory: W = 2 log L( θ1) L(θ1) d → χ2 q = χ2 p−r. (1.5) Here is another way of looking at the profile likelihood ratio from the point of view of testing H0: θ1 = θ10. This is useful for dealing with hypotheses that are not easily parameterized, for example, testing for independence in a two-way table. By definition, L(θ10) = max θ2,θ1=θ10 L(θ1, θ2) = max H0 L(θ) L( θ1) = max θ1 {max θ2 L(θ1, θ2)} = max θ L(θ). Therefore, W = 2 log max L(θ), no restriction on θ max L(θ), θ ∈ H0 . A large value of W means H0 has a small likelihood, or there are other values with higher support, so we should reject H0. How large is ‘large’ will be determined by the sampling distribution of W. We can interpret p and r as p = dimension of the whole parameter space θ = the total number of free parameters = total degrees of freedom of the parameter space r = dimension of the parameter space under H0 = the number of free parameters under H0 = degrees of freedom of the model under H0. Hence the number of degrees of freedom in (1.5) is the change in the dimension of the parameter space from the whole space to the one under H0. For easy reference, the main result is stated as Theorem 1.1 Assuming regularity conditions, under H0: θ1 = θ10 W = 2 log max L(θ) maxH0 L(θ) → χ2 p−r. In some applications it is possible to get an exact distribution for W. For
  • 39. 20 CLASSICAL LIKELIHOOD THEORY example, many normal-based classical tests, such as the t-test or F-test, are exact likelihood-ratio tests. Example 1.6: Let y1, . . . , yn be an iid sample from N(μ, σ2 ) with σ2 un- known and we are interested in testing H0: μ = μ0 versus H1: μ = μ0. Under H0 the MLE of σ2 is σ2 = 1 n i (yi − μ0)2 . Up to a constant term, max H0 L(θ) ∝ 1 n i (yi − μ0)2 −n/2 max L(θ) ∝ 1 n i (yi − y)2 −n/2 and W = n log i(yi − μ0)2 i(yi − y)2 = n log i(yi − y)2 + n(y − μ0)2 i(yi − y)2 = n log 1 + t2 n − 1 , where t = √ n(y − μ0)/s) and s2 is the sample variance. Now, W is mono- tone increasing in t2 , so we reject H0 for large values of t2 or |t|. This is the usual t-test. A critical value or a P-value can be determined from the tn−1- distribution. 2 1.5 Distribution of the MLE and the Wald statistic As defined before, let the expected Fisher information be I(θ) = EθI(θ) where the expected value is taken assuming θ is the true parameter. For independent observations we can show that information is additive, so for n iid observations we have I(θ) = nI1(θ), where I1(θ0) is the expected Fisher information from a single observa- tion. We first state the scalar case: Let y1, . . . , yn be an iid sample from fθ0 (y),
  • 40. DISTRIBUTION OF THE MLE AND THE WALD STATISTIC 21 and assume that the MLE θ is consistent in the sense that P(θ0 − θ θ0 + ) → 1 for all 0 as n gets large. Then, under some regularity conditions, √ n( θ − θ0) → N(0, 1/I1(θ0)). (1.6) For a complete list of standard ‘regularity conditions’ see Lehmann (1983, Chapter 6). One important condition is that θ must not be a boundary parameter; for example, the parameter θ in Uniform(0, θ) is a boundary parameter, for which the likelihood cannot be regular. We give only an outline of the proof: a linear approximation of the score function S(θ) around θ0 gives S(θ) ≈ S(θ0) − I(θ0)(θ − θ0) and since S( θ) = 0, we have √ n( θ − θ0) ≈ {I(θ0)/n}−1 S(θ0)/ √ n. The result follows using the law of large numbers: I(θ0)/n → I1(θ0) and the central limit theorem (CLT): S(θ0)/ √ n → N{0, I1(θ0)}. We can then show that all the following are true: I(θ0)( θ − θ0) → N(0, 1) I(θ0)( θ − θ0) → N(0, 1) I( θ)( θ − θ0) → N(0, 1) I( θ)( θ − θ0) → N(0, 1). These statements in fact hold more generally than (1.6) since, under sim- ilar general conditions, they also apply for independent-but-nonidentical outcomes, as long as the CLT holds for the score statistic. The last two forms are the most practical, and informally we say θ ∼ N(θ0, 1/I( θ)) θ ∼ N(θ0, 1/I( θ)). In the full exponential family (Example 1.4) these two versions are iden- tical. However, in more complex cases where I( θ) = I( θ), the use of I( θ) is preferable (Pawitan, 2001, Chapter 9).
  • 41. 22 CLASSICAL LIKELIHOOD THEORY In the multiparameter case, the asymptotic distribution of the MLE θ is given by the following equivalent results: √ n( θ − θ) → N(0, I1(θ)−1 ) I(θ)1/2 ( θ − θ) → N(0, Ip) I( θ)1/2 ( θ − θ) → N(0, Ip) ( θ − θ)t I( θ)( θ − θ) → χ2 p, where Ip is an identity matrix of order p. In practice, we would use θ ∼ N(θ, I( θ)−1 ). The standard error of θi is given by the estimated standard deviation se( θi) = √ Iii, where Iii is the ith diagonal term of I( θ)−1 . A test of an individual parameter H0 : θi = θi0 is given by the Wald statistic zi = θi − θi0 se( θi) , whose null distribution is approximately standard normal. Wald confidence interval As stated previously the normal approximation is closely associated with the quadratic approximation of the loglihood. In these regular cases where the quadratic approximation works well and I( θ) is meaningful, we have log L(θ) L( θ) ≈ − 1 2 I( θ)(θ − θ)2 so the likelihood interval {θ, L(θ)/L( θ) c} is approximately θ ± −2 log c × I( θ)−1/2 . In the normal mean model in Example 1.3 this is an exact CI with confidence level P(χ2 1 −2 log c). For example, θ ± 1.96 I( θ)−1/2 is an exact 95% CI. The asymptotic theory justifies its use in nonnor- mal cases as an approximate 95% CI. Comparing with likelihood-based intervals, note the two levels of approximation to set up this interval:
  • 42. DISTRIBUTION OF THE MLE AND THE WALD STATISTIC 23 the loglihood is approximated by a quadratic and the confidence level is approximate. What if the loglihood function is far from quadratic? See Figure 1.3. From the likelihood point of view the Wald interval is deficient, since it includes values with lower likelihood compared to values outside the interval. −1 0 1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0 θ Likelihood Figure 1.3 Poor quadratic approximation (dotted) of a likelihood function (solid). Wald intervals might be called MLE-based intervals. To be clear, confi- dence intervals based on {θ, L(θ)/L( θ) c} will be called likelihood- based confidence intervals. Wald intervals are always symmetric, but likelihood-based intervals can be asymmetric. Computationally the Wald interval is much easier to compute than the likelihood-based interval. If the likelihood is regular the two intervals will be similar. However, if they are not similar the likelihood-based CI is preferable. One problem with the Wald interval is that it is not invariant with respect to parameter transformation: if (θL, θU ) is the 95% CI for θ, (g(θL), g(θU )) is not the 95% CI for g(θ), unless g() is linear. This means Wald intervals works well only on one particular scale where the esti- mate is most normally distributed. In contrast the likelihood-based CI is transformation invariant, so it works similarly in any scale. Example 1.7: Suppose y = 8 is a binomial sample with n = 10 and probability θ. We can show graphically that the quadratic approximation is poor. The standard error of θ is I( θ)−1/2 = 1/ √ 62.5 = 0.13, so the Wald 95% CI is 0.8 ± 1.96/ √ 62.5, giving 0.55 θ 1.05, clearly inappropriate for a probability. For n = 100
  • 43. 24 CLASSICAL LIKELIHOOD THEORY and y = 80, the standard error for θ is I( θ)−1/2 = 1/ √ 625 = 0.04. Here we have a much better quadratic approximation, with the Wald 95% CI 0.8 ± 1.96/ √ 625 or 0.72 θ 0.88, compared with 0.72 θ 0.87 from the exact likelihood. 2 1.6 Model selection The simplest model-selection problem occurs when we are comparing nested models. For example, suppose we want to compare two models A: μ = β0 + β1x versus B: μ = β0. The models are nested in the sense that B is a submodel of A. The problem is immediately recognizable as a hypothesis testing problem of H0: β1 = 0, so many standard method- ologies apply. This is the case with all nested comparisons. A non-nested comparison is not so easy, since we cannot reduce it to a standard hypothesis-testing problem. For example, to model positive outcome data we might consider two competing models: A: generalized linear model (GLM) with normal family and identity link function with possible heteroscedastic errors. B: GLM with gamma family and log-link function. (These models are discussed in the next chapter, they are stated here only for illustration of a model selection problem, so no specific under- standing is expected.) In this case the usual parameters in the models take the role of nuisance parameters in the model comparison. We can imagine maximizing the likelihood over all potential models. Suppose we want to compare K models fk(·, θk) for k = 1, . . . , K, given data y1, . . . , yn, where θk is the parameter associated with model k. The parameter dimension is allowed to vary between models, and the interpretation of the parameter can be model dependent. Then • find the best θk in each model via the standard maximum likelihood, i.e. by choosing θk = argmaxθ i log fk(yi, θk). This is the likelihood profiling step. • choose the model k that maximizes the log-likelihood log L( θk) ≡ i log fk(yi, θk).
  • 44. MARGINAL AND CONDITIONAL LIKELIHOODS 25 As a crucial difference with the comparison of nested models, here all the constants in the density function must be kept. This can be problematic when we use likelihood values reported by standard sta- tistical software, since it is not always clear if they are based on the full definition of the density, including all the constant terms. We cannot naively compare the maximized log-likelihood log L( θk) since it is a biased quantity: the same data are used to compute θk by maximiz- ing the likelihood. For example, we can always increase the maximized likelihood by enlarging the parameter set, even though a model with more parameters is not necessarily better. The Akaike information cri- terion (AIC) formula tries to correct this bias by a simple adjustment determined by the number of free parameters only. Thus AIC(k) = −2 i log fk(yi, θk) + 2p, where p is the number of parameters, so the model with minimum AIC is considered the best model. We can interpret the first term in AIC(k) as a measure of data fit and the second as a penalty. If we are comparing models with the same number of parameters then we need only compare the maximized likelihood. In summary, if we are comparing nested models we can always use the standard likelihood ratio test and its associated probability-based infer- ence. In non-nested comparisons, we use the AIC and will not attach any probability-based assessment such as the p-value. 1.7 Marginal and conditional likelihoods As a general method, consider a transformation of the data y to (v, w) such that either the marginal distribution of v or the conditional distri- bution of v given w depends only on the parameter of interest θ. Let the total parameter be (θ, η). In the first case L(θ, η) = fθ,η(v, w) = fθ(v)fθ,η(w|v) ≡ L1(θ)L2(θ, η), so the marginal likelihood of θ is defined as L1(θ) = fθ(v). In the second case L(θ, η) = fθ(v|w)fθ,η(w) ≡ L1(θ)L2(θ, η),
  • 45. 26 CLASSICAL LIKELIHOOD THEORY where the conditional likelihood is defined as L1(θ) = fθ(v|w). The question of which one is applicable has to be decided on a case- by-case basis. If v and w are independent the two likelihood functions coincide. Marginal or conditional likelihoods are useful if • fθ(v) or fθ(v|w) are simpler than the original model fθ,η(y). • Not much information is lost by ignoring L2(θ, η). • The use of full likelihood is inconsistent. Proving the second condition is often difficult, so it is usually argued informally on an intuitive basis. If the last condition applies, the use of marginal or conditional likelihood is essential. When available, these likelihoods are true likelihoods in the sense that they correspond to a probability of the observed data; this is their main advantage over profile likelihood. However, it is not always obvious how to transform the data to arrive at a model that is free of the nuisance parameter. Example 1.8: Suppose yi1 and yi2 are an iid sample from N(μi, σ2 ), for i = 1, . . . , N, and they are all independent over index i; the parameter of interest is σ2 . This matched-pair dataset is one example of highly stratified or clustered data. The key feature here is that the number of nuisance parameters N is of the same order as the number of observations 2N. To compute the profile likelihood of σ2 , we first show that μi = yi. Using the residual sum of squares SSE = i j(yij − yi)2 , the profile likelihood of σ2 is given by log L(σ2 ) = maxμ1,...,μN log L(μ1, . . . , μN , σ2 ) = −N log σ2 − SSE 2σ2 and the MLE is σ2 = SSE 2N . It is clear that the SSE is σ2 χ2 N , so E σ2 = σ2 /2 for any N. To get an unbiased inference for σ2 , consider the following transformations: vi = (yi1 − yi2)/ √ 2 wi = (yi1 + yi2)/ √ 2. Clearly vis are iid N(0, σ2 ), and wis are iid N(μi √ 2, σ2 ). The likelihood of σ2 based on vis is a marginal likelihood, given by Lv(σ2 ) = 1 √ 2πσ2 N exp − 1 2σ2 N i=1 v2 i .
  • 46. MARGINAL AND CONDITIONAL LIKELIHOODS 27 Since vi and wi are independent, in this case it is also a conditional likelihood. The MLE from the marginal likelihood is given by σ2 = 1 N N i=1 v2 i = SSE N , which is now an unbiased and consistent estimator. How much information is lost by ignoring the wi? The answer depends on the structure of μi. It is clear that the maximum loss occurs if μi ≡ μ for all i, since in this case we should have used 2N data points to estimate σ2 , so there is 50% loss of information by conditioning. Hence we should expect that if the variation between the μis is small relative to within-pair variation, an unconditional analysis that assumes some structure on them should improve on the conditional analysis. Now suppose, for i = 1, . . . , n, yi1 is N(μi1, σ2 ) and yi2 is N(μi2, σ2 ), with σ2 known and these are all independent. In practice, these might be observations from a study where two treatments are randomized within each pair. Assume a common mean difference across the pairs, so that μi1 = μi2 + θ. Again, since vi is iid N(θ/ √ 2, σ2 ), the conditional or marginal inference based on vi is free of the nuisance pair effects, and the conditional MLE of θ is θ = 1 N N i=1 (yi1 − yi2). The main implication of conditional analysis is that we are using only infor- mation from within the pair. However, in this case, regardless of what values μ1is take, θ is the same as the unconditional MLE of θ from the full data. This means that, in contrast to the estimation of σ2 , in the estimation of the mean difference θ, we incur no loss of information by conditioning. This normal- theory result occurs in balanced cases, otherwise an unconditional analysis may carry more information than the conditional analysis, a situation called ‘recovery of inter-block information’ (Yates, 1939); see also Section 5.1. Note, however, that inference of θ requires knowledge of σ2 , and from the previous argument, when σ2 is unknown, conditioning may lose information. So, in a practical problem where σ2 is unknown, even in balanced cases, it is possible to beat the conditional analysis by an unconditional analysis. 2 Example 1.9: Suppose that y1 and y2 are independent Poisson with means μ1 and μ2, and we are interested in the ratio θ = μ2/μ1. The conditional distribution of y2 given the sum y1 +y2 is binomial with parameters n = y1 +y2 and probability π = μ2 μ1 + μ2 = θ 1 + θ ,
  • 47. 28 CLASSICAL LIKELIHOOD THEORY which is free of nuisance parameters. Alternatively, we may write π 1 − π = θ, so that it is clear the MLE of θ from the conditional model is y2/y1. This result shows a connection between odd-ratios for the binomial and intensity ratios for the Poisson that is useful for modelling of paired Poisson data. Intuitively it seems that there will be little information in the sum n about the ratio parameter; in fact, in this case there is no information loss. This can be seen as follows: If we have a collection of paired Poisson data (yi1, yi2) with mean (μi, θμi), then, conditionally, yi2 given the sum ni = yi1 + yi2 is independent binomial with parameter (ni, π). So, conditioning has removed the pair effects, and from the conditional model we get the MLEs π = i yi2 i ni θ = i yi2 i yi1 . Now, assuming there are no pair effects so that μi ≡ μ, based on the same dataset, unconditionally the MLE of θ is also θ = i yi2/ i yi1. So, in con- trast with the estimation of σ2 but similar to the estimation of mean difference θ in Example 1.8 above, there is no loss of information by conditioning. This can be extended to more than two Poisson means, where conditioning gives the multinomial distribution. 2 Example 1.10: Suppose y1 is binomial B(n1, π1) and independently y2 is B(n2, π2), say measuring the number of people with certain conditions. The data are tabulated into a 2-by-2 table Group 1 Group 2 total present y1 y2 t absent n1 − y1 n2 − y2 u total n1 n2 n As the parameter of interest, we consider the log odds-ratio θ defined by θ = log π1/(1 − π1) π2/(1 − π2) . Now we make the following transformation: (y1, y2) to (y1, y1 + y2). The con- ditional probability of Y1 = y1 given Y1 + Y2 = t is P(Y1 = y1|Y1 + Y2 = t) = P(Y1 = y1, Y1 + Y2 = t) P(Y1 + Y2 = t) . The numerator is equal to n1 y1 n2 t − y1 eθy1 π2 1 − π2 t (1 − π1)n1 (1 − π1)n2 ,
  • 48. MARGINAL AND CONDITIONAL LIKELIHOODS 29 so that the conditional probability is P(Y1 = y1|Y1 + Y2 = t) = n1 y1 n2 t − y1 eθy1 t s=0 n1 s n2 t − s eθs , which is free of any nuisance parameters. The common hypothesis of interest H0: π1 = π2 is equivalent to H0: θ = 0, and it leads to the so-called Fisher’s exact test with the hypergeometric null distribution. If we have a collection of paired binomials (yi1, yi2) with parameters (ni1, πi1) and (ni2, πi2) with a common odds ratio θ, a reasonable inference on θ can be based on the conditional argument above. However, when there is no pair effect, so that πi1 = π1, the situation is more complicated than in the Poisson case of Example 1.9. We have no closed-form solutions here, and the condi- tional and unconditional estimates of θ are no longer the same, indicating a potential loss of information due to conditioning. In the important special case of binary matched pairs, where ni1 = ni2 = 1, it is possible to write more explicitly. The sum y1i + y2i = ti is either 0, 1 or 2, corresponding to paired outcomes (0,0), {(0,1) or (1,0)} and (1,1). If ti = 0 then both yi1 and yi2 are 0, and if ti = 2 then both yi1 and yi2 are 1. So in the conditional analysis these concordant pairs do not contribute any information. If ti = 1, then the likelihood contribution is determined by p = P(yi1 = 1|yi1 + yi2 = 1) = eθ 1 + eθ or log p 1 − p = θ, (1.7) so that θ can be easily estimated from the discordant pairs only as the log-ratio of the number of (1, 0) over (0, 1) pairs. The matched-pair design allows general predictors xij, so that starting with the model log P(yij = 1) 1 − P(yij = 1) = xt ijβ + vi we can follow the previous derivation and get pi = P(yi1 = 1|yi1 + yi2 = 1) = e(xi1−xi2)t β 1 + e(xi1−xi2)tβ = ext i1β ext i1β + ext i2β or log pi 1 − pi = (xi1 − xi2)t β, (1.8) so the conditioning gets rid of the pair effects vis. When θ is the only pa- rameter as in model (1.7), Lindsay (1983) shows the conditional analysis is asymptotically close to an unconditional analysis, meaning that there is no
  • 49. 30 CLASSICAL LIKELIHOOD THEORY loss of information due to conditioning. However, this may not be true if there are other covariates; see Kang et al. (2005). In particular, in model (1.8), the conditional approach allows only covariates that vary within the pair (e.g. 2 treatments assigned within the pair), but there is a complete loss of informa- tion on covariates that vary only between the pairs (e.g. age of a twin pair). 2 Example 1.11: In general, an exact conditional likelihood is available if both the parameter of interest and the nuisance parameter are the canonical parameters of an exponential family model; see Example 1.4. Suppose y is in the (q + r)-parameter exponential family with log-density log fθ,η(y) = θt t1(y) + ηt t2(y) − b(θ, η) + c(y), where θ is a q-vector of parameters of interest, and η is an r-vector of nuisance parameters. The marginal log-density of t1(y) is of the form log fθ,η(t1) = θt t1(y) − A(θ, η) + c1(t1, η), which involves both θ and η. But the conditional density of t1 given t2 depends only on θ, according to log fθ(t1|t2) = θt t1(y) − A1(θ, t2) + h1(t1, t2), for some (potentially complicated) functions A1(·) and h1(·). An approxima- tion to the conditional likelihood can be made using the adjusted profile like- lihood given in Section 1.9. However, even in the exponential family, parameters of interest can appear in a form that cannot be isolated using conditioning or marginalizing. Let y1 and y2 be independent exponential variates with mean η and θη respectively, and suppose that the parameter of interest θ is the mean ratio. Here log f(y1, y2) = − log θ − 2 log η − y1/η − y2/(θη). The parameter of interest is not a canonical parameter, and the conditional distribution of y2 given y1 is not free of η. An approximate conditional inference using a adjusted profile likelihood is given in Section 1.9. 2 1.8 Higher-order approximations Likelihood theory is an important route to many higher-order approxi- mations in statistics. From the standard theory we have, approximately, θ ∼ N{θ, I( θ)−1 } so that the approximate density of θ is fθ( θ) ≈ |I( θ)/(2π)|1/2 exp −( θ − θ)t I( θ)( θ − θ)/2 . (1.9)
  • 50. HIGHER-ORDER APPROXIMATIONS 31 We have also shown the quadratic approximation log L(θ) L( θ) ≈ −( θ − θ)t I( θ)( θ − θ)/2, so immediately we have another approximate density fθ( θ) ≈ |I( θ)/(2π)|1/2 L(θ) L( θ) . (1.10) We shall refer to this as the likelihood-based p-formula, which turns out to be much more accurate than the normal-based formula (1.9). Even though we are using a likelihood ratio it should be understood that (1.10) is a formula for a sampling density: θ is fixed and θ varies. Example 1.12: Let y1, . . . , yn be an iid sample from N(θ, σ2 ) with σ2 known. Here we know that θ = y is N(θ, σ2 /n). To use formula (1.10) we need log L(θ) = − 1 2σ2 i (yi − y)2 + n(y − θ)2 log L( θ) = − 1 2σ2 i (yi − y)2 I( θ) = n/σ2 , so fθ(y) ≈ |2πσ2 |−n/2 exp − n 2σ2 (y − θ)2 , exactly the density of the normal distribution N(θ, σ2 /n). 2 Example 1.13: Let y be Poisson with mean θ. The MLE of θ is θ = y, and the Fisher information is I( θ) = 1/ θ = 1/y. So, the p-formula (1.10) is fθ(y) ≈ (2π)−1/2 (1/y)1/2 e−θ θy /y! e−yyy/y! = e−θ θy (2πy)1/2e−yyy , so in effect we have approximated the Poisson probability by replacing y! with its Stirling approximation. The approximation is excellent for y 3, but not so good for y ≤ 3. Nelder and Pregibon (1987) suggested a simple modification of the denominator to (2π(y + 1/6))1/2 e−y yy , which works remarkably well for all y ≥ 0. 2 The p-formula can be further improved by a generic normalizing constant to make the density integrate to one. The formula p∗ θ( θ) = c(θ)|I( θ)/(2π)|1/2 L(θ) L( θ) (1.11)
  • 51. 32 CLASSICAL LIKELIHOOD THEORY is called Barndorff-Nielsen’s (1983) p∗ -formula. As we should expect, in many cases c(θ) is very nearly one; in fact, c(θ) ≈ 1 + B(θ)/n, where B(θ) is bounded over n. If difficult to derive analytically, c(θ) can be computed numerically. For likelihood approximations the p-formula is more convenient. 1.9 Adjusted profile likelihood In general problems, exact marginal or conditional likelihoods are often unavailable. Even when theoretically available, the exact form may be difficult to derive (see Example 1.11). It turns out that an approximate marginal or conditional likelihood can be found by adjusting the ordi- nary profile likelihood (Barndorff-Nielsen, 1983). We shall provide here a heuristic derivation only. First recall the likelihood-based p-formula from Section 1.8 that provides an approximate density for θ: fθ( θ) ≈ |I( θ)/(2π)|1/2 L(θ) L( θ) . In the multiparameter case, let ( θ, η) be the MLE of (θ, η); then we have the approximate density f( θ, η) ≈ |I( θ, η)/(2π)|1/2 L(θ, η) L( θ, η) . Let ηθ be the MLE of η at a fixed value of θ, and I( ηθ) the corresponding observed Fisher information. Given θ, the approximate density of ηθ is f( ηθ) = |I( ηθ)/(2π)|1/2 L(θ, η) L(θ, ηθ) , where L(θ, ηθ) is the profile likelihood of θ. So, the marginal density of η is f( η) = f( ηθ) ∂ ηθ ∂ η ≈ |I( ηθ)/(2π)|1/2 L(θ, η) L(θ, ηθ) ∂ ηθ ∂ η . (1.12) The conditional distribution of θ given η is f( θ| η) = f( θ, η) f( η) ≈ |I( ηθ)/(2π)|−1/2 L(θ, ηθ) L( θ, η) ∂ η ∂ ηθ ,
  • 52. ADJUSTED PROFILE LIKELIHOOD 33 where we have used the p-formula on both the numerator and the de- nominator. Hence, the approximate conditional loglihood of θ is m(θ) = (θ, ηθ) − 1 2 log |I( ηθ)/(2π)| + log ∂ η ∂ ηθ . (1.13) We can arrive at the same formula using a marginal distribution of θ. Note here that the constant 2π is kept so that the formula is as close as possible to log of a proper density function. It is especially impor- tant when comparing non-nested models using the AIC, where all the constants in the density must be kept in the likelihood computation (Section 1.6). In certain models, such as the variance-component models studied in later chapters, the constant 2π is also necessary even when we want to compare likelihoods from nested models where the formula does not allow simply setting certain parameter values to zero. The quantity 1 2 log |I( ηθ)/(2π)| can be interpreted as the information concerning θ carried by ηθ in the ordinary profile likelihood. The Jaco- bian term |∂ η/∂ ηθ| keeps the modified profile likelihood invariant with respect to transformations of the nuisance parameter. In lucky situa- tions we might have orthogonal parameters in the sense ηθ = η, implying | ∂ η/∂ ηθ| = 1, so that the last term of (1.13) vanishes. Cox and Reid (1987) showed that if θ is scalar it is possible to set the nuisance pa- rameter η such that |∂ η/∂ ηθ| ≈ 1. We shall use their adjusted profile likelihood formula heavily with the notation pη(|θ) ≡ (θ, ηθ) − 1 2 log |I( ηθ)/(2π)|, (1.14) to emphasize that we are profiling the loglihood over the nuisance pa- rameter η. When obvious from the context, the parameter θ is dropped, so the adjusted profile likelihood becomes pη(). In some models, for com- putational convenience, we may use the expected Fisher information for the adjustment term. Example 1.14: Suppose the outcome vector y is normal with mean μ and variance V , where μ = Xβ for a known design matrix X, and V ≡ V (θ). In practice θ will contain the variance component parameters. The overall likelihood is (β, θ) = − 1 2 log |2πV | − 1 2 (y − Xβ)t V −1 (y − Xβ). Given θ, the MLE of β is the generalized least-squares estimate βθ = (Xt V −1 X)−1 Xt V −1 y, and the profile likelihood of θ is p(θ) = − 1 2 log |2πV | − 1 2 (y − X βθ)t V −1 (y − X βθ).
  • 53. 34 CLASSICAL LIKELIHOOD THEORY Here the observed and expected Fisher information are the same and given by I( βθ) = Xt V −1 X. We can check that E ∂2 ∂β∂θi log L(β, θ) = E Xt V −1 ∂V ∂θi V −1 (Y − Xβ) = 0 for any θi, so that β and θ are information orthogonal. Hence the adjusted profile likelihood is pβ(|θ) = p(θ) − 1 2 log |Xt V −1 X/(2π)|. (1.15) This matches exactly the so-called restricted maximum likelihood (REML), derived by Patterson and Thompson (1971) and Harville (1974), using the marginal distribution of the error term y − X βθ. Since the adjustment term does not involve βθ, computationally we have an interesting coincidence that the two-step estimation procedure of β and θ is equivalent to a single-step joint optimization of an objective function Q(β, θ) = − 1 2 log |2πV | − 1 2 (y − Xβ)t V −1 (y − Xβ) − 1 2 log |Xt V −1 X/(2π)|. (1.16) However, strictly speaking this function Q(β, θ) is no longer a loglihood func- tion as it does not correspond to an exact log density or an approximation to one. Furthermore, if the adjustment term for the profile likelihood (1.15) were a function of βθ, then the joint optimization of Q(β, θ) is no longer equivalent to the original two-step optimization involving the full likelihood and the ad- justed profile likelihood. Thus, here when we refer to REML adjustment we refer to the adjustment to the likelihood of the variance components given in equation (1.15). 2 1.10 Bayesian and likelihood methods We shall now describe very briefly the similarities and differences be- tween the likelihood and Bayesian approaches. In Bayesian computations we begin with a prior f(θ) and compute the posterior f(θ|y) = constant × f(θ)f(y|θ) = constant × f(θ)L(θ), (1.17) where, to follow Bayesian thinking we use f(y|θ) ≡ fθ(y). Comparing (1.17) with (1.1) we see that the Bayesian method achieves the same effect as the likelihood method: it combines the information from the prior and the current likelihood by a simple multiplication. If we treat the prior f(θ) as a ‘prior likelihood’ then the posterior is a combined likelihood. However, without putting much of the Bayesian
  • 54. BAYESIAN AND LIKELIHOOD METHODS 35 philosophical and intellectual investment in the prior, if we know abso- lutely nothing about θ prior to observing X = x, the prior likelihood is always f(θ) ≡ 1, and the likelihood function then expresses the current information on θ after observing y. As a corollary, if we knew anything about θ prior to observing y, we should feel encouraged to include it in the consideration. Using a uniform prior, the Bayesian posterior density and the likelihood functions would be the same up to a constant term. Note, however, that the likelihood is not a probability density function, so it does not have to integrate to one, and there is no such thing as an ‘improper prior likelihood’. Bayesians eliminate all unwanted parameters by integrating them out; that is consistent with their view that parameters have regular density functions. However, the likelihood function is not a probability density function, and it does not obey probability laws (see Section 1.1), so in- tegrating out a parameter in a likelihood function is not a meaningful operation. It turns out, however, there is a close connection between the Bayesian integrated likelihood and an adjusted profile likelihood (Sec- tion 1.9). For scalar parameters, the quadratic approximation log L(θ) L( θ) ≈ − 1 2 I( θ)(θ − θ)2 implies L(θ)dθ ≈ L( θ) e− 1 2 I( θ)(θ− θ)2 dθ (1.18) = L( θ)|I( θ)/(2π)|−1/2 . (1.19) This is known as Laplace’s integral approximation; it is highly accurate if (θ) is well approximated by a quadratic. For a two-parameter model with joint likelihood L(θ, η), we immediately have Lint(θ) ≡ L(θ, η)dη ≈ L(θ, ηθ)|I( ηθ)/(2π)|−1/2 , and int(θ) ≈ (θ, ηθ) − 1 2 log |I( ηθ)/(2π)|, (1.20) so the integrated likelihood is approximately the adjusted profile likeli- hood in the case of orthogonal parameters (Cox and Reid, 1987). Recent advances in Bayesian computation have generated many power- ful methodologies such as Gibbs sampling or Markov-Chain Monte-Carlo (MCMC) methods for computing posterior distributions. Similarities be- tween likelihood and posterior densities mean that the same method- ologies can be used to compute likelihood. However, from the classical
  • 55. Other documents randomly have different content
  • 56. gutmeinende Dorfbevölkerung bäte, rasch abzuziehen, weil sonst beide, Banditen wie Dörfler, verloren seien. Alle Wege wären gut passierbar, das Wetter erträglich, es werde ein rasches Frühjahr geben. Von den Männern, die zu der Einsiedelei geschickt waren, gehörten drei zu den engeren Freunden Wangs von den Pochwerken. Es waren die erfahrensten, zuverlässigsten Männer. Auf das erregte Bitten Wangs blieben sie fast einen halben Tag gemeinsam in Ma-nohs Hütte. Wang konnte sich schwer bezwingen. Er ging ratlos in einem Durcheinander von Empfindungen an den niedrigen glühenden Herd, über dem der Wassertopf an einem rohen, schlecht geschnittenen Eichmast hing. Sein breites Gesicht schrumpfte unter der Hitze. Er wandte sich und streifte mit den fliegenden Ärmeln die goldenen Buddhas, die ihre bezaubernde, flimmernde, irisierende Miene zuwandten dem stummen Ma-noh, der ihre Blicke aufzufangen suchte, dem Wanderer Wang, den hockenden fünf Vagabunden, die die Köpfe zusammensteckten, teeschlürfend die Nachbarorte durchhechelten. Über und über waren sie bepackt mit zerlumpten Kitteln, Tuchfässer, schwer bewegliche Fleischpakete. Wang schwankte unter einer Aufwallung und einem unertragbaren Sieden in der Brust die Stiege herunter, und seine schrägen schmalen Augenschlitze kniffen sich zu, geblendet vom Weiß, das entgegenprallte. Er stand am Rand der Bergstraße. Aus dem Flußtal schleiften Nebelschlieren. Von einem drehenden Windstoß gerafft zogen sie sich schlangenartig rasch hoch und pufften, breitschleiernd, über Wang und die lange Bergstraße. Das Rauschen der Schnellen klang unglaublich nah. Das Tal kochte kalt und war verschüttet in den brodelnden Dunst. Muskellose weiche Schneearme streckten sich herauf. Sie berieten in der kaum mannshohen Hütte unter dem Felsen. Ma-noh mit welkem spitzen Gesicht, im bunten Flickmantel und aufgewundenen Zopf, höflich, leicht gnädig, im Inneren aufgebläht, erwartungsvoll erregt. Wang, zwischen den andern am Herd, bog den Rücken rund; seine Blicke wanderten von einem Augenpaar zum andern.
  • 57. Er fing an zu sprechen, die Hände auszustrecken, die Freunde zu beschwören: „Die vier Alten haben die Reiter mitgenommen, und man wird sie ins Gefängnis werfen und ihnen die Köpfe abschlagen. Sie konnten nicht so schnell laufen wie ihr. Den Lahmen hab ich auf meinem Rücken getragen, als wir vom Berg herunterliefen. Es wird ihnen keiner glauben, wie elend wir sind und daß der Frost so schlimm war. Der Lahme muß daran glauben, daß ihm ein Bootsmann das Bein zerschlagen hat. Sein Unglück ist groß, man wird ihn an einem ungünstigen Ort verscharren, sein Geist muß betteln, wie im Leben hungern, frieren. Sein Bein war zu kurz und die Soldaten hatten Pferde. Uns nimmt man alles. Wir sollen in den leeren Bergen erfrieren, die Raben sind mit uns ausgezogen, keiner konnte mehr leben, keine Karawane gab zu essen. Unsere armen Brüder nimmt man uns. O, wir sind arm.“ So jammerte Wang-lun, blickte ihnen allen in die traurigen gesenkten Gesichter und litt. Mit einmal kam die Angst wieder und die Befremdung vor ihnen. Er wandte sich, schluckte an dem Kloß hinter seinem Gaumen. Er preßte es gewaltsam herunter, hielt seine eiskalten schwitzenden Hände über den Herd. Sie taten ihm nichts, sie wollten nichts von ihm, es war nur ein Gerede gewesen, er wollte sie gar nicht fragen. O, war das Leben schwer. Dazu blitzte es ihm vor den Augen; bald schienen es von dem Herd verwehte Funken zu sein, bald fuhr es so rasch und glatt zusammen, fünf Säbel und eine kleine getünchte Mauer. Ein breitschultriger alter Mann unter den abgesandten, ein Bauer, dem sein Land mitsamt seiner Familie fortgeschwommen war, veränderte seine entschlossene Miene nicht bei den zitternden Worten Wangs: „Wir müssen unsere Brüder wieder holen. Wenn du ihn in das Dorf getragen hast, Wang, mußt du ihn zurückbringen. Hätten wir Pferde und Bogen wie die Soldaten, wäre nichts geschehen. Der Unterpräfekt von Cha-tuo soll ein kluger Mann sein aus Sze-chuan. Aber er ist zu feingebildet für uns in Nan-ku. Sag selbst, Chu, Ma-noh, wir müssen mit unserer Sprache herauskommen.“ „Der Unterpräfekt Liu von Cha-tuo,“ fiel ein jüngerer großer neben ihm ein, auffallend helle Gesichtsfarbe, große scharfe Augen, „der ist
  • 58. aus Sze-chuan gekommen, aber der klägliche Sü weiß, woher Liu seine Täls genommen hat. Er hat sie nicht aus den kanonischen Büchern herausgelesen, die Lieder des Schi-king sollen keine Goldschnüre um den Hals tragen. Ich habe gehört von einer großen Stadt Kwan-juan, als ich einmal über den Ta-pa-schan herüberwanderte. Da kam in das Jamen des glanzvollen Unterpräfekten ein Kurier vom Vizekönig von Sze-chuan; es sollten neue Steuern für den Krieg mit dem und dem erhoben werden auf das und das. Der klägliche Sü weiß die Antwort, die der glanzvolle Liu an den erhabenen Vizekönig zurücksandte, weil er nämlich dem heimwandernden Kurier einen Strick um die Beine legte, um ein paar Käsch beim Betreten einer so großen Stadt zu besitzen. Liu, besorgt um die Stadt, wie ein echter Vater, lehnte die Steuer ab für Kwan- juan: „Die Stadt ist zu arm, die schwarzen Blattern grassieren, die Reispreise unerschwinglich für den kleinen Mann.“ Aber als ich selber nach zwei Tagen entzückt über solche Landesliebe in die glücklichen Mauern eintrat, klebten schöne lange Zettel an jeder Wand mit dem Stempel des glanzvollen Liu, in deutlicher würdevoller Sprache. Er gab dem mächtigen Vizekönig zuerst das Wort: „Himmelssohn, Krieg mit dem und dem.“ Und zum Schluß Steuern auf das und das, für jeden eine Gabe, diese Gilde jene Gilde. Die guten Leute wußten auf einmal, wie unbezahlbar bei ihnen in den Mauern alles war, das und das und das. Sie waren sehr glücklich und priesen Liu, der sich um die Hebung ihrer Stadt so wohl verdient machte, priesen seine Eltern und Großeltern und zahlten drei Jahre die Likinabgaben für — Liu, den weisen Unterpräfekten.“ Der hellfarbene Mann lachte wie berauscht. Ma sah ihn streng an; Wang erkannte, daß Sü nicht zu halten war. Einer neben Wang stieß seinen Nachbarn an, dessen Gesicht glühte von dem heißen Wasser, flüsterte, er solle doch reden; das sei besser, als halblaut fluchen vor den Fenstern anderer Leute. Wang wurde von seinem Schmerz gefaßt und mit eisernen Händen unter ein dickes dunkles Moor zum Ersticken gehalten. Er keuchte. Das war alles falsch, was hier gesprochen wurde. Während die zwei neben ihm verlegen gestikulierten und heftig auf sich einsprachen, Sü prahlerisch eine neue Geschichte
  • 59. schmetterte, fing Wang an zu klagen, Ma-noh neben sich auf den Boden zu ziehen. Er redete hilflos schnappend, drehte den Kopf, seine Lippen bebten: „Ma, bleib sitzen hier. Seid nicht aufgeregt, liebe Brüder. Sü, du bist gut, es ist richtig, was du sagst. Ich will euch ja nicht langweilen, aber mir fiel etwas ein, wie Sü erzählte von dem Unterpräfekten aus Kwan-juan in Sze-chuan, der uns die vier Armen hat rauben lassen. Wir wollen sie ihm gewiß nicht lassen, liebe Kinder. Habt mich nicht im Verdacht, liebe Kinder, als ob ich das tun wollte. Mir fiel nur ein von Schan-tung etwas, als ich in der Stadt Tsi-nan-fu war, in dem großen Tsi-nan-fu und bei einem Bonzen diente; er hieß Toh-tsin. Ihr werdet ihn nicht kennen, es war ein guter Mann, der mich sehr geschützt hat. Da war mein Freund ein Mann, den sie auch totgeschlagen haben. Ich will euch alles erzählen von Su-koh, so hieß er. Ihr werdet mir glauben, daß ich unsere armen Vier nicht dem Unterpräfekten lassen werde. Nachdem mir das passiert ist in Tsi-nan-fu, und sie mir meinen Freund Su-koh totgeschlagen haben. Er war ein Anhänger des westlichen Gottes Allah, der seinen Anhängern vieles erfüllen soll. Aber in Kan-suh fingen Unruhen an, als diese Leute plötzlich laut beten wollten, und Su-kohs Neffe las zuerst aus einem alten Buch laut vor, und sie haben ihn in Stücke geschlagen mit seiner Familie. Dann haben sie nach meinem Freund in Tsi-nan-fu gesucht, er war ein so würdiger ernster Mann, er hätte die höchsten Prüfungen bestanden. Es kam, wie es will. Sie haben ihn wieder gefaßt, als ich ihn schon herausgeholt hatte mit seinen beiden Söhnen. Er sagte, sie dürften ihm nichts anhaben, er wolle schon auswandern, erst müsse er seine Schulden bezahlen und sein Haus verkaufen und sein Priester müsse ihm einen günstigen Tag angeben. Aber es gab ein Trommeln. Eine Eidechse, ein weißer Tiger, ein dünnbeiniger Tou- ssee gab ihm einen Stoß von hinten mit dem Degenknauf, neben seinem Haus an einer kleinen getünchten Mauer. Dann haben sie ihn eben, wie er sich umdrehte, mit fünf Säbeln totgeschlagen. Ihr müßt nicht lachen, weil ich nichts dabei getan habe. Sein Geist, der eben aus ihm geflogen war, muß in meine Leber gefahren sein, denn ich war besessen die Tage darauf. Und dies ist mir in Tsi-nan-fu an meinem eigenen Freunde passiert. Der Tou-ssee lebt nicht mehr, ihr
  • 60. werdet es mir glauben. Aber es ist zum Weinen, um selbst über den Nai-ho zu gehen: sie kommen immer wieder und nehmen etwas weg. Sie geben keinen Frieden und keine Ruhe. Sie wollen mich und euch und uns alle ausrotten und nicht leben lassen. Was wollen wir machen, liebe Kinder? Ich, euer Freund Wang aus Hun-kang-tsun, bin schon wie weich gerittenes Fleisch, wie stinkende Zeugmasse. Ich kann nur weinen und jammern.“ Wang hatte die Haltung eines kranken Kindes angenommen vor Ma-noh, und in einem Stöhnen, Keuchen und Schluchzen arbeitete seine Brust. Das Wasser stürzte ihm aus Auge und Nase, sein breites derbhäutiges Gesicht war ganz klein und mädchenhaft. Er lehnte gegen Ma-noh in einer Art Betäubung. Er log nicht von Su-koh. Man hatte ihm in Su-koh einen Freund weggerissen. Wang, der Gassenläufer und Ausrufer in Tsi-nan-fu, war in der Herberge dem Mohammedaner begegnet. Das ernste gelassene Wesen fesselte ihn stark. Es zog ihn intensiver an, als er sich bewußt wurde in dem unruhigen Treiben der Stadt. Er hatte rasch das völlig unklare Gefühl, hier etwas Verhängnisvolles zu treffen, etwas so Tiefes, daß er sich davon abwenden müßte. Er kam wenig mit Su-koh und seinen Söhnen zusammen; ihre Gespräche betrafen tägliche Dinge. Dann kam die Verhaftung Su-kohs, und sie deckte ihm die Stärke seiner Beziehungen zu dem Mann mit Furchtbarkeit auf. Nicht kam er zu einer Vorstellung, worum es sich handelte zwischen ihm und dem Mohammedaner; er merkte nur die Hingerissenheit und unbedingte Teilnahme an Sus Schicksal. Wang hatte das schwerlastende Empfinden, daß man ihn selbst, etwas in ihm von einer schaurigen Verborgenheit, angriff. Und es war nicht die Roheit des Eingriffs, die ihn erschreckte, sondern das Entsetzen vor dem Verborgenen, das ihm vor Gesicht kam, das er nicht sehen wollte, nicht jetzt schon, vielleicht später, viel viel später. Die fünf Säbel und die kleine Mauer fuhren vor seinen Augen zusammen, immer erneut, jede Stunde jede Minute; es war nicht zu ertragen, es mußte überdeckt, vergraben werden. Und so kam die Rache für Su als etwas Erdachtes, Erzwungenes. Erst als er sein Hirschgeweih in Händen hatte in der Kammer des Bonzen, als er sich flüchtete zu den Erinnerungen an die Späße, die mit dem starken Geruch des
  • 61. Geweihs in ihm aufstiegen, an die Jagden über Marktplätze, Jonglieren über Dächer, da wußte er sicher, daß er den Tou-ssee töten würde, mit der Maske glatt und fest alles zustülpen würde. Diese Bewegung machte ihn damals glücklich und sicher: zustülpen. Er wollte sich noch einmal wegtäuschen über die Zukunft, vor der er sich schämte und graute. Es war schon nicht mehr nötig, daß er am Morgen aus dem Wegeschrank aufstand und auf den Übungsplatz lief: er hatte in der Nacht schon zehn, fünfzigmal den Hauptmann erstickt unter der Maske, es war schon alles geschehen. Aber er lief hin; er mußte sich dabei sehen, es sich tief einprägen. Und so geschah der Mord, als ein Opfer, das er sich brachte. So rächte Wang den Mohammedaner, seinen Freund. Die scharfe nüchterne Stimme des Mannes, den vorher Wangs Nachbar gedrängt hatte, übertönte das Durcheinander von gezischelter Wut und Drohworten. Er rief, es möchte derjenige, welcher am nächsten der Türe sitze, die Hütte umgehen und nachsehen, ob einer draußen sei; er wolle dann sprechen. Als die Türe aufgestoßen wurde und ein langer Bursche mit vorgestrecktem Kopf aus der Hütte verschwand, war es für eine Minute still in der Hütte, so daß man zum erstenmal das Geräusch des Flusses und der stürzenden Schneemassen hörte. Der Bursche kam grinsend zurück: es hätte nur etwas Totes neben der Hütte gesessen. Und er zog das Fell einer graubraunen Zibetkatze aus seinem Kittel hervor. Ma-noh schüttelte sich vor Abscheu; er wollte den Burschen davonjagen, bezwang sich und schnüffelte erregt, als er die andern überernsten Gesichter sah. Der Mann am Herd, dem unter dem Kinn ein kleiner grauer Bart wuchs, stand auf, stellte sich an die Tür, die er mit seinem Rücken versperrte, sprach leise scharf; fuchtelte sonderbar in der Luft, als ob er Fliegen fange. Er zupfte seinen Bart. Sein altes Gesicht mit den großen Augensäcken war lebendig wie eines schnurrenden Katers. Die schlaffe Haut tat dem Spiel seines Ausdrucks keinen Eintrag; es kräuselte, blitzte, rollte über das platte Gesicht mit dem weit vorgeschobenen Unterkiefer. Er klappte oft laut die Zähne zusammen, man sah seine dünne rosa Zunge spielen, er bog den dickgepolsterten Rücken, machte dies und dies Knie krumm. Von
  • 62. dem Mann wußte man, daß er ohne Grund aus seiner Heimat aufgebrochen war in geachteter Stellung. Er hauste seit Jahren in den Nan-ku-Bergen, tat in Dörfern ehrbare Dienste. Leute aus seiner Heimatstadt, die von dem neugierigen Gesindel nach ihm ausgefragt wurden, berichteten kopfschüttelnd, daß er ohne mindeste Veranlassung alles habe stehen und liegen lassen. Sie waren überzeugt, daß der Alte der Aufdeckung eines Verbrechens zuvor gekommen sei, das aber dann nicht aufgedeckt wurde, eine Geschichte, die sie viel belachten und zur Beleuchtung seines ebenso furchtsamen wie geheimtuerischen Wesens benutzten. Chu sprach leise: „Da niemand vor der Türe horcht, will euer Diener reden. Wir müssen verschwiegen darüber sein, werte Herren, nicht meine ich aus Angst und Besorgtheit, die gar nicht angebracht ist bei Leuten, welche nichts zu besorgen haben, sondern aus Gründen. Euer Diener Chu hat viele Gründe, leise zu sprechen und die Türe zu versperren, und wenn die werten Herren ihn ruhig angehört haben und ihm zustimmen sollten, so werden sie wie er leise sprechen. Ich habe gute Beziehungen zu Po-schan, meiner Heimatsstadt in Schan-tung, wo meine Neffen und Geschwister meinen Besitz verwalten. Was der geliebte Bruder Wang erlitten hat und was die Einwohner Kwan-juans erlitten haben, ist uns vielmals begegnet da. Schöne Sachen sind uns begegnet, schöne Sachen, aber das Kind, das vor euch steht, will nicht vor alten Kennern schwatzen. Seht einmal: wie oft tritt in den südlichen reichen Provinzen der Gelbe Fluß über die Ufer, und wie oft wirft sich das Meer mit einer weißen Brust über das Land und erdrückt Häuser und Mann und Frau und Kind? Wie oft läuft der Taifun die wimmelnde Küste herunter, tanzt über das gelbe Meer, und alle Dschunken, Boote, großen Segler bekommen plötzlich Beine und tanzen mit ihm auf eine barbarische grausige Art mit. Und das kleine Kind will gar nicht sprechen von den bösen Dämonen, die den Mißwachs auf den Äckern bringen, daß die Hungersnöte ausbrechen. Aber seht, die Menschen wollen es den großen Gewalten nachtun; und wer ein großer Herr ist, will ein größerer sein. Und da treiben Menschen, von Müttern geboren, in den achtzehn Provinzen herum, die die Macht in Händen haben, und werfen sich wie die finstere See über das flache,
  • 63. sorgsam bebaute Land hin und quetschen mit ihrem breiten Leib den Reis und alle Früchte zusammen. Da gibt es Herren, die drehen sich wie die dunkelfarbigen Sandstürme über ganze Städte und bewohnte Dörfer und reißen im Drehen soviel Sand wie Menschen mit, daß alle das Atmen vergessen. Und am schlimmsten wütet eine Springflut, die vor langer Zeit über das kostbare Land, über die Blume der Mitte, gefallen ist, ihr die Blätter und Blüten abreißt. Von Norden ist die Springflut gekommen und brandet über unsere fetten Äcker und Städte. Sie hat den Schlamm und das spitze Geröll auf unsere fetten Äcker und friedreichen Städte geworfen, und sie nennt sich Tai-tsing, die reine Dynastie. Und von ihr will ich etwas erzählen.“ Wang hatte sich längst hochgerichtet, sah den Alten mit aufgerissenen Augen an, stellte sich ihm gegenüber. Die andern reckten die Hälse, rückten näher an die Tür; die Pulse rollten voller durch ihre Schläfen; sie sahen den Alten, sie waren seine Beute. „Ich will euch nichts von ihr erzählen, denn die alten Herren wissen alles selbst. Wenn der Tiger heult, dringt der Wind in die Täler. Die Mandschus, die harten Tataren, die aus ihren nördlichen Bergen geradewegs von der Fuchsjagd über unser schwaches Land gefallen sind, werden nicht bis zum Eintritt der Ewigkeit über uns leben. Unser Volk ist arm und schwach, aber wir sind viel und überleben die stärksten. Ihr wißt, was man macht, wenn man am Meere wohnt und die sieben ruhigen Jahre sind vorbei, die Regenzeit und der Nordweststurm ist vorbei, das Unglück ist geschehen, was man macht, wenn man noch lebt? Bauen, Dämme bauen, Tag und Nacht, Pfähle rammen, den Lehm häufen, Ruten, Stroh dazwischen, Weiden anpflanzen. Die klugen Männer werden mich unbescheiden nennen, wenn ich sie in dem fremden Hause frage, welche Dämme sie gebaut haben, weil sie sich doch vor der Springflut fürchten und weil sie die Wasser aus dem Lande zurückdrängen wollen? Aber andere haben langsam und leise den Lehm in den Händen zusammengetragen, haben Stroh gestohlen von dem und dem, zu einer Zeit, wo keiner auf sie achtete, haben heimlich feine Weidenschößlinge gesetzt und sie geschützt. Es gehen schon unsichtbar Wälle und Dämme durch das Land, mit Schleusen und Abzügen, die wir schließen, wenn der Augenblick gekommen ist: das
  • 64. Wasser kann nicht zum Meer zurück, das Land ist nicht ersoffen; wir verdunsten unter dem Feuer langsam das Wasser wie die Salzpfänner und behalten die Körner zurück. Ich bin aus Po-schan; wir haben nicht soviele Fruchtbarkeit wie am gelben Sandfluß; aber bei uns blüht zwischen den Kohlen seit langer Zeit eine Blume, heimlich, aber wohl geschützt: die Weiße Wasserlilie.“ Keiner der Männer saß mehr an der Erde; „die Weiße Wasserlilie“ stießen sie erregt aus, um Chu sich stellend, klopften ihm freudig die Hände, blitzten ihn aus ihren schwarzen Augen an. Sie waren entzückt über die Verwandlung des trotteligen Katers. Sie lachten mannigfach, befriedigt leise, meckernd und mit Herausforderung, wie Hornsignale klar und triumphierend; Ma-noh glucksend, aber unsicher. Ihre Lippen waren naß, die Münder voll Speichel. Unter ihren Backen glühten dünne Heizplatten. Der Magen schlingerte sanft hin und her. „Wir sind, alte Herren, zur Beratung hier. Jeder kann beitragen, soviel er im Kopf hat. Wang hat geredet, was ihm mit einem ernsten Su-koh in Tsi-nan-fu begegnete. Ich bin nicht weit her von Tsi-nan, aus Po-schan. Ich habe nicht gewartet, bis mich ein flinker Freund rächen brauchte, und hätte vielleicht nicht gleich einen so raschen gefunden. Steht hinter meiner Straße auch schon die kleine getünchte Mauer, die für mich bestimmt war. Hat die leblose Hand des Himmelssohns schon den roten Todeskreis hinter meinen Namen gemalt. Das Urteil war schon fertig, das nötig gewesen ist, meinen Mund zu versperren.“ Der Alte wollte weiter stammeln; Wang unterbrach ihn. Er nahm ihn stark bei der Schulter, preßte ihn neben sich auf den Boden. Wang streichelte dem Alten die Wangen und die knotigen Hände, bot ihm heißen Tee. Der schluckte noch, schnappte, schlug mit dem Unterkiefer, sah aus geröteten Augen geradezu, hatte gellende Ohren. Die Vagabunden, von Grimm ausgehöhlt, schluchzten ihren Ballast von sich. Die Arme wurden in einem Wirbel herumgerissen. Die heiße Wut wurde in die Hälse gepreßt, über einen blechernen Resonanzboden geledert, und schnarrend, tremolierend weg in die Luft geprustet. Sie kamen sich bloßgelegt bis auf die Blutröhren, die
  • 65. Lungenbläschen, vor, ihr Rätsel war von Chu gelöst: sie waren Ausgestoßene, Opfer; sie hatten einen Feind und waren glückselig in ihrem schäumenden Haß. In dieser Minute gab sich Ma-noh an Wang verloren. Ma erlebte die mitleidigen, umdunkelten Blicke Wangs, fühlte, wie Wang innerlich diese rasenden Tiere an sich zog, furchtlos begütigte und küßte; und jäh riß ein Faden in ihm. Was kam nun? In ihm war keine Besinnung. Was lag an ihm! Was lag an dem Prior, an den Buddhas, an den Freudenhimmeln! Versagen aller Bremsen, Niederschmettern aller Widerstände. Verächtliches Lippenzucken über die Vagabunden; ihre Not belanglos gegen das, was in Wang vorgeht. Frösteln. Eine stählerne fremde Sicherheit, von innen heraus zielend. Schwindelloses Fallenlassen in einen Schlund. Schwaches federleichtes Hinlegen vor Wangs Fuß. Wang bemühte sich stumm, traurig um den Alten. Er sah schon sie alle mit Messern zwischen den Zähnen den Berg herunterlaufen. Sie entglitten ihm. Er sprach erst, als sie unruhig seine veränderte abwesende Miene bemerkten. Sein Gesicht war noch naß von den Tränen. Er redete müde, er murmelte vor sich hin, zuckte oft zusammen: „Das nutzt alles nicht. Das nimmt kein Ende, und wenn wir zehnmal hundertmal so viel wären als wir sind. Was sind wir? Weniger als die Freunde früher des Chu, und Chu sitzt bei uns und muß sein Herz aufreiben. Eine Schar von Bettlern aus den Nan-kubergen. Es wird Mord auf Mord kommen.“ Der listige Erzähler von Kwan-juan überschrie ihn. Seine vorhin höhnende harte Stimme klang bewegt, weich und leicht zornig. Wang und er rangen mit den Blicken. Sie seien keine faulen Bettler. Wer dies erlebt hätte, was sie, sei kein bloßer Wegelagerer. Ja, sie seien arme ausgestoßene Menschen, die kaum mehr widerstreben könnten, halbtote, denen man rasch einen Schluck Wasser einflöße und die man dann mit Fußstößen aufjage, rasch, damit sie nicht vor der Tür stürben. Ihre vier Brüder seien verloren, bald käme die Reihe an sie. Wieder funkelten seine Augen. Wang zog seine Beine an, ging vorsichtig zwischen ihnen durch, umfaßte vorübergehend Ma-noh und blieb ganz im Hintergrund an der Wand stehen, wo man ihn kaum sah; nur wenn die dunkle Glut
  • 66. auf dem Herd heller aufschlug, erkannte man, daß er mit gesenktem Kopf stand, mit den Händen nach rückwärts die Bildsäule eines Buddha berührte. Ma-noh neben ihm. Wang fühlte sich schwimmen auf einem tobenden Meer. Es schien ihm, als ob er, schwankend zu sterben oder zu leben, plötzlich die Arme niedergeschlagen hätte auf ein Floß, sich mit dem Leib drüber wegzog und zu Ertrinkenden sprach, mit den Beinen sein steinsicheres Floß an Land steuernd. „Man hat nicht gut an uns getan: das ist das Schicksal. Man wird nicht gut an uns tun: das ist das Schicksal. Ich habe es auf allen Wegen, auf den Äckern, Straßen, Bergen, von den alten Leuten gehört, daß nur eins hilft gegen das Schicksal: nicht widerstreben. Ein Frosch kann keinen Storch verschlingen. Ich glaube, liebe Brüder, und will mich daran halten: daß der allmächtige Weltenlauf starr, unbeugsam ist, und nicht von seiner Richtung abweicht. Wenn ihr kämpfen wollt, so mögt ihr es tun. Ihr werdet nichts ändern, ich werde euch nicht helfen können. Und ich will euch dann, liebe Brüder, verlassen, denn ich scheide mich ab von denen, die im Fieber leben, von denen, die nicht zur Besinnung kommen. Ein Alter hat von ihnen gesagt: man kann sie töten, man kann sie am Leben lassen, ihr Schicksal wird von außen bestimmt. Ich muß den Tod über mich ergehen lassen und das Leben über mich ergehen lassen und beides unwichtig nehmen, nicht zögern, nicht hasten. Und es wäre gut, wenn ihr wie ich tätet. Denn alles andere ist ja aussichtslos. Ich will wunschlos, ohne Schwergewicht das Kleine und Große tragen, mich abseits wenden, wo man nicht tötet. Ja, dies will ich euch von der Kuan-yin und den anderen goldenen Fos sagen, die Ma-noh verehrt; sie sind kluge und gereifte Götter, ich will sie verehren, weil sie dies gesagt haben: man soll nichts Lebendiges töten. Ich will ein Ende machen mit dem Morden und Rächen; ich komme damit nicht von der Stelle. Seid mir nicht böse, wenn ich euch nicht zustimme. Ich will arm sein, um nichts zu verlieren. Der Reichtum läuft uns auf der Straße nach; er wird uns nicht einholen. Ich muß, mit euch, wenn ihr wollt, auf eine andere Spitze laufen, die schöner ist als die ich sonst gesehen habe, auf den Gipfel der Kaiserherrlichkeit. Nicht handeln; wie das weiße Wasser schwach
  • 67. D und folgsam sein; wie das Licht von jedem dünnen Blatt abgleiten. Aber was werdet ihr mir darauf sagen, liebe Brüder?“ Sie schwiegen. Chu seufzte: „Du mußt uns führen, Wang. Tu, wie du willst.“ Wang schüttelte den Kopf: „Ich führe euch nicht. Wenn ihr meinen Willen habt, will ich euch auch führen. Ihr müßt mir zustimmen, gleich und in diesem Augenblick. Und ihr werdet nicht zögern, und die im Dorfe sind, werden nicht zögern, denn im Grunde spricht ja keiner von euch anders. Ihr schäumt nur noch so, wie ich selber früher, liebe Brüder. Geht mit mir. Wir sind Ausgestoßene und wollen es eingestehen. Wenn wir so schwach sind, sind wir doch stärker als alle anderen. Glaubt mir, es wird uns keiner erschlagen; wir biegen jeden Stachel um. Und ich verlaß euch nicht. Wer uns schlagen wird, wird seine Schwäche fühlen. Ich will euch und mich schützen; ich werde nach Schan-tung wandern und den Schutz der Brüder von der Weißen Lilie erbitten, wie Chu will. Aber ich beschütze keine Räuber und Mörder. Wir wollen sein, was wir sind: schwache hilfsbedürftige Brüder eines armen Volkes.“ Ma-noh hielt den großen Wang an den Schultern umschlungen; er flüsterte heiß: „Und ich will mit dir wandern; ich will ein schwacher armer Bruder sein unter deinem Schutz.“ Die andern hatten still dagesessen, sich lange angeblickt. Dann warfen sie sich, erst Chu, darauf die vier vor Wang mit der Stirn an den Boden. ie Hütte des Ma-noh leer. Die Krähen und großen Raben hüpften über die Stiegen durch die offene Tür, saßen auf dem Herd, der noch warm war, zerrten mit ihren Schnäbeln an den dicken Binsenmatten. Zwei graue Zibetkatzen ließen sich an den Schwänzen vom Dach herunter, warfen sich mit einem Schwung langgestreckt mitten in die aufgehäuften Tuch- und Pelzlagen, wühlten unter ihnen herum; unter den Reflexen des Abendlichts blitzte ihr glanzvolles fleckiges Fell. Ein dicker Rabe schaukelte auf dem leeren Regal und sah nach unten; als die größere der beiden Katzen an die Wand gedrückt kurzbeinig sich in die Höhe zog, rauschte er unter ängstlichem
  • 68. Flügelschlagen und grellem Krächzen auf, an die Decke, zur offenen Türe hinaus. Im Dorfe gingen um dieselbe Abendstunde die Wegelagerer einer hinter dem andern in das Haus des Bauern Leh, das zu den vier Häusern gehörte um die Eiche am Eingang des Dorfes. Auf dem hinteren Hofe stand eine weite leere Scheune, die von den Bauern zu Versammlungen benutzt wurde. Die offenen breiten Tore an den Längsseiten ließen weite Lichtmassen herein. Was auf dieser Versammlung besprochen wurde, in der Scheune, in welcher ein schwerer Geruch von verfaultem Stroh, muffigen Menschenkleidern und Ochsenmist herrschte, ist kurz berichtet. Wang war nicht anwesend; Ma-noh hatte ihn den langen Weg, wo sie zusammen die goldenen Buddhas und die süß lächelnde Kuan-yin aus Bergkristall heruntertrugen, nicht allein gelassen; sie saßen in jener Gerätekammer zusammen und sprachen. Ma-noh war von einer Kette losgebunden; überglücklich, ungeschickt und possierlich. Seine alte Gereiztheit klang peinlich in seiner Stimme; er hatte einen Kampf zu bestehen mit seinen Grimassen, seiner Redemanier, plötzlichen Affekten, die bodenlos geworden waren, und die er mit sich herumschleppte, wie ein krankes Tier seinen Winterpelz in das Frühjahr. Er kannte mit dem feinsten Gefühl seine Aufgabe, Wang zu beobachten; sah mit Angst die Gefahren, die Wang drohten; sah im Hintergrund die Furcht Wangs vor der Anbetung der Vagabunden. Sie blieben bis in die Nacht in der dunklen kalten Kammer. Ma-noh konnte mit Freude verfolgen, wie sich in Wang das väterliche und herrschaftliche Gefühl für die Brüder, die ihm vertrauten, fest und fester setzte. In der Scheune berichteten die fünf Abgesandten, was sie mit Wang-lun beraten hätten und was ihnen Wang gesagt hätte. Vermochten fast Wort für Wort zu wiederholen. Sie standen in der Mitte des zugigen Raums; die Männer drängten sich um sie. Was die Boten berichteten, wirkte ungeheuer. Neuer Überfall, Bogenschüsse in ihre Masse hinein hätten nicht so stark erregen können. Bei einigen, die sich abseits von den übrigen zu bewegen pflegten, kamen hohnvolle Bemerkungen auf von Bonzenwirtschaft; sie hielten sich geduckt, als sie sich umringt
  • 69. fanden von leidenschaftlichen Gebärden, stillem Vorsichhinstarren, hastigem Ausfragen, gedankenvollem Hin- und Herspazieren. Die von Ma-nohs Hütte herunterkamen, strömten eine unablenkbare Sicherheit aus; sie standen eingekeilt; aus dem Haufen klang immer ihr: „Wang hat recht.“ Diese Boten, vom alten Chu bis zu dem ungeschlachten langen Burschen, welcher das blutige Fell in Ma-nohs Hütte getragen hatte, wurden angestarrt, umgangen von ihren Bekannten; man faßte sie an die Hände, man lechzte sie aus, staunte ihre Ruhe an. Wang, der ein paar Häuser entfernt in der Kammer hockte, an die jetzt alle dachten, rief man nicht; man hätte ihn ungern gesehen; er sollte dies alles nicht ansehen, dieses Herumgehen, dieses Zweifeln, diese Ratlosigkeit; man fürchtete das Auslöschen aller Lampen durch ihn. Den meisten kam Wangs Plan wie ein Rausch, dessen man sich erwehrt. Es war eine Generalabsolution, die ihnen erteilt wurde. Sie sollten, geschützt einer durch den andern, durch die Provinz wandern, betteln, arbeiten, an keinem Ort sich lange aufhalten, in keinem geschlossenen Hause wohnen, keinen Menschen töten; sie sollten niemandem wehtun, keinen betrügen, nicht rachsüchtig sein. Wer will, solle die mildesten Götter anbeten, die Götter des Cakya- muni, die Ma-noh und Wang vom Berge heruntergetragen hätten. Man würde Großes, so Großes erreichen durch dies alles, daß es gar nicht ausgesprochen werden könne: die Augen der fünf Sprecher wurden klein vor Überschwenglichkeit und Heimlichkeit. Besonders der ungeschlachte Bursche hatte jetzt etwas Hölzernes, Ungelenkes in seinem Wesen, sprach abgerissen, war stark gebunden in seiner Haltung, als wäre er plötzlich versunken, fände sich in seiner Haut nicht zurecht. Die andern fragten, was man denn erreichen werde, nicht neugierig oder skeptisch, sondern lüstern, aufgewühlt; aber die Boten Wang-luns schnitten darauf nur ein befangenes Lächeln; es schien sich um Geheimnisse zu handeln, in die auch sie noch nicht eingeweiht waren oder die so stark waren, so stark. Die Frager schwiegen selbst, im Gemüt beängstigt und zugleich erschauernd. Sie hatten das Gefühl der Rückkehr und zugleich des Abkettens. Die sich nicht beherrschen konnten und Opfer ihrer Begierden geworden waren, diese verbrauchten Weltverächter und kalten
  • 70. Ironiker, wurden am ehesten gepackt von dem Plane. Sie waren leer, trieben und rollten sich durch ein wechselvolles erbärmliches Leben, gutmütig, an vielem interessiert. Diese waren einer Bannung am ehesten zugänglich, denn sie verloren und gewannen nichts, waren völlig widerstandslos, da sie nichts beschäftigte. So tapfer sie sich in den furchtbarsten Lagen benahmen, so unerschrockene Beschützer, Angreifer sie waren, so waren sie am wehrlosesten, wo sich eine ernsterstarrte Miene zeigte und ein Gefühl strömte. Es wickelte sie ein; sie liefen ihm nach, sie bettelten hinter ihm her; sie tobten in Wut und glaubten sich um ihr Eigentum betrogen und verloren, wenn es vor ihnen auswich. Sie waren die verlässigste Avantgarde jeder, jeder Lehre. Sie gingen in der Scheune herum, witzelten unverändert. Sie konnten kaum die Worte der Boten lange hören, sie waren so innig gefangen, gequält von jedem Zuviel; sie schämten sich ihrer Veränderung. Die Glücklichen, die aus dem Drangsal des Bürgerlebens geflohen waren, hörten erregt, daß man zurückkehren wolle. Sie sollten verzeihen, sie wurden gedrängt, sich zu erinnern. Sie waren es, die tief beschäftigt herumgingen, oft zuhörten, oft sich umsahen und die Stirnen falteten. Sie empfanden ganz leise einen Puff: man drängte sie. Der wüste Schwall ihrer Erlebnisse und Verwicklungen stand vor ihren Augen; sie hatten einen Ekel davor wie vor einer Schlangengrube. Sie sollten verzeihen, niemandem wehtun: das sollte die ganze Wirrnis lichten. Sie hielten sich an die Boten, sie hingen an ihren Lippen, klagten innerlich. In ihnen tauchte das Rachegefühl auf, heilend, versöhnte sie mit sich und den andern; sie würden durch die alten Gassen gehen, Brüder eines geheimen Bundes, furchterregend, ohne wehezutun. Es zog sie in dem Augenblick, wo sie daran dachten, an die Orte hin, sie sahen sich wandern; die Rolle des Anklägers verlockte sie. Sie sollten zurückkehren; das gab ihnen den Schwung der Erwartung; sie hielten sich an die Boten, hingen an ihren Lippen, sehnten sich. In den Ecken standen mürrische Gesichter; junge und ältere, die miteinander nicht sprachen, an den Knöcheln kauten, Stückchen Stroh vom Boden aufhoben und zwischen die Lippen zogen. Solche finsteren Gruppen bildeten die verjagten Gesellen, welche sich elend
  • 71. unter den Vagabunden fühlten, denen sie sich notgedrungen anschlossen und die bösartig unter ihnen geworden waren. Ihnen konnte man eine offene Quelle zeigen, und sie wagten nicht durstig sich hinzustürzen, sooft waren sie schon zerschlagen worden; sie sahen in einer gewohnheitsmäßigen Verbissenheit ruhig zu, wie die andern tranken, sie, unter den Ausgestoßenen Ausgestoßene. Sie wußten nicht ob sie mitgalten, ob sie Brüder von Brüdern sein dürften. Erst als sich die lächelnden verschämten Witzbolde unter sie mischten, wo sie sich am sichersten fühlten, lösten sich ihre Mienen. Es gab unter allen, die in der Scheune Wangs Botschaft, diese alten herzlichen Dinge, hörten, keinen, dessen Herz sich mit ihrem an Verlassenheit und Weiche hätte vergleichen lassen. Wo man an ihre Herzen mit einer Nagelspitze ritzte, sprang alles Blut hervor. Sie waren unendlich verschüchtert. Sie schmolzen unter Wangs Worten; es gab unter ihnen einige ältere, die sich umarmten und mit ihrem Schluchzen die tönende Scheune erfüllten. Mit einer jungfräulichen Zagheit ließen sie zu, daß die andern sich ihnen näherten, und hatten noch später eine erinnerungsschwere Scheu vor ihren neuen Brüdern. Einige von ihnen, außer sich über das, was ihnen zuteil wurde, knieten vor den Boten nieder, nachdem sie sich durch den Knäuel geschoben hatten, bogen die Leiber zur Erde, sprachen unverständlich. Die Verzückung befiel sie, wo sie Brüder, schwache hilfsbedürftige Brüder schlimmer Vagabunden sein durften. Die Wartenden, die Verführten, die Heimatlosen und Krüppel aßen Worte und Mienen wie ein süßes Gebäck. Sie fühlten sich wohlgeleitet; sie fühlten, ihnen geschähe Recht und man führe ihre Sache würdig vor aller Welt. Sie waren es, die schon lange am innigsten zu Wang standen und am meisten von ihm erwarteten; er war, wie sie glaubten, ihr Bruder mehr wie der der andern. Sie träumten mit offenen Augen und frohlockten innerlich. Kein einziger von den vier, fünf Raubtiermenschen, die mit ihnen auf den Bergen gehaust hatten, befand sich mehr im Dorfe. Sie waren einzeln, sobald es wärmer geworden war, nach oben geschlichen, trabten auf den verschneiten Wegen, gruben ihre Höhlen und Hütten frei und warteten, warteten.
  • 72. Als die fünf Boten spät in der Nacht in Wang-luns Haus traten, und ihm in der warmen Wohnstube, derselben, in welcher er mit dem Lederbeutel gescherzt hatte, zu erzählen anfingen von der Versammlung und dem Verlauf, sank Wang zitternd gegen den Tisch, hörte ohne zu fragen einen nach dem andern an. Er sagte ihnen dann, was er vorhätte und was sie in den nächsten Wochen tun sollten. Er würde allein nach Schan-tung wandern; es würde Wochen, vielleicht einen Monat dauern, bis er sie wiedersehe. Prägte ihnen ein, sich zu zerstreuen, nur an einem oder dem andern Tage zusammenzukommen, sich nirgends lange aufzuhalten, aber immer voneinander zu wissen. Es stünde ihnen frei, andere, die ihresgleichen wären und sich zu ihnen hingezogen fühlten, aufzunehmen in ihre Gemeinschaft; aber darauf sollten sie keinen Wert legen, neue Brüder zu gewinnen. Sollten keine Früchte von den Bäumen reißen; sollten warten, bis sie selber fallen. Nur um sich sollten sie sich kümmern, dies könnte er ihnen nicht tief genug einprägen. Und dann sprachen sie den Rest der Nacht, ehe sie schlafen gingen, noch Geheimes und Himmlisches. Es war keine Besprechung mehr. Nach den Erregungen des letzten Tages saßen sie in dem halbdunklen niedrigen Zimmer um den leeren Holztisch herum, die Arme aufgestemmt, mit dem Kopf ermüdet nach vorn übergesunken, starrten vor sich hin, atmeten. Sie schwiegen, und dann redete einer für sich, spann seine dunklen Gedanken aus, schwieg. Sie hatten manches gehört auf ihren Fahrten; es hielt sie wach, kundschaften zu gehen auf dem neuen Gebiet. Einer erzählte von den großen Meistern Tung-gin und Ta-pe, welche auf Wolkenwagen stiegen, auf dem Regenbogen gingen und dann sich verirrten im Schoß des Nebels. Sie erreichten den Scheitel des Weltalls, ohne eine Fußspur zu hinterlassen im Schlamm und Schnee, sie warfen keine Schatten. Sie schritten über Berge und Felsen, bis sie zum Kun-lungebirge kamen, an die Pforte des Himmels; sie drangen in seine Umzäunung ein, sahen den Himmel über sich, einen Baldachin, die Erde unten, eine Sänfte.
  • 73. A Geheimnisvoll fing Wang selber an, leise zu sprechen von den Spitzen der Welt und den drei Juwelen. Er verstummte bald, wandte den Kopf wie beirrt suchend zur Seite zu Ma-noh. Ma-noh im Klostersingsang: „Cakya beschützt alle; der Maitreya kommt nach ihm, den erwarten die Frommen, des kostbaren Mondes weißen, majestätisch stillen König.“ Er summte entrückt von den Verwandlungen. Jeder saß mit sich beschäftigt. Als es hell am Morgen geworden war, nahm Wang Abschied nur von Ma-noh. Er lehnte ohne Begründung ab, sich begleiten zu lassen. Vor Ma tat Wang in der engen leeren Kammer das schweigende Gelübde; ließ sich die Scheitelhaare sengen, hielt seine Finger über eine Flamme, warf sein letztes Geld auf den Boden. n demselben Tage, an dem die Bettler das Dorf verließen und sich nordwärts zerstreuten, trat Wang-lun seine Reise nach Schan-tung zu den Brüdern von der Weißen Wasserlilie an. Er wanderte ununterbrochen, oft sechzig bis siebenzig Li den Tag. Ein furchtbarer Schneesturm hielt ihn zwei Tage im Gebirge fest, ehe er in das Hügelland und die Ebene eintreten konnte. Auf seiner beschwerlichen Wanderung brach dann der Frühling an. Die Stadt Yang-chou-fu sah den Bettler und beachtete ihn nicht; sie sah nicht lange später Anhänger dieses Mannes Entsetzliches in ihren Mauern leiden, fiel halb in Schutt. Er setzte über große Flüsse, über den Kaiserkanal und übernachtete einmal in Lint-sing, der Stadt, in der er sterben sollte. Während es Frühling wurde, näherte er sich den reichen, ihm wohlbekannten Gefilden am Westfuß des Tai-ngan. Man schälte noch auf den Winteräckern die Binsen ab, zog die langen Markstangen heraus; er dachte an Tsi-nan-fu, das nicht mehr fern war, und an Su-koh. Als der erste Regen fiel, begannen sie die Aussaat auf den Feldern, warfen Raps, Bohnen, Weizen. Das Brüllen der starken Pflugtiere, die nahen und weiten Lieder der Saatwerfer begleiteten Wang. Er zog weiter, südlich und östlich, umging das brausende Tsi-nan.
  • 74. Seine Nahrung gewann er durch Betteln, Trägerdienste; auf dem Felde half er. In den größeren Dörfern und Städten trat er als Geschichtenerzähler auf, trug das Weckholz, den Würfel in der Hand, das ihm ein großer Lehrer namens Ma-noh verliehen habe; er hörte die Leute aus, warf seine Saat mit großer Kraft. Er hatte Tschi-li verlassen, war wieder in Schan-tung, dem Lande, das den großen weisen Kung-fu-tse geboren hatte, den Wiederhersteller der alten Ordnung, die stählerne Mittelsäule des Staatsgebäudes; dem Lande, das auch durch Jahrhunderte die Geheimbünde hervorbrachte, welche Kaiser stürzten und furchtlos das notwendige Gleichmaß wiederherstellten, dessen dies Gebäude bedurfte. Das Land hatte einen ungeheuren Toten geboren, bot nun unablässig Lebendige auf, um zu bewirken, daß sein Fleisch, seine riesenhaften Knochen die Erde düngten, nicht breit auf dem kostbaren Boden laste. Die Geheimbünde waren die Spitzhacke, die Schaufel, die Barke der Provinz. Sie überlebten Regierungen, Dynastien, Kriege und Revolutionen. Sie schmiegten sich elastisch und windend allen Veränderungen an, blieben völlig in jeder Drehung unwandelbar und dieselben. Die Bünde waren das Land selbst, das sich mit blinden Augen lang hinstreckte; die Leute schacherten oben, feierten ihre Feste, vermehrten sich, besänftigten ihre Ahnen, Heerführer kamen, Soldatenvölker, kaiserliche Prinzen, Feuersbrünste, Schlachten, Sieg, Niederlage; nach einiger Zeit, einer unbestimmten Zahl von Monaten zitterte das Land in kleinen Schwingungen, Vulkanaugen warfen flammende, nicht zärtliche Blicke, Ebenen senkten sich; ein breitmäuliges Donnern; und das Land, beunruhigt, hatte sich auf die andere Seite zum Schlafen gelegt; es war alles wieder gut geworden. Es waren Jahrhunderte her, als die Mingherrschaft, die vom Volk getragene, echt chinesische, schwächer wurde, sich drehte, langsam verzuckte. In die schwere Zerrüttung des Reiches, bereitet durch Verbrüderung von Ohnmacht, Verbrecherwesen, Eunuchentum, griffen die Bünde ein; sie nahmen eisig den Hohn der Höflinge hin, die einen Knaben auf den Thron setzten. Dann erklärten sie ihm öffentlich den Krieg, bemächtigten sich des Landes; erschreckend weiß schimmerte in die Provinzen hinein die Wasserlilie Schan-tungs. Die Bünde hatten die
  • 75. glückliche Zeit der Mingkaiser nicht vergessen in den Jahrhunderten. Sagen schlangen sich um ihre Namen. Die Mandschus drückten nicht schwer; sie ließen das Volk gehen, wenn es sich nur beherrschen ließ. So große Kaiser die Mandschus dem Reiche gaben, die Unvergängliches schufen und unterstützten, so blieben sie den starren Genossenschaften Fremde, die nicht Recht haben durften. So milde, liebevoll und selbstvergessend die starken Fremden sich um das Volk bemühten, sie vermochten kein aufrichtiges Lächeln auf den Lippen der Frau zu erwecken, die sie auf Tod und Leben in den Armen hielten. Die Mandschu mußten erkennen, daß ihnen diese Herzen verschlossen waren. Es kam zu keiner Rachsucht. Sie hielten das Volk unter dem Schwert. Es fing an Gewalt mit Gewalt zu ringen. China, die Witwe, die sich in einer aussichtslosen Sehnsucht verzehrte, sammelte Freunde gegen den ernsten Gemahl. Zur Kühle trat Zorn, zur Enttäuschung trat Zorn. Wang umging die grünen Weinberge am Westfluß des Tai-ngan. Als er die ersten Hügel des Gebirges hinter sich hatte, rastete er bei seinen alten Freunden aus der Tsi-nanzeit einige Tage. Einen verschmitzten jungen Töpfer, den er bei ihnen vorfand, schickte er nach Tsi-nan herunter mit einem Gruß an den Bonzen Toh, den Verwalter des Tempels des Musikfürsten Hang-tsiang-tse. Die Rückkehr des Boten konnte Wang dann nicht mehr erwarten. Der Töpfer fand den Bonzen nicht im Tempel; er hatte nach Wangs Mord an dem Tou-ssee seine Kammer verlassen und hielt sich in der Stadt verborgen, erst in den grünen Häusern, wo ihn eine Wang befreundete Dirne aufnahm, dann in einem Dörfchen jenseits des Flusses, wo er seine Fähigkeit des Ziselierens an Zinngefäßen auszuüben begann. Hier traf ihn der gewandte Töpfersmann. Der Schreck und die Freude bei der Nachricht ließ Toh den Stahlgriffel aus der Hand fallen. Er forschte bei versperrter Tür den jungen Menschen aus, der von Wangs ernstem, ja ehrfurchtgebietenden Auftreten berichtete und dessen Mission in Schan-tung ahnte. Beide, Toh und der Töpfer, gingen frühmorgens aus dem Dörfchen heraus. Als sie im Gebirge eintrafen, waren vier Tage seit der Abreise des Töpfers verstrichen und Wang einen Tag weitermarschiert, ohne zu sagen wohin. Erst viel später, in den Zeiten der letzten Not, sah
  • 76. Wang noch einmal seinen Lehrer und lernte noch einmal seine Anhänglichkeit kennen. Die Birken und das lichte Haselgehölz in der schönen Berglandschaft, die der Mann aus den Nan-kubergen durchwanderte, schlugen aus. Kraniche segelten durch die Luft. Das Stoßen und Verhalten des Windes nahm ab; die Felsen wurden höher und kahler. Das Kohlengebiet von Po-schan kam näher. Ab und zu begegneten ihm lange endlose Züge von Maultieren, die kandierte Datteln, die süßen roten Früchte, in die Ebene hinunter schleppten. Dann verbreiterten sich die Wege; auch die Berge traten auseinander. Dunkle weite Felder dehnten sich mit unregelmäßigen Löchern, Püngen, in denen die abgebaute Kohle zu Tag lag. Die Luft wurde, selbst bei Sonnenlicht, dichter und dunkler. An vielen Orten stiegen Rauchsäulen in die Luft, wie Balken, die das Gebiet abgrenzten und eingitterten. Die Straße war hart; runde Granitblöcke lagen herum. Der Boden ging wellig. Auf der nackten steinernen Ebene stand die große Stadt Po-schan. Wang hatte von Chu die Adresse eines reichen Grubenbesitzers erhalten. Er traf den Mann in seinem ungeheuren festen Hause nicht an; er bereiste zu Handelszwecken, hieß es, die Nachbarschaft. Wang mußte seine Rückkehr abwarten. Er ging hinaus und vermietete sich als Arbeiter bei einer Grube. Sie standen zu fünf und zehn an den tiefen Schachten, mit geschwärzten Oberkörpern, zogen an mächtigen Winden. Im Takt, Hand hinter Hand an dem schlüpfrigen Lederriemen, zogen sie; ihr Gesang fiel gleichmäßig von Höhe zu Tiefe und stieg an, wie der Eimer mit Wasser und Kohle. Sie wohnten in der Ebene dicht zusammen in Lehmhütten. Abend um Abend ging Wang herüber in die Stadt. Zwischen den Kohlenhaufen mußte er sich durchwinden, die wie spitze Hüte aussahen. Dann kamen leere abgezäunte Flächen, über denen ein erstickender Säuregeruch stand; hier kristallisierte in großen Gefäßen das Schwefeleisen an der Sonne, das sie aus einer Lauge von Schwefelkies gewannen. Am sechsten Tage traf der Besitzer ein, er hatte schon von dem fremden Arbeiter gehört, der Tag für Tag nach ihm fragte.
  • 77. Chen-yao-fen war groß und breitschultrig, mit starkknochiger Stirn; hatte ein energisches Wesen, sprach in den kurzen dringlichen Sätzen der vielbeschäftigten; seine Fragen griffen unmittelbar an. Wang hatte solchem Manne noch nicht gegenüber gestanden. Er schwankte im Beginn des Gespräches; seine Sicherheit verließ ihn einen Augenblick; einige dunkle Erinnerungen aus seiner Betrügerzeit in Tsi-nan überhuschten ihn; er kam sich ertappt vor. Erst als er den Namen Chus ausgesprochen hatte, der Kaufmann verblüfft an ihn herantrat, und er, Wang mit Chen zu verhandeln anfing, schwieg alles unter kalter aufmerksamer Ruhe. Chen stand geraume Zeit, die linke ringgeschmückte Hand am Mund, still da, von dem Schicksal Chus erschüttert. Dann versperrte er die Türe, hieß den Gast, dessen Wünsche er nicht begriff, sich an einem kleinen Tisch vor dem Hausaltar setzen, bot ihm seine eigene Teetasse an. Wang, dessen Gesicht und Ohren Reste von Kohlenstaub bedeckten, trug sein Anliegen vor, knapp und einfach; welche Not sie in den Nan-kubergen gelitten hätten diesen Winter, wie sie in das kleine Dorf eingedrungen wären, wie die Bettler sich verbrüdert hätten und ihm folgten, was der Unterpräfekt von Cha- tuo gegen sie unternommen hätte. Sie würden untergehen, bäten um den Schutz der Vaterlandsfreunde, denn sie seien schuldlos, wie Chu. Der Kaufmann, der die aufgerissenen Augen nicht von dem Mann ließ, welcher mit hängenden Armen und geschwollenen Fäusten dasaß und seine Sache hersagte, wie wenn es sich um eine Schale Reis handle, fragte nur, welcher Art der Schutz sei, den man ihnen gewähren sollte. Er erhielt zur Antwort: Druck auf die Behörden; im Notfall unmittelbare Aufnahme der Verfolgten und Eintreten für sie. Dann bat er schon mit leisen Worten Wang zu gehen, um keinen Verdacht zu erregen; morgen würden sie bei den Laugetöpfen, an denen er ein neues Verfahren ausprobe, das er auf seiner Reise kennen gelernt habe, sich in Ruhe weiter sprechen können. Wang verneigte sich und schwang die Hände, nachdem er auf das stündlich Dringende seiner Sendung hingewiesen hatte. Der Kaufmann keuchte, als er allein war. Er verstand dies alles nicht, verstand nicht, warum Chu, der Schweigsamste von allen, der
  • 78. Hab und Gut liegen gelassen hatte, ohne ein Wort zu verlieren, sich diesen Vagabunden offenbart hätte, sie alle verraten hätte. Er warf sich in der Nacht. Als er sich morgens ankleidete, steckte er ein kurzes breites Messer in seinen Tabaksbeutel am Gürtel; wenn es sein müßte, wollte er den Sendboten bei den Laugetöpfen beseitigen. Chen war nichts weniger als totschlaglaunig; diese Sache erforderte ein augenblickliches Eingreifen. Um keinen weiter zu belasten, suchte er seine Freunde und Gildengenossen nicht auf. Er zündete Räucherkerzen an vor der Ahnentafel in seinem Wohnzimmer, gelobte hundert Täls zum Bau einer Pagode beizutragen, wenn diese Angelegenheit gut abliefe, rief seine Träger. Seine Sänfte trug ihn bis an die Abzäunung der Felder. Dann schleppten die Träger zu zweien große eigentümlich geformte Tonkrüge mit einer bleischweren Masse gefüllt hinter ihm her, setzten sie auf seinen Ruf neben eine der flachen Laugeschalen ab, die groß wie ein Zimmer war. Eine schwarzbraune Flüssigkeit bedeckte ihren Boden, atmete einen zusammenziehenden ätzenden Dunst aus. Die Träger schickte Chen weg mit einer Handbewegung. Wang kam, hockte auf Chens Wink neben ihn vor der Schale nieder. Beide wanden sich dünne Seidenschals, die neben Chen lagen, vor Mund und Nase. Wieviel sie auf den Nan-kubergen seien? Hundert, als er wegging, jetzt vielleicht vierhundert, vielleicht tausend. Warum so ungewiß, vielleicht vierhundert, vielleicht tausend? Wodurch könnten sie sich so rasch vermehren? Sie seien einer Ansicht. Sie litten alle viel. Sie beschützten sich gegenseitig. Noch einmal, wer er sei, woher er stamme, welche Rolle er bei ihnen spiele? Er heiße Wang-lun, sei der Sohn eines Fischers, aus Hun-kang- tsun im Distrikt Hai-ling, Schan-tung, gebürtig. Er führe sie; er hätte ihnen geraten, nichts zu tun gegen Bedrückungen, sondern als Ausgestoßene zu leben ohne Widerstand gegen den Weltlauf. Was er damit bezwecke, der Führung, dem Raterteilen, was er mit alledem bezwecke? Warum sie sich denn nicht einfach in die acht
  • 79. Welcome to our website – the perfect destination for book lovers and knowledge seekers. We believe that every book holds a new world, offering opportunities for learning, discovery, and personal growth. That’s why we are dedicated to bringing you a diverse collection of books, ranging from classic literature and specialized publications to self-development guides and children's books. More than just a book-buying platform, we strive to be a bridge connecting you with timeless cultural and intellectual values. With an elegant, user-friendly interface and a smart search system, you can quickly find the books that best suit your interests. Additionally, our special promotions and home delivery services help you save time and fully enjoy the joy of reading. Join us on a journey of knowledge exploration, passion nurturing, and personal growth every day! ebookbell.com