IN THE UNITED STATES DISTRICT COURT  EASTERN DISTRICT OF TENNESSEE  KNOXVILLE DIVISION  LISA TROUT,  Plaintiff,  v.  KNOX COUNTY BOARD OF  EDUCATION,  Defendant.  MARK TAYLOR,  Plaintiff,  )  )  )  )  )  )  )  )  )  NO. 3:14­CV­49  )  )  )  )  )  )  )  )  )  "BILL")  WILLIAM  EDWARD  HASLAM;  KEVIN  S.  HUFFMAN;  and)  KNOX  COUNTY  BOARD  OF)  )  EDUCATION,  v.  NO. 3:14­CV­113  )  Defendants.  )  )  )  EXPERT WITNESS REPORT OF JESSE ROTHSTEIN  I, JESSE ROTHSTEIN, declare as follows:  Qualifications  I am a labor  economist, appointed  as Professor  in the Goldman School of  Public  Policy and  the Department of  Economics at the University  of California, Berkeley.  I am  also  the  Director  of  the  Institute  for  Research  on  Labor  and  Employment  at  the  University; a  Research  Associate  of  the National  Bureau  of Economic  Research; and  a  Fellow of the National Education Policy Center at the University of Colorado, Boulder.  I  serve  on  the  editorial  board  of  the  American  Economic  Review,  the  leading  journal  in  economics, and  of  the  Industrial Relations journal.  My  curriculum  vitae  is attached  as  Exhibit A.  1  Much of  my  research to date concerns education policy.  I  have published  papers  in  leading  peer  reviewed  journals  on  school  choice,  school  infrastructure  spending,  segregation, and college and  university admissions, among other topics.  I have  written a  number  of  papers  on  the  use  of  so­called  "value­added  models"  to  measure  teacher  effectiveness  and  on  the  design  of  policies  for  teacher  evaluation.  These  have  been  published  in  leading  peer­reviewed  journals  such  as  the  American  Economic  Review,  Quarterly Journal of Economics, Education Finance and Policy, and Kappan.  Outside of  education, I  have  published  papers on  the  impact  of  the  Earned  Income  Tax  Credit  on  recipients'  wages  and  on  the  incentive  effects of  Unemployment  Insurance  extensions.  My  work  has  been  published  in  many  of  the  leading  peer­reviewed  journals  in  economics, education,  and  public  policy, including the  American Economic  Review, the  Quarterly Journal  of  Economics,  Education Finance  and Policy,  the  Brookings  Papers  on Economic  Activity, Kappan,  the  Journal of  Public  Economics, and  the  Chicago Law  Review.  I am recognized  within my  profession as a leading expert on  labor economics, on  the  economics  of  education,  and  on  value­added  modeling  in  particular.  My  expertise  has been  recognized  in a number of  ways.  In 2009­2010,1 served as Senior  Economist  for labor and education at  the White House Council of Economic  Advisers, and in 2010 I  served as chief economist at the U.S. Department of Labor.  I currently serve on technical  advisory panels for  the National Center  for Education Statistics and  the Bureau of  Labor  Statistics.  I  was one of  six economists  invited  to teach  continuing education  courses at  the 2013 annual  meetings of  the American  Economics  Association,  where I  co­taught a  course in labor and education economics.  In  recognition of my  expertise in value­added  modeling, I  was one of  twelve top  researchers  invited  to  participate  in  a discussion  of  what  has  been  learned  from  recent  research  on  the  measurement  of  teacher  effectiveness,  hosted  by  the  Institute  of  Education Sciences  in October  2012.  In September  2011,1 was one of  four researchers  2  on a panel  convened by  the American  Education Research  Association and  the National  Academy  of  Education  to  brief  congressional  staffers  on  "Getting  Teacher  Evaluation  Right: A  Challenge for  Policy  Makers."  I  have consulted  with school  district and  union  staff  in  several  states and  school  districts  regarding  the  use  of  value­added  models for  teacher evaluation.  I  testified  as  an  expert  witness  regarding  teacher  evaluations  and  teacher  workforce  policies in  the Vergara  v.  California case  (Beatriz Vergara, et  al. vs.  State of  California,  et  al.  and  California  Teachers  Association,  et  al.,  Hon.  Rolf  M.  Treu,  presiding, case number  BC484642) in  the California Superior  Court  in 2014. This  is the  only case in which I have testified in the last four years.  Assignment  I was  retained by  Counsel for the Plaintiffs as an expert on March  17, 2015.1 am  being compensated at a rate of $350 per hour, plus expenses, for my services.  Counsel  has asked  me to  offer  my  professional  opinion  regarding the Tennessee  Value  Added  Assessment  System  (TVAAS)  and  its  use  to  evaluate  teachers  in  Tennessee.  TVAAS  is  an  example  of  a  broader  class  of statistical  models,  known  as  "value­added" (VA)  models,  that are  designed  to extract  estimates of  teachers'  impacts  on  student  achievement  from  databases  of  student  test  scores.  The  purpose  of  such  models,  including  TVAAS,  is  to  measure  teacher  effectiveness  in  improving  student  academic performance.  Early VA  models were  used for  research or to  provide feedback  to  teachers,  but  they  have  recently  begun  to  be  incorporated  into  formal  teacher  evaluation systems in many states and districts.  Counsel has asked  me to discuss the features of the TVAAS statistical  model; the  scientific  evidence  regarding  the  validity,  reliability,  and  fairness  of  TVAAS  or  VA  scores as measures of teacher effectiveness; and the effect of Tennessee's use of TVAAS  within its overall teacher evaluation system.  In order  to do this, I have reviewed relevant  3  technical reports as well as academic publications  in the economics, statistics, education,  and  public  policy  literatures.  The  discussion  below  refers to  a number  of  these  reports  and research papers.  They are listed, with full citations, in Exhibit B.  Value­Added Modeling  Value­added  modeling starts  from the  premise that  effective teachers  cause  their  students  to  learn  more,  and  that  this  additional  learning  should  be  manifested  in  the  students' scores on standardized  tests.  This implies that one should  be able to  measure a  teacher's effectiveness by looking at his or her students' end­of­year test scores.  It is not  this simple,  however.  Student  achievement  is  affected  by  many  factors  other  than  the  teacher,  including  (but  not  limited  to)  the  student's  own  innate  ability;  the  support  for  learning that the student receives at home and from  his or her community; characteristics  of the student's family such as income, poverty, and language  use; school factors such as  school  leadership,  class  sizes,  curriculum,  resources  (e.g.,  books  or  computer  labs),  instructional  time, security  and  physical safety,  and  the availability  of specialists, aides,  and  tutors; the  student's health  and  access to  medical  and  dental  care and  to  nutritious  food; and out­of­school events  in the student's life (e.g., parental divorce).  These factors  are  not  evenly  distributed  across  schools  or  teachers,  Some  schools  and  teachers  generally  receive students  who are  above average on these dimensions,  while others  are  more  likely  to  have  students  who  are  below  average.  A  valid  estimate  of  a  teacher's  effectiveness  needs  to  distinguish  the  teacher's  own  impact  from  all  of  the  other  influences on his or her students.  VA  models are  statistical  methods that  attempt to  do this.  Different VA  models  do this in different ways, but  they have  in common the underlying  goal of distinguishing  instructional  impacts on  students'  test scores  from  the effects of  other factors.  They do  this  by  attempting  to  control  for  the  influence  of  the  other  factors  on  students'  scores,  leaving  a remaining component  that  is due  to  the  teacher. This  is made difficult  by  the  4  fact that the factors listed above are not easily measured, so cannot be controlled  directly.  Rather, VA  models usually  use the  previous year's score  as a summary  for many  of the  hard­to­measure  outside  influences.  The  simplest  VA  model  would  compare  students'  end­of­year standardized test scores with the same students' scores on the previous year's  test,  and  would  classify  a teacher  as  effective  if  his  or  her  students tended  to  achieve  higher  than  average  year­over­year  test  score  gains  and  as  ineffective  if  his  or  her  students  tended  to  achieve  gains  that  were  below  average.  More  sophisticated  models  allow average gains to  vary  with students'  prior achievement  levels, classifying  teachers  as effective  if  their students  tend  to  earn  higher  scores than  do other  students  with  the  same  prior  year  scores.  Most  VA  models also  control  for other  student  characteristics,  such as race,  gender, free  lunch status, and  disability, and some also control  for average  characteristics of students in the classroom and/or school.  The interpretation of VA estimates as reflecting the effectiveness of teachers rests  on an  assumption that  any  variation across  classrooms  in student end­of­year  outcomes  beyond  that  which  can  be  attributed  to  the  specified  control  variables  is  due  to  the  teacher.  As I  discuss below,  this represents a leap  of faith.  While VA  models all try  to  distinguish the teacher's impact from  those of other  factors, they are all unsuccessful to  a  greater or  lesser degree.  It  is  well established  that  VA  scores reflect  factors other  than  teachers'  impacts  on  student  test  scores,  though  the  magnitude  of  this  "bias"  remains  uncertain.  Moreover, unmeasured differences among students are not the only source of bias  in VA  measures, interpreted  as indications of  teachers' effectiveness.  Another important  source  of  bias  derives  from  misalignment  between  the  student  assessment  used  to  construct  the  VA  measures  and  the  teacher's instructional  focus.  A  VA  score can  only  hope to measure student performance on the particular topics, skills, and subjects covered  by  the assessment used.  If the school or district has and communicates clear expectations  about  the  content,  skills,  subjects,  and  topics  that  the  teacher  should  teach  and  if  the  5  assessment  is  perfectly  aligned  to  those  expectations,  this  may  be  useful.  But  those  conditions are quite rarely  met. More  commonly, the  test is imperfectly aligned  with the  curriculum  and  standards,  which  themselves  do  not  clearly  delineate  priorities  among  their different components, and does not capture the full range of skills and competencies  that  we  want  students to  have. This raises the  possibility  that  highly  effective  teachers  might  focus  their  instruction  in  other  directions  from  those  emphasized  by  the  test ­ sometimes because the curriculum calls for them to do so. Such teachers can be expected  to  receive  VA  scores  that  understate  their  true  effectiveness,  while  teachers  who  align  their  instruction  to  the assessment  or  who focus  disproportionately  on  test­taking skills,  sometimes  to  the  exclusion  of  learning  the  actual  material  being  tested,  are  likely  to  receive VA scores that overstate their effectiveness at teaching the curriculum.  In  the  last  decade,  researchers  have  learned  a  great  deal  about  the  statistical  properties of VA models when used in low­stakes settings.  My discussion below is based  largely  on  this  evidence.  Until  very  recently,  VA  scores  were  rarely  included  as  a  component  of  formal  teacher  evaluations.  Moreover,  while  their  use  for  teacher  evaluations  has expanded  in the  last  few years,  this  has  tended  to  occur  without  much  planning  and  without  well­designed  pilot  studies or  ex  post evaluations.  There  is thus  relatively  little  evidence  available  regarding  the  effects  of  using  VA  scores  to  inform  high­stakes decisions.  I discuss what evidence there is below.  TVAAS  The  Tennessee  Value­Added  Assessment  System  (TVAAS)  is  a  specific  implementation of a  VA model. It  was developed by  William Sanders and his colleagues  at the University  of Tennessee  in the  late 1980s  and early  1990s. Sanders  subsequently  moved  to  SAS,  a  private  corporation.  SAS  now  markets  TVAAS  to  other  states  and  districts  under  the name "Education Value­Added  Assessment System"  (EVAAS). SAS  6  considers  TV A AS/EVA AS  a  proprietary  model,  and  its  inner  workings  are  a  closely  guarded secret.  Counsel  for  the  Plaintiffs  has  provided  me  with  a copy  of  a subpoena  issued  to  John  White of  the SAS  Institute, seeking  information about  EVA AS analyses  that  SAS  conducts  for  the  State  of  Tennessee.  This  subpoena  is  included  here  as  Exhibit  C.  Counsel  has  also  provided  me  with  a  response  to  this  subpoena  from  White.  This  response  is  included  here  as  Exhibit  D.  It  objects  to  many  of  the  requests,  stating  that  many of  the details  requested are  trade secrets  or otherwise  confidential and  proprietary  information of SAS  Institute, Inc., and  are protected  by  White's "obligations under  SAS  Institute Inc's Use and  Disclosure of Confidential and  Proprietary Information Policy." It  appears that White was thus unable to produce any documents in response to the request.  SAS's approach to public disclosure of the details of TVAAS/EVAAS means that  relatively  little is  known about  the technical  details about  TVAAS/EVAAS. Most  other  VA  models  have  been  developed  by  academics,  treated  as  contributions  to  the  public  research  literature,  and  remain  in  the  public  domain.  This  has  permitted  outside  researchers  to  study  these  models  to  a  greater  degree  than  has  been  possible  with  TVAAS/EVAAS.  As  a  consequence,  less  is  known  about  the  validity  or  reliability  of  TVAAS/EVAAS  estimates  than  about  those  generated  by  other  VA  models  used  elsewhere.  TVAAS/EVAAS  is  in  reality  two  quite  distinct  models.  One  is  known  as  the  "multivariate response model," or "MRM," and is used for grades four through eight. The  other, known as the "univariate response model," or "URM," is used in other grades. The  reason  for  the  distinction  is  that  elementary  and  middle  school  students  typically  take  comprehensive  tests each  year  that  are  in some  sense comparable  across  grades,  where  high  school  students  have  very  heterogeneous  patterns  of  tests  covering  a  variety  of  different subjects. The URM attempts to accommodate  variation in  the number  and  type  of prior test  scores available as well as differences in score scales and score distributions  7  across tests.  The  MRM presumes that  test scales  and  content coverage are similar  from  year to year.  The  MRM  and  URM  have  in  common  a  reliance  on  a  student's  test  score  trajectory  across grades and  subjects as the  only information  needed to  model  his or  her  potential. More modem VA models control for a much more extensive set of information  about students. For example, many states and districts use  models that control for gender,  race,  free­  or  reduced­price  lunch  status  (seen as a proxy  for  student  poverty),  English  Language  Learner  (ELL)  status,  the  presence  of  any  of  a  list  of  disabilities,  student  mobility,  student  attendance,  past  grade  retention,  and  sometimes  class  and  school  averages  of  these  characteristics (see, for  example,  Value­Added  Research  Center  with  New  York  City  Department  of  Education  2010  and  Chetty,  Friedman,  and  Rockoff  2014).  I discuss the implications of this important difference below.  Documents aimed at explaining  TVAAS to  lay audiences  often characterize  it as  comparing a student's test  score to her  predicted score based on her  past performance. A  teacher's TVAAS  score  is then  based  on  the  average  difference  between  her  students'  actual  scores  and  their  predicted  scores  a  teacher  whose  students  outperform  their  predictions  receives  a  high  score,  while  one  whose  students  fail  to  meet  expectations  receives a  low  score.  This is  a simplified  but  basically  accurate  characterization  of  the  URM. But  the MRM is  much  more complex  than  this, and  is not  at its  root based  on a  comparison between actual and predicted performance.  The details are complex, but  at an intuitive  level the MRM uses  the full sequence  of a student's past and future scores to infer her  latent ability and  the "noise" component  of each year's scores. (The  "noise" component is the  portion of a student's  score that  is  idiosyncratic,  due  to  chance  factors  such  as  her  health  on  the  day  of  the  test  or  her  familiarity  with  the  specific  items  that  appear  on  the  test,  and  not  related  to  her  knowledge of the  material covered by  the test or to  her potential  performance on a future  test.)  A  student  whose  score  is  stable  in  grades  4,  5,  and  6  but  rises  in  grade  7  and  8  remains elevated  in grade  8  is inferred  to  have  had an  effective teacher  in  grade 7,  and  thus contributes positively to the 7th  grade teacher's TVAAS score. By contrast, a student  who  has  identical  scores  in  grades  4­7  but  sees  her  score  fall  back  in  grade  8  is  interpreted  to  have  gotten  lucky  in  grade  7,  and  not  to  reflect  as  well  on  her  grade­7  teacher.  All  of  this  interpretation  is  statistical  and  occurs  automatically  as  part  of  the  EVAAS  calculations;  there  is  no  human  judgment  incorporated,  and  the  above  descriptions are simply examples.  Of  course,  the  student's  8th  grade  score  is  not  available  when  the  7th  grade  teacher's  TVAAS  score  is  initially  calculated.  It  only  becomes  available  a  year  later.  Thus, initial TVAAS reports  are based on  limited information,  and teachers'  scores can  be adjusted dramatically in  subsequent years as additional student scores are added to the  data. These adjustments are sometimes referred to as "re­estimation."  A memorandum addressed to "Directors of Schools" from  Nakia Towns, assistant  commissioner  for  data and  research for  the Tennessee  Department of  Education,  dated  January  27,  2015,  is  attached  as  Exhibit  E.  In  this  memo.  Assistant  Commissioner  Towns  announces  that  the  Tennessee  Department  of  Education  will  stop  using  "re­ estimation"  in  the  calculation  of  TVAAS  growth  estimates.  This  means  that  teachers'  scores in 2014­15 and thereafter will  not even use  all of  the information  available about  the teachers' performance within the TVAAS framework.  While this is likely to improve  the perceived credibility of the results,  as substantial revisions are difficult  to explain to  teachers,  it  does  nothing  to  improve  the actual  reliability.  Rather,  the  hard­to­explain  revisions are  an indication  that  the scores are  not  very  reliable  and  are  based  on  very  limited data. I return to this below in my discussion of validity.  Assumptions Implicit in the TVAAS Model  All VA  models rely  on implicit assumptions about the assignment of students to  teachers. If  these assumptions  are correct,  the  models can  yield  unbiased  (albeit  noisy)  9  estimates of teachers' impacts on their students. If they are not,  VA scores will reward or  punish teachers unfairly, based on the types of students that they teach.  While  all  VA  models  rely  on  assumptions,  they  do  not  all  rely  on  the  same  assumptions.  In  particular,  TVAAS,  which  as  mentioned  below  includes  many  fewer  controls  for  student  characteristics  than  do  more  modem  VA  models,  relies  on  quite  different assumptions than those models do.  To explain  this, it is  useful to  understand why  VA  models include  controls. The  reason is  that students are  not randomly  assigned to  teachers. If students  were randomly  assigned, simple average end­of­year scores,  without controls,  could  be used  for teacher  evaluations. But without random  assignment, teachers who teach accelerated or advanced  classes (whether formally  labeled as such or  not) would  receive evaluations  much better  than their  actual  performance merited,  while those  who teach  remedial classes  would  be  unfairly  penalized.  VA  models  attempt  to  limit  this  bias  by  controlling  for  student  characteristics that,  it  is  hoped,  proxy  for  the  determinants  of  teacher  assignments.  All  VA  models control  for  the student's  prior  test  score  in  one  way  or  another.  But  this is  unlikely to capture all of the factors that influence the assignment of students to teachers.  Assignments  commonly  depend  on  parental  requests,  on  teacher  preferences  and  specializations, on past teachers'  assessments of a student's specific aptitudes and  needs,  and, in middle and  high school, on a student's interests and  ambitions and on scheduling  constraints. These factors are  unlikely to  be fully  captured by  a single prior test score, or  even  by  many  past  scores.  Thus,  many  models  include  the  richer  information  in  the  characteristics listed  above, in the  hope that these  are enough  to absorb  the influence of  the unobserved factors that determine teacher assignments.  In a  paper  published  in  2010  in  the  Quarterly Journal of Economics, one of  the  leading journals in  the field, I  explored the assumptions required  by  various VA  models.  This  paper  is  attached  as  Exhibit  F.  In  models  that  control  for  a  rich  set  of  student  characteristics,  the  required  assumption  is  that  teacher  assignments  are  random  10  conditional  on  those  characteristics  that  there  are  no  unmeasured  factors  that  both  influence  teacher  assignments  and  help  to  predict  a student's  subsequent  performance.  The TVAAS  URM is of this  type, though with  only past  test scores included  as controls  and  thus  an  assumption  that  classroom  assignments  are  random  conditional  on  past  scores.  In the TVAAS MRM, the assumption  is different, but no less strong. Students are  assumed to  be characterized by a latent ability (or  set of abilities) that is fixed at the time  of school entry and that, along with teacher assignments, determines their performance in  all  grades. Teacher  assignments are  assumed  to depend  on  this ability ­ which is  never  observed directly  and can  only  be  partially  inferred from  the student's  test scores ­ and  not  on  changes  in  a  student's  performance  or  circumstances  after  school  entry.  This  assumption  is  quite  different  from  the  assumptions  underlying  the  TVAAS  URM,  so  implicitly  TVAAS  assumes  that  the  processes  governing  teacher  assignments  in  high  school are quite different than those in earlier grades.  To illustrate  the TVAAS  MRM assumption,  consider a school  system that gives  students an  IQ  test  at  school  entry  and  uses  that  score  as  the  sole  consideration  in  all  subsequent  teacher  assignments.  This  would  be  consistent  with  the  TVAAS  MRM  assumption  (though  not  with  the  URM).  But  if  a  student's  teacher  assignment  in  one  grade depended  in  part on  her  test score  in  the prior  grade or  on  new events  in her  life  (such as  a move,  an illness,  or a parental divorce) the TVAAS  MRM assumption  would  be violated and TVAAS MRM estimates of teacher effectiveness would be biased.  In  my  2010  study  (Exhibit  F),  I  demonstrated  the  pervasive  violation  of  VA  model assumptions  by  showing that a wide variety of  VA models indicate  that 5th  grade  teachers have "effects" on their students' 3rd  or 4th grade scores (see also Rothstein 2009).  Logically,  5th  grade  teachers  cannot  have  retroactive  effects  on  their  students'  prior  scores,  so  any  VA  model  that  isolated  teachers'  actual  causal  effects  would  show  no  effect  of  5th  grade  teachers  on  their  students'  scores  two  years  earlier.  That  the  VA  11  models I examined all showed substantial  retroactive effects indicates that they  have not  adequately controlled  for differences among students arising from  nonrandom classroom  assignments.  Therefore, the VA models wrongly  attribute to teachers other influences on  student performance.  The results of my study  have been reproduced  in a wide variety of  other settings,  including Florida, New  York City, San  Diego, and Los  Angeles, and  with  a  wide  range  of  VA  specifications  (see,  e.g.,  Chetty  et  al.  2011  and  Koedel  and  Belts  2011).  I am aware of no study that looked for effects like this and failed to find them.  1 found  that  the  violation  of  VA  model  assumptions  was  particularly  severe  for  models, like the TVAAS MRM, that assume that assignments depend only on permanent  student  traits.  These  models  implicitly  assume  that  all  student  characteristics  stay  constant  across a student's  life  (or  are  irrelevant  to  classroom  assignments),  ruling  out  roles for  parental divorce (or  other family  disruption), parental  job loss, peer effects,  or  developmental challenges (e.g., onset  of  puberty). This  kind  of assumption seems to be  further from the truth than is the assumption in other VA models that assignments depend  only on  prior test  scores and  other observed characteristics,  which may  be better  able to  partially  account for  the types of  shocks listed above. TVAAS­type  models are likely  to  produce  quite  substantially  biased  estimates  of  teachers'  causal  effects.  Unfortunately,  this bias cannot be  measured directly ­ we cannot examine the TVAAS scores and know  which  teachers  were  unfairly  advantaged  and  which  disadvantaged ­ but  this  does  not  mean that it is absent.  The potential for  bias due  to violations  of the TVAAS assumption about  student  assignments  is  important,  but  not  the  only  potential  source  of  systematic  error.  Other  assumptions encoded in TVAAS have equally  weak, or  worse, empirical grounding. For  example, the  MRM assumes that teachers'  effects accumulate over  time, without  decay.  th  Thus, if  an excellent 4th  grade teacher  raises students'  4 grade scores by  1.5  points (on  the Normal  Curve Equivalent, or  NCE,  scale  used  by  TVAAS), then  it  is assumed  that  her students'  8th  grade scores  will  also  be  1.5 points  higher  than  they  would  have  been  12  with  an  average  4th  grade  teacher.  But  the  evidence  indicates  that  this  is  not  remotely  correct  (see, e.g.,  Kane  and  Staiger  2008 and  Jacob,  Lefgren,  and  Sims  2010).  Rather,  !h  teachers' effects "fade out" quickly ­ a teacher who adds 1.5 points to students'  4 grade  scores might  add only  0.5 to  their 5th  grade scores  and even  less to scores  in subsequent  grades. The  imposition of  an incorrect assumption about  this fade out  creates additional  biases  in  TVAAS,  beyond  those  attributable  to  non­random  student  assignments. Their  exact  form  is  hard  to  predict,  but  they  likely  penalize  teachers  who  follow  unusually  effective teachers in a prior grade, and reward teachers who follow ineffective teachers.  The Validity of VA and TVAAS Scores  All  measures  of  complex  phenomena  are  limited  in  various  ways.  The field  of  educational measurement  has developed standards for judging the validity  of educational  measures,  and  it  is  standard  practice  to  seek  evidence  for  the  validity  of  a  particular  measure before using  it in decision­making. Validity evidence is specific to  the proposed  use  of  the  measure:  A  score  on  a  test  that  tries  to  cover  a  wide  variety  of  topics,  for  example,  might  be  a  highly  valid  measure  of  a student's  overall  progression  but  have  very  low  validity  for  use  in  targeting  specific  interventions  aimed  at  portions  of  the  curriculum.  In  my  opinion,  the  evidence  supports  the  following  conclusions  regarding  the  validity  of  VA  estimates  as teacher  evaluation  measures: (1)  Any  validity  is  dependent  upon  the  use of  appropriate test  instruments, closely  aligned to  the curriculum  and  with  appropriate  score  scales  both  within  and  between  years;  (2)  VA  estimates  are  highly  unstable from class to class or from year to year, and, relatedly, have large standard errors  that make it impossible to pinpoint a teacher's true performance; (3) teachers' VA ratings  are significantly affected by differences in the students who are assigned to them; (4) VA  ratings  are sensitive  to  differences across  teachers  in  their  instructional  focus, and  give  higher  scores  to  teachers  who  "teach  to"  the  end­of­year  test  than  to  equally  effective  13  teachers who focus their efforts on other forms of learning that may  be more important in  the  long  run;  (5)  VA  models  are  particularly  limited  in  their  ability  to  support  comparisons  between  teachers  working  in  different  schools;  and  (6)  VA  measures  can  capture at most one dimension of  teacher effectiveness, with other independent  measures  needed to  capture other  dimensions. I  discuss each  of these conclusions  in turn.  All are  common to all VA models, including but not limited to TVAAS.  The test instrument and score scale  VA models can  at  most reveal  a teacher's impact  on student  achievement on  the  particular end­of­course  or end­of­grade  test that  students  take. Thus,  VA estimates  can  be valid measures of teachers'  instructional effectiveness only  if student  performance on  that  test  is  a  useftil  and  complete  summary  of  the  topics,  subjects,  and  skills  that  the  student  is  intended  to  learn.  Tests  intended  for  teacher  evaluation  should  be  designed  differently  than  those  intended  for  other  purposes,  such  as  measuring  average  student  proficiency  or  providing  guidance  about areas  of  relative  weakness  for  use  in  targeting  future  instruction  (Neal  2013).  In  particular,  tests  that  will  support  teacher  evaluations  must be closely tied  to the subject matter, domains, skills, and content areas that a teacher  is  expected  to  cover  and  must  emphasize  each  area  in  proportion  to  a  considered  judgment  about  its  importance;  must  be  insensitive  to  irrelevant  factors  such  as  test­ taking  strategies;  and  must  be  scored  using  an "interval"  scale,  both  across and  within  grades. I discuss these three requirements in turn.  First,  it  is  extremely  important  that  the  test  be  well  aligned  with the  curriculum  that teachers are being asked  to teach. If VA scores were roughly  invariant to the  choice  among tests,  this  might  not  matter. However,  the evidence  indicates  the  opposite.  One  study  compared  VA  estimates computed  from  several districts'  regular,  multiple­choice  standardized tests to VA estimates for the same teachers based on student performance on  a  more  conceptually  demanding,  open  response  test.  The  two  VA  scores  were  only  14  weakly correlated, even after adjusting for volatility  in each  some teachers did better at  raising  their  students'  standardized  test  scores,  while  others  did  better  at  preparing  students  for  the  more  conceptually  demanding  test  (Bill  &  Melinda  Gates  Foundation  2010; Rothstein 2011).  This implies that VA scores computed from traditional  multiple­ choice standardized  tests are  poor guides to teachers'  contributions to the  types of skills  measured  by  the  more  conceptually  demanding  test.  As  the  latter  are  arguably  more  closely  tied  to  teaching effectiveness,  this casts  doubt  on  the  validity  of  traditional  VA  scores as effectiveness measures.  Other studies have found similarly low correlations  between VA scores computed  from  different  multiple  choice  tests (Corcoran  et  al.  2011,  Lockwood  et al.  2007).  My  interpretation of  these results  is that  tests differ in  their emphases, and  that a substantial  part  of  the  variation  in  VA  scores  reflects  differences  across  teachers  in  the  extent  to  which they focus on the material, topics, or skills emphasized by the student achievement  test used  to compute  the  teacher  VA  scores.  I  return  to this  below in  my  discussion  of  teacher focus. But the implication is that a test that is not closely aligned to and  validated  against the  curriculum  will do a  poor job  of capturing  teachers' effectiveness.  Indeed, it  might yield results that are  negatively correlated with true  effectiveness, if those teachers  who teach the curriculum are penalized relative to those who do not.  Second,  when  VA  scores  are  used  to  support  consequential  decisions,  it  is  important  that  it  be  difficult  or  impossible  to  "teach  to  the  test,"  improving  students'  performance  by  teaching  test­taking  strategies  rather  than  the  underlying  content.  For  example, students taking the  SAT entrance exam  are often  taught strategies for  guessing  at unknown  items. Any  classroom  time devoted  to  these strategies  necessarily comes  at  the expense of teaching math, language arts, science, or some other subject. Use  of a VA  score  based  on  a test  that  rewards such  strategies  will  create  incentives to  divert  effort  from  other topics to test­taking strategies, especially if high stakes are attached to the VA  score.  15  Again, the  evidence suggests that there  are big returns in  teachers'  VA scores to  teaching  to  the  test.  One  form  of  evidence  conies  from  the  persistence  of  teachers'  impacts into subsequent years. Studies that have examined this have found that the effects  of teachers'  VA on  their  students fade  out quite  quickly:  Students who  had  a high­VA  teacher  in 4tl1  grade score  only  slightly  higher  in 5th  grade  than  those  who  had  low­VA  teachers in the previous grade (Jacob et al. 2010).  This is what one would expect if much  of  the  variation  in  teacher  VA  scores  reflected  cramming  or  other  strategies  aimed  at  short­run test performance.  Another  form  of  evidence  comes  from  an  important  study  that  compared  two  groups of teachers at the  Air Force  Academy, all  teaching different  sections of  the same  mathematics  course  to  randomly­assigned  students (Carrell  and  West 2010). This study  found that teachers in one  group helped their students to earn higher end­of­course scores  (so had  higher math  VA scores)  but that  their  students did  less  well  in their  subsequent  math courses.  Evidently, teachers from  the first group, whose  contracts were temporary  and whose renewal depended in part on achieving high VA, were focusing on the end­of­ course test  to the exclusion  of understanding  that would  better  prepare their  students for  the subsequent course.  Unfortunately, I  am not  aware of any  test designed for large­scale  administration  that does not reward  test­taking skills and strategies. But some tests are better than others  in  this  regard,  and  the  goal  of  minimizing  sensitivity  to  this  can  usefully  inform  the  design of tests destined for use in VA models.  A  third validity  concern  with  the test  instrument is  the test  score scale,  the  units  by  which  scores  are  measured.  VA  scores  provide  estimates  of  teachers'  impacts,  measured  in  units  of  the  underlying  test  scale.  It  is extremely  important  that scores  be  comparable  both  across  the  length  of  the  scale  and  across  grades.  Technically,  the  required  property  is  known  as  an  "interval  scale."  This  means  that  a  one­point  improvement  in  a  student's  score  corresponds  to  the  same  amount  of  learning  (or  of  16  instructional  input)  whether  the  student  is  at  the  top  or  the  bottom  of  the  score  distribution.  To  understand  this, consider  two  teachers,  one  whose  students  begin  with  very  low scores  and  who  receives  a VA score  of  +2 and  another  whose students  begin  with very high scores and  who receives a score of+1. In the absence of an interval scale,  it is  impossible to  say  whether the  +2 received  by  the first  teacher corresponds  to more  effective instruction than the +1  received by the second ­ it may simply  be easier to raise  the scores of students who start at the bottom.  Not all VA models rely  this heavily on an interval scale. Some explicitly compare  students only  to other  students  with similar initial  performance. These  make a  different  assumption, that students at different points in the initial score distribution are exposed to  teachers of similar  effectiveness, on  average. But the TVAAS URM  model is not of  this  form, and does rely on the interval scale assumption.  TVAAS does not use the original score scale from the tests used in its calculation.  Rather, scores are converted to "Normal Curve Equivalents," or NCEs, before calculation  of the TVAAS  model. It  is the NCE  scale, not  the scale on  which the test  was originally  scored, that is assumed to have the interval property. But there is no assurance that NCEs  have  an  interval  scale.  Indeed,  when  the  original  test  scale  has  the  interval  property,  converting to NCEs will in general destroy it.  In practice,  the interval  scale assumption  amounts to  a judgment  about the  value  of test score increases for different students. The use of NCEs amounts to a judgment that  the State of Tennessee sees equal value in a 0.1 increase in the NCE score of a student at  the  top,  middle,  or  bottom  of  the  distribution,  so  is  willing  to  give  similar  rewards  to  teachers  who achieve  this increase  for each  group of  students (and  similar  penalties for  teachers  who  fall  short  of  expectations  by  the  same  amount).  But  this  may  lead  to  distortions relative to teachers' true effectiveness.  It is my understanding that the TCAP assessments have not been validated for  use  in teacher evaluations. This at a minimum implies that the State of Tennessee did not rely  17  on  evidence  that  the  above  conditions  were  satisfied  in  deciding  to  base  teacher  evaluations on student TCAP  scores. As  the TVAAS  model relies even  more heavily on  student test scores and on the interval scale assumption than do other VA models, this is a  crucial  limitation  to  the  validity  of  teachers'  TVAAS  scores  as  measures  of  teacher  effectiveness.  Year­to­year stability and standard errors  There  is  a  universal  consensus  in  the  research  that  VA  estimates  are  highly  volatile (Darling­Hammond, et  al, 2012).  One study of  five large school districts found  that of  teachers whose  VA scores were  in the  bottom  quintiie in one  year, only  20­30%  scored  in  the  bottom  quintiie  the  next  year, while 25­45% scored  in the  top  half  of  the  distribution  (Sass 2008).  A  large­scale  study  conducted  by  the Bill and  Melinda  Gates  Foundation's "Measures of Effective Teaching" (MET) project found that the correlation  between a teacher's VA score in one year and the same teacher's VA score the following  year  is  only  about  0,4  (40%)  in  math  and  0,2  (20%)  in  English  Language  Arts  (ELA)  (Bill &  Melinda Gates  Foundation  2010).  The MET findings  mean that  a teacher  at the  25th  percentile of the math VA distribution  in one year has a one­third chance of being in  the  top  half  the  following  year,  while  a teacher  at  the  25 th  percentile  of  the  ELA  VA  distribution is more likely  to be  in the top half of  the distribution the following year  than  in the bottom quarter (Rothstein 2011).  There  are  several  reasons  for  this  volatility.  One  is purely  statistical:  Teachers'  VA  scores  are  computed  from  relatively  small  groups  of  students,  particularly  in  elementary schools. These can  be seen as samples from the larger  population of students  that a teacher  might potentially  have been assigned.  A basic  principle of  statistics is that  averages  are  more  precise  the  larger  is  the  sample  over  which  they  are  computed.  A  sample average computed over a small group is quite sensitive to random  events, such as  the  inclusion  of  a  particularly  bright  or  troubled  student  or  a  student  who  is  sick  on  18  testing day. Tennessee allows TVAAS scores to be computed for teachers with  as few as  six included students. This creates extreme volatility due to random chance that is outside  the teacher's control.  But the statistical principle that small group averages are imprecise is not the only  source  of  volatility  in  VA  measures,  which  have  repeatedly  been  found  to  be  more  volatile than would  be obtained from the aggregation of individual students' scores alone.  The remaining  volatility comes from classroom­level  influences on student achievement,  including such factors as illnesses affecting many students at the same time, the fortuitous  inclusion  of  test  items  in  a  particular  year  that  the  teacher  happens  to  have  covered  specifically in  class, disruptions  on test  day, or the  composition of  a teacher's class  in a  given year.  Volatility  can  be  reduced,  but  not  eliminated,  by  using  averages  over  several  classes  or  years.  A  2009  report  from  the  Board  on  Testing  and  Assessment  of  the  National Research Council concluded, "Even in pilot projects, YAM estimates of teacher  effectiveness that  are  based on  data for  a single  class of  students should  not  be used  to  make operational  decisions because  such estimates are  far too  unstable to  be considered  fair  or  reliable"  (Board  on  Testing  and  Assessment  2009).  This  recommendation  has  been widely  adopted, and no  expert of which I am aware endorses  making consequential  decisions  based  on  the  performance  of  a single  class.  Even  with  two  or  three  years  of  data, however, teachers' scores will have a large component that is due to chance.  Importantly, once performance  is averaged over several  years, evaluations cannot  be made much more reliable by conditioning decisions on two consecutive scores in close  alignment, as when a  teacher's tenure can  be revoked  after a second consecutive "below  expectations" rating. This is because the first year's multi­year average uses  much of the  same performance  data as  is used  in the second  year's multi­year  average. Thus,  while  using  a  multi­year  average, as in Tennessee's  system,  reduces the  influence  of  random  19  chance on each year's  evaluation, it ensures  that once a teacher has  gotten unlucky  in an  initial year he or she is likely to be unlucky again the following year.  VA  scores are often  reported  along  with  standard  errors or  confidence  intervals  intended  to  describe  their  imprecision.  In  my  opinion,  VA  scores  cannot  be  properly  understood  without  the  context  provided  by  these  statistics.  Statisticians  use  standard  errors and confidence intervals to quantify the uncertainty in statistics due to pure chance.  This  uncertainty  is  typically  substantial  for  teachers'  VA.  By  convention,  statisticians  interpret  a  particular  data  set  as  providing  strong  evidence  against  a  particular  null  hypothesis (e.g.,  that  a teacher  is of  average  effectiveness)  only  if  the 95% confidence  interval  based  on  the sample excludes  the  null  hypothesis. That  is, if a teacher's  VA  is  estimated  to  be  ­2,  substantially  below  the  average  of  zero,  but  the  95%  confidence  interval for her VA extends from ­4.5 to +0.5, most statisticians would  view this as weak  evidence that she is less effective than an average teacher.  Simplifying slightly, a 95% confidence interval  for a teacher's  VA is  constructed  as the  range  between  the teacher's  estimated  VA minus twice  the standard error  of this  score  and  her  estimated  VA  plus  twice  its  standard  error.  Setting  aside  bias  issues  discussed elsewhere  in  this report,  for a teacher  who is  in  fact average  this interval  will  include  the  average  VA  95%  of  the  time,  but  will  exclude  it  5%  of  the  time  by  pure  chance.  It  is  also  possible  to  construct  confidence  intervals  with  different  coverage  probabilities. For  example, a 68% confidence  interval extends from  the VA score  minus  the standard  error  to  the  VA  score  plus  the  standard error.  For an  average  teacher, this  smaller confidence interval  includes the  average  VA  only  68% of  the  time;  nearly  one­ third  of  the  time,  it  will  exclude  the  average  VA  (even  though  the  teacher  is  in  fact  average).  While  it  is  possible  to  construct  68%  confidence  intervals,  this  is  uncommon.  Statisticians conventionally use 95% confidence intervals. In some fields,  it is common to  use 90%  intervals or,  in  some physical  sciences where  data sets  are very  large, 99%  (or  20  higher) intervals. But it is quite rare to rely on an interval with coverage of less than 90%  for any  consequential decision ­ it is  simply  too likely  that the  interval will exclude  the  true value due to pure chance.  To illustrate, consider a teacher with a VA score of 1.6 and a standard error of 1.5.  Her 95%  confidence interval  extends from  1.6­2*1.5  =  ­1.4 to  1.6 +  2*1.5  ~  +4.6. Her  true  effectiveness  might  plausibly  lie  anywhere  within  this  range  (and  5%  of  teachers  with such a score will actually  have true effectiveness outside this range). The actual VA  score  is  of  limited  value  in  distinguishing  between  different  values  in  this  range.  The  teacher's  68%  confidence  interval  ranges  from  1.6­1.5  +0.1  to  1.6+1.5  =  +3.1,  so  excludes  zero. But  we  know  that  roughly  one­third  of  the  time  a teacher  will  receive a  VA score that  is more  than one  standard error  away from  her true  effectiveness, leading  the 68% interval to exclude the true value. As a result, an inference that the above teacher  is truly above average will be incorrect roughly one­sixth of the time. I  discuss this below  when I turn to Tennessee's conversion of TVAAS scores  into rating  bands, which uses a  procedure much like this.  Standard  errors  for  VA  scores  are  generally  quite  large  (or,  equivalently,  confidence  intervals are  quite  wide).  As a  consequence, only  a small  share of  teachers'  effects  are  statistically  distinguishable from  the  average.  Figure  1,  taken  from  Ballou  (2005), illustrates this. Each  vertical spike here represents a single 5lh grade math teacher.  The  middle of  the spike  (represented by  the solid  line) represents  the teachers'  TVAAS  growth scores, while the range of the spike spans the 90% confidence interval. By design,  the average teacher has a growth score of zero. The Figure shows that the vast majority of  teachers' intervals span from below zero to above zero, indicating that the hypothesis that  the  teachers are  average  cannot  be  rejected  with  90%  confidence.  For  only  about  one­ tenth  of  teachers  does the  data  support  a confident  inference  that  the  teacher  is  above  average, with a similar share who can be inferred to be below average.  21  ,1/  JJ  ­10  ­20  Figure 1. Estimated TVAAS Scores, with 90% Confidence Intervals, 5th Grade  Math Teachers (from Bailou 2005, Figure 4)  Importantly, even  if  all  teachers  were exactly  average, we  would  expect 10% of  teachers'  90% confidence  intervals to  exclude zero just  by  random  chance. Thus,  about  half  of  the  teachers  who  appear  to  be  to  be  statistically  significantly  different  from  average in Figure 1 are in fact mistakes (though it is impossible to know which half). The  share  of  mistakes  is  lower,  but  still  high,  with  multi­year  averages.  Even  when several  years of  data are available,  half or  more of  teachers will  not be distinguishable  from the  average  (Briggs and  Domingue  2011)  that  is,  their  VA  scores  might  plausibly  have  been average, with apparent deviations from that due only  to random good  or bad  luck ­ and  those  who  appear  distinguishable  will  often  be  mistakenly  identified  as  such.  Moreover,  because  multi­year  averages  re­use  data ­ that  is,  the  2011  students'  scores  enter  into  the  three­year  average  in  2011,  2012, and  2013 ­ there  will  be  high  overlap  between  the share  who  appear  distinguishable  from  the  average one  year  and  the  next,  making it appear as if the initial classification was accurate even if it was not.  Importantly, the  calculation of  standard errors  relies on assumptions  just as does  the calculation  of VA scores  themselves. Many  VA  models, to my  knowledge including  TVAAS, assume  that scores  are independent  within classrooms ­ that knowing  that one  student got a high score doesn't at all change our expectations about other students in the  class except insofar as it reveals the teacher's effectiveness. But as noted above, there are  many  random influences on test scores that are common across students in the same class  22  (Kane and  Staiger 2008). Models  that do  not  allow for  this produce  estimated standard  errors that are too small relative to the true volatility of measured VA scores.  For this reason,  I  believe that TVAAS likely  overstates the precision  of teachers'  scores,  probably  substantially,  making  it  appear  that  many  teachers'  effects  are  significantly  different  from  the  average  when  in  fact  they  are  not.  In  my  opinion,  the  evidence  on  this  point  is  strong  enough  that  it  is  not  defensible  to  continue  reporting  standard  errors  based  on  the  demonstrably  incorrect  assumption  of  statistical  independence.  Sensitivity to which students are assigned to a teacher.  As  discussed  above,  VA  models  are  designed  to  distinguish  teachers'  causal  effects on their students from other determinants of the students' scores.  But they can do  this fully  only  when students  are randomly  or  near­randomly  assigned  to classrooms.  If  some teachers  are more  likely  to  be assigned  students who  have greater  challenges than  can be  inferred from  their prior  test scores,  these teachers will  earn systematically  lower  VA scores  than  they  deserve. In the  VA literature,  these errors are  referred to as "bias,"  They  are  distinguished  from  volatility  by  the  fact  that  they  are  systematic,  accruing  in  predictable ways to teachers who teach particular student populations.  Several studies have shown that there are in fact differences across teachers in the  types of  students that  they  teach, beyond what  can be  accounted for  in VA  models.  As  discussed  above,  many  studies  have  shown  that  VA  models  will  indicate  impossible  "effects" of 5th  grade teachers on  their students' 3rd  or 4th  grade scores, because  they  fail  to adequately adjust for the factors influencing teacher assignments.  Based on these results, there is a consensus in the literature that VA estimates that  are based on only a single classroom (e.g., because a teacher has been teaching for only a  year)  are  meaningfully  biased  by  student  assignments.  Some  argue  that  models  that  average results over several years can eliminate the bias. This is true if a teacher's student  23  assignments are  not stable,  but if  the teacher  tends to  get similar  students from  one year  to  the  next  then  multi­year  averages  preserve  and  can  even  magnify  the  bias,  The  scholarly literature  regarding the magnitude of bias in estimates that average over several  years remains unresolved.  Some authors (Koedel and Betts 2011; Chetty, Friedman, and  Rockoff 2014) argue that these estimates are  unbiased because teachers who are assigned  challenging students  one year  are no  more likely  than others to  get challenging students  the following year.  My own analysis of assignment  patterns over several  years leads me  to conclude the opposite.  A  recent study  by  Chetty, Friedman,  and  Rockoff  (2014) examined  the  issue  of  bias in multi­year VA estimates using data from  New York City. The study was based on  the  idea that  if  a  teacher's VA  score  is  unbiased,  then  it  should  accurately  predict  the  change  in  school­level  average  test  scores  when  the  teacher  departs,  but  if  it  is  biased  then  the  changes  will  in  general  be  smaller  than  predicted.  There  are  a  number  of  complexities involved in the implementation  of this study, not  worth going into here, but  Chetty et  al. argue  that their results indicate that any  biases are  minimal. I  disagree with  that  interpretation. My  considered  view is  that a  correct  interpretation  of Chetty  et al.'s  results  (which  I  have  reproduced  in North  Carolina)  indicates  meaningful  bias  even  in  multi­year measures (Rothstein 2014).  Sensitivity to teacher focus  It stands to reason that a teacher  who focuses his or her instruction on a particular  standardized  test  ­ by  neglecting  subjects  or  topics  not  covered  by  the  test,  training  students in  test­taking strategies, or  rallying students to  motivate them  to try  hard on  the  test  can increase his or her  students' scores on that test.  This raises the concern that an  important part  of the  variation in VA scores will  reflect teachers'  choice of  focus on test  preparation rather than their true effectiveness at teaching the substantive subject  matter.  I discussed this issue above in the context of teaching to the test. Insofar as some teachers  24  devote  effort  to  teaching  test­taking  skills  while  others  devote  effort  to  teaching  the  curriculum,  the  former  group  will  be  unfairly  advantaged  in  VA­based  evaluation  systems.  But teaching to the test is not the only  potential issue related  to teacher focus. VA  scores may  also reward  teachers who focus on the set  of skills, topics, and  competencies  most  likely  to  be  tested,  while  penalizing  those  who  devote  more  of  their  instructional  efforts  to  higher­order  skills  (e.g.,  constructing  an  argument,  speaking  in  public,  or  solving a more complex  math problem) that are  not easily assessed on  standardized tests.  The evidence  discussed above  regarding  the  importance of  test  alignment indicates  that  VA scores reflect teachers' focus, rewarding teachers whose focus aligns with the test.  This issue  of  sensitivity  to  focus  is particularly  important  when  considering  the  use of VA  in a school system that is in the process of changing  its curriculum, standards,  or  assessments.  Changing  assessments  mean  that  the  expectations  implicit  in  the  VA  calculation  change  from  year  to  year ­ one  year  teachers are  rewarded  for  focusing  on  fractions, for example, while the next they are rewarded for estimation. In such a setting,  teachers  do  not  have  clear  guidance  about  how  to  direct  their  efforts,  and  VA  scores  reflect how well they guessed as much as they do the teachers' actual effectiveness.  I understand that Tennessee is preparing to adopt new assessments, known as "TN  Ready," in part because of concerns about alignment between the old assessments and the  state's standards and expectations of its teachers. The adoption of the new tests mean that  the implicit  standard against  which Tennessee's  teachers are judged  will change.  It also  reflects  an  apparent  judgment  that  the  old  assessments  were  not  sufficiently  strongly  related  to  the core curriculum and  standards  to  be  used  for teacher  evaluations  (see, for  example, the December 9, 2014 press release, included here as Exhibit G). Nevertheless,  I  understand  that  the  state  plans  to  continue  using  TVAAS  scores  based  on  the  old  assessments as  parts of  teacher  evaluations for  at least  the first  two  years after  the  new  assessments are prepared. Moreover, even  new TVAAS scores  will rely on  comparisons  25  between student scores  on  the old  and  new assessments for  the first  several  years, until  students  have  accumulated  enough  history  with  the  TNReady  assessments  to  fully  populate the TVAAS model.  Just  as changes  in  tests effectively  change  the standards  against  which teachers  are judged in  VA­based evaluations, so too  does the introduction of a new curriculum or  new  standards.  If  the  assessment  being  used  is  more  closely  aligned  with  the  old  curriculum or  standards than  with the  new ones, .as is  often  the case,  then teachers  who  adopt the new direction will  be penalized in their VA scores. The roll­out of the Common  Core curriculum ­ now to be replaced in Tennessee  with a locally developed alternative ­ is particularly problematic  in this regard, as many teachers have been asked to adopt this  curriculum without  being adequately  trained for it, and before the assessments  that were  to be tied to the curriculum have been fully developed. In a setting where teachers are not  given clear guidance about  what  will  be covered  by  the assessment and  fully  trained  in  any  new  components,  or  where  the  assessment  does  not  fully  capture  the  currently  preferred  practices, topics,  and standards,  VA scores  will  not provide  valid  measures of  teachers' true effectiveness.  Comparisons between teachers working in different settings  As  discussed  above,  we  can  only  be  confident  in  attributing  differences  in  VA  scores  to  teachers'  causal  effects  (as  distinguished  from  differences  in  student  assignments)  when  students  are  randomly  or  near­randomly  assigned  to  classrooms.  I  also  discussed  indirect  evidence  that  the  assignment  of  students  to  classrooms  within  schools is not close enough to random to permit a causal interpretation of VA scores.  But  one does not need statistical evidence to conclude that students are not randomly assigned  to  schools.  A  great  many  observable  and  unobservable  factors,  including  family  resources, residential location, and  parental involvement, help to determine which school  26  a child  will  attend.  This  means  that  VA  scores  necessarily  confound  teachers'  causal  effects with differences in student achievement across schools.  VA  modelers  have  taken  two  approaches  to  this  problem.  One  approach  is  to  ignore the  problem, pretending  that students are  in  fact randomly  assigned  to schools as  well  as  to  teachers  within  schools.  TVAAS  takes  this  approach.  It  controls  for  differences  between districts  but credits  teachers with  any  within­district  variation. This  approach  assumes  that  any  across­school  differences  in  student  test  score  growth  are  attributable to differences in teacher effectiveness rather than to differences in the student  populations  served.  This  attribution  is  not  well  supported,  as  it  is  not  reasonable  to  assume that students attending high poverty  or poorly  managed schools would  have done  as well as their peers in  wealthier or better  run schools if only  they had had equally good  teachers.  I am aware of no evidence that validates TVAAS's approach to this issue.  The  more  responsible  alternative  is to  adjust  statistically  for  measurable  school  characteristics,  e.g.,  school  poverty  levels  (or,  similar  in  spirit  but  more  complete,  to  discard  any  across­school  variation  in  student  outcomes  by  including  school  "fixed  effects"  in  the  VA  model).  VA  estimates  obtained  using  this  approach  have  to  be  interpreted carefully.  The approach  yields estimates  of teacher  VA  that are  informative  only  about  differences  among  teachers  at  schools  that  are  similar  in  terms  of  their  measured  characteristics,  e.g.,  poverty  levels,  and  not  about  any  differences  in  VA  between teachers at schools with different characteristics.  For example, a VA model  that  controls  for  the  measured  characteristic  of  school  poverty  would  permit  meaningful  comparisons of teacher VA scores  between two low­poverty schools ­ though even these  would  capture  in  part  differences  in  school  leadership  that  are  out  of  the  individual  teacher's control ­ but comparisons  between teachers  at a low­poverty  school and  those  at a high­poverty school would  be uninformative and misleading. This is less satisfactory  than  would  be a  global  ranking of  teachers, but I  do  not  believe that  such  rankings  are  valid given the pervasive differences in the populations served by different schools.  27  Dimensions of effectiveness and multiple measures  There are  many  aspects of  effective  teaching,  and  many  things that  an  effective  teacher is expected  to accomplish. Raising  students'  standardized test  scores is only one  of them.  We also expect teachers  to help students  develop nonacademically, including  in  domains such  as  social  and  psychological  development,  interpersonal  relations  and  the  resolution  of  disagreements, good  citizenship, and  so on.  Common sense and  statistical  evidence both indicate that some teachers are better at some aspects of this and others are  better at others. VA scores only attempt to capture the  narrow impact on end­of­term test  scores, and cannot be seen as valid measures of the other dimensions.  There  are  several  pieces  of  evidence  suggesting  that  VA  scores  miss  important  components  of  teacher  effectiveness.  A  recent  study  by  Jackson  (2012)  uses  VA­type  methods to identify  teachers' effects on outcomes such as student absences, suspensions,  and grades;  these are important, are  predictive of students'  longer­run outcomes, and are  not  well  proxied  by  the  teachers'  VA  for  student  test  scores.  A  system  that  evaluates  teachers  based  only  on  traditional  VA  scores  will  penalize  teachers  who  are  relatively  effective on these other dimensions.  The Gates Foundation's Measures of Effective Teaching project studied the value  of  VA  scores and  classroom  observations  in  assessing  teacher  effectiveness. Observers  participating  in the  study  were extensively  trained  in a  high­quality  rubric and  carefully  monitored.  Their  assessments  of  teacher  effectiveness  were  not  very  highly  correlated  with  teachers'  VA scores.  Moreover,  this did  not  simply  reflect  imprecision  in  the two  sets of  measures: Teacher  observation scores  were much  more useful  than VA  scores in  predicting  a  teacher's  observation  score  in  the  subsequent  year,  suggesting  that  the  observations are capturing a dimension of effectiveness distinct from that captured by VA  (Bill and Melinda Gates Foundation 2012).  28  For this  reason, and  to  minimize the  influence of  distortions like  teaching to  the  test, nearly  all experts  on  teacher evaluation  recommend  using  multiple  measures rather  than  putting  excessive  weight  on  just  one.  But  doing  this  in  a  valid  way  requires  accepting that the different  measures will sometimes  disagree and that  this disagreement  is legitimate ­ some teachers may excel in ways not captured by student test scores, while  others  may  be good at  raising student  scores  but ineffective at  other components  of the  job.  There  is  a  common  tendency  to  seek  close  alignment  between  the  measures,  for  example by  asking observers  to  revisit observation  scores that  do not  align closely  with  VA scores.  Tennessee's Department  of Education,  for example,  monitors the  alignment  between  observation  and  VA  scores  and  attempts  to  change  the  observation  process  where  this  alignment  is  not  sufficiently  high.  This  reduces  or  eliminates  the  value  of  multiple  measures  and  reduces  the  ability  of  the  evaluation  to  capture  legitimate  dimensions of effectiveness that are not captured by VA scores.  The use of TVAAS scores in the TEAM evaiuation system  In Tennessee, TVAAS scores are used as a component of the Tennessee Educator  Acceleration  Model  (TEAM).  This  raises  several  additional  issues  beyond  those  implicated  by  the  overall  validity  of  VA  measures  as  an  indication  of  teacher  effectiveness.  TVAAS score reporting  TVAAS  score  reporting  includes  a TVAAS  score  and  a  standard  error  of  that  score.  These  are  converted  into  an "index  score," computed  as the  ratio  of  the  two.  A  teacher  whose  index  score  is  less  than  ­2  whose  TVAAS  score  (also  known  as  the  "growth measure") is  negative and has a magnitude exceeding twice the  standard error ­ is assigned  a level  1  for  the  growth  component  of  her  overall  TEAM  score.  A  teacher  with  an  index  between  ­2  and  ­1  is  assigned  level  2;  indexes  between  ­1  and  +1  are  29  assigned level  3, +1 to  +2 are assigned  level 4,  and those  above +2  are assigned level 5.  In  effect, a  teacher  with  a negative  TVAAS score  whose  95%  confidence  interval  (CI)  excludes zero is assigned to level 1. If her 95% CI includes zero but her 68% CI does not,  she is assigned  to level  2; if  even her  68% interval  includes zero  she is assigned to  level  3. Teachers with positive TVAAS scores are treated symmetrically: They are assigned to  level 3 if the 68% CI includes zero, to level 4 if the 68% CI excludes zero but the 95% CI  does not, and to level 5  if the 95% CI excludes zero.  The five index levels are also labeled: Level 1 is labeled "Least Effective;" level 2  is "Approaching  Average  Effectiveness;" level  3  is "Average  Effectiveness;" level  4  is  "Above  Average  Effectiveness;"  and  level  5  is  "Most  Effective."  These  labels  are  displayed  on  Cynthia  Watson's  2010 TVAAS  report,  included  here  as  Exhibit  H. The  report also  includes explanatory  text for each level. For example, on  Ms. Watson's 2010  report, level  5  ("Most Effective")  is described  as "Teachers  whose students are  making  substantially  more progress than  the state growth standard." As I discuss below,  both the  short  labels  and  longer  descriptions  incorrectly  characterize  the  meaning  of  the  levels.  Indeed,  in  more  recent  reports  the  explanatory  text  has  changed.  Ms.  Watson's  2014  report is  included  here as  Exhibit I.  Here,  level  5  is described  as "Significant evidence  that  the  teacher's  students  made  more  progress  than  the  state  growth  standard/state  average." This is a more accurate characterization.  Figure 2 illustrates the  information content  of TVAAS score  reports, through  the  example  of  Ms.  Watson's  2014  report  (Exhibit  I).  This  included  growth  measures  for  2012,  2013,  and  2014  as  well  as  a  multi­year  average.  Each  growth  measure  was  accompanied  by  a  standard  error,  and  the  report  included  index  scores  computed  by  dividing  the  growth  measures  by  the  standard  errors.  In  Figure  2,  I've  attempted  to  illustrate the information  content of  each of  the growth measures. For  each year, as well  as  for  the  multi­year  average,  I  show  bell  curves  that  illustrate  the  range  of  possible  impacts that is consistent  with Ms,  Watson's students' actual  performance. For example.  30  TVAAS Scores for Cynthia Watson, 2012­2014  2012  2013  2014  A  Multi­yr avg  i~  Level 1  Level 4  "  Level 2  6  3  Level 3  Level 5  in 2013  her growth  measure was ­1.3  and  her standard  error was  1.1. As a consequence,  the 95% confidence  interval for  that year ranges from ­3.5  to +0.9. In  my graph, 95% of  the 2013 bell curve lies in that interval.  The  bell  curves are  shaded according  to the  index scores  that would  be received  by a teacher with any given  growth measure, given Ms. Watson's standard error. In 2013,  the peak of  the curve ­ corresponding to her actual  growth measure ­ would  be assigned  to  level  2  (her  actual  score  for  that  year). But  the  data indicate  that  it is  actually  more  likely  that  her  true  effectiveness  was  in  the  level  3  range  that  year  than  in  the  level  2  range, and there's a non­trivial  chance that she  was in fact  a level 4  teacher who  simply  got unlucky.  The  bottom  bell  curve  shows results  for  Ms.  Watson's multi­year  average.  This  curve is narrower,  reflecting the smaller standard error  when several  years are averaged.  Ms. Watson received  a level  2 score  based on  her 2014  multi­year average.  But the  bell  31  curve shows that she might well have been a level 1, level 3, or even a level 4 teacher, but  for chance factors.  Accounting for uncertainty in TVAAS scoring  The bell curves in Figure 2 illustrate how the standard error is used in forming the  TVAAS index  score and  1­5  rating. But  this is  only  a  part of  the  role of  uncertainty  in  TVAAS.  Importantly,  the  TVAAS  score  is  itself  "shrunken" ­ pulled  toward  zero ­ to  account for the uncertainty in the teacher's performance, with a stronger pull for teachers  with larger  standard errors.  When two  teachers have students  who post  exactly the same  test  score  gains,  the  one  with  more  students  (perhaps  because  he/she  teaches  more  sections  in  the  appropriate  grades  and  subjects)  will  receive  a  TVAAS  score  that  is  further  from  zero  than  does  the  one  with  few  students.  He/she  will  also  get  a  smaller  standard error.  One  implication  of  this  is  that  a  teacher  who  teaches  few  students  in  TVAAS  grades and  subjects (or  whose students  tend to  lack complete  test score  histories needed  for inclusion in TVAAS calculations) must obtain  much larger student test score gains  in  order  to qualify  for  level  5  than  does a  teacher  with  more students. If  the  two  teachers  obtain  the same  gains,  the  one  with  fewer  students  will  receive  a lower  TVAAS  score  (assuming that  both teachers'  students'  gains were  above average)  and a  larger standard  error, so a smaller index score. This in effect holds teachers with few included students ­ which typically  include elementary teachers (who have only one class  per year), teachers  in schools with  highly  mobile populations, and  teachers with  remedial classes ­ to much  higher standards to qualify for rewards accruing  to level 5 teachers than are teachers with  more students.  It also holds  them to  lower standards to  avoid dismissal.  Even if teachers  with  many  and  few  included  students  have  the  same  distribution  of  underlying  effectiveness,  the  teachers  with  few  included  students  will  disproportionately  receive  32  level  3  index  scores,  while  the  teachers  with  many  included  students  will  be  overrepresented among teachers with level 1 and level 5 index scores.  This  is  not  the  only  issue  created  by  the  index  score  calculation.  A  second  important  issue  is  that  the  conversion  of  continuous  underlying  variables  into  discrete  categories loses  information. There  is no  meaningful difference  between  a teacher  with  an  index  score  of  ­2.01  and  one  with  a ­1.99,  but  they  are  treated  quite  differently  by  TEAM. Thus, for example, a teacher with a ­1.99 growth index and an observation score  that just barely  edges into level 2 will receive a higher overall TEAM score than another  teacher  with  a  ­2.01  growth  index  and  a  high  level  2  observation,  where  in  fact  the  available evidence clearly favors the second teacher.  Third, the  construction of  the index  itself  is statistically  indefensible. This  index  can be  seen as what  is known as a "test statistic," a  construction commonly  used to  test  statistical hypotheses. A test statistic above 2, or below ­2, corresponds with an effect that  is statistically significantly  different from zero  (that is, to a 95%  confidence interval that  excludes  zero): If a  teacher  were in fact average,  we  would  expect  her  to get  an  index  score this far from zero no more than 5% of the time, so if we see an index score like this  it  is reasonable  to conclude that she  is not  average. It is much  less conventional to use  a  threshold  of  ­1  or  +1, corresponding  to  a 68%  confidence interval.  An  average  teacher  will get a score outside the ­1 to +1 range nearly  one­third of the time just by chance, so a  test statistic just outside that range is not very meaningful at all.  Classical  hypothesis  testing  in  statistics  is  designed  for  testing  individual  hypotheses. One cannot extend these methods directly to evaluating thousands of teachers  at once, each  with her own test  statistic, without  substantial modification.  This is  known  as the "multiple comparisons" or "false discovery" problem; it means that many teachers  will  be classified as exceptional who really aren't, simply due to random chance. Among  teachers who are  exactly  average,  nearly  one­sixth  will  get  level 1 or  level 2 ratings in  any  year, just  due  to  bad  luck.  Moreover,  because  ratings are  based  on a composite  of  33  several  years  of  information, a  large share of  this one­sixth  will  get  a second  level  2 ­ grounds for dismissal ­ again the next year due to random chance.  One implication  of the  multiple comparisons  problem is  that a  large share of  the  teachers who  receive level  1 and  level 5  rankings will  be false discoveries, teachers who  are  not  in  fact  at  the  top  or  bottom  of  the  effectiveness  distribution  but  got  lucky  or  unlucky  in their  VA scores,  I  have not  been able to  quantify exactly  how prevalent false  discoveries are in Tennessee's evaluation system ­ it requires knowing how  variable true  effectiveness is ­ but it is quite possible that more than half of the teachers receiving level  one  ratings  would  not  have  done  so  had  their  VA  scores accurately  reflected  their  true  effectiveness.  Another  consequence  of  the  use  of  test  statistics  as  teacher  ratings  is  that  the  resulting  scores  and  levels  are  not  useful  for  comparisons  among  teachers.  The  test  statistics  merely  compare  each  teacher  to  the  average,  and  attempt  to  measure  the  likelihood that the teacher  is in fact above or below average. The difference between  two  teachers'  test  statistics  is  not  a  reliable  or  valid  guide  to  the  difference  in  their  effectiveness. Consider, for  example, two  teachers, one  who gets an  index score of ­1.5,  squarely  in the  middle  of  level  2 and  labeled "approaching  average effectiveness,"  and  another whose  index  is ­0.5,  in  level  3  and labeled  "average effectiveness." There  is  no  assurance that the  first teacher is  less effective than the  second, or even that  her students  gained less  in any  particular year.  This is  so for  two reasons:  First, the  index scores are  imprecise, so the first teacher  might simply  have been  unlucky; the confidence  level for  the  difference  between  the  two  teachers  is  likely  much  less  than  68%.  Second,  the  construction of  the test  statistic is  not designed  to support  even  noisy  comparisons, and  may well  obscure what evidence there is about the two  teachers' relative effectiveness.  It  is quite  possible,  for  example,  that  the first  teacher's  students  gained  more,  relative  to  expectations,  than  did  the  second.  This  could  happen  if  the  second  teacher's  average  gains are shrunken by  more, pulling them toward zero, or if the standard error used  in the  34  denominator  of  the  second  teacher's  index  score  is  larger.  The  net  result  is  that  comparisons  of  index  scores or  levels  between  teachers don't  even  measure  the sign  of  the estimated difference in  effectiveness between them, let alone  provide any  confidence  that the estimated difference is not due to chance.  Student test scores and observations in TEAM  Yet another  issue that arises  in the  TEAM assessment  process has to  do with  the  alignment  between  VA  scores  and  observation  ratings.  The  Tennessee  Department  of  Education evaluates teacher observers (and school  observation systems)  in part  based on  the  alignment  between  an  observer's  ratings  and  the  teachers'  TVAAS  scores.  The  published  policy  labels  a discrepancy  between  the  growth score  (i.e., TVAAS)  and  the  observation  score  of  three  or  more  "outside  the  acceptable  range,"  and  outlines  interventions  in  schools  with  high  shares  of  such  discrepancies  aimed  at  bringing  the  evaluation  scores  into  line  with  the  TVAAS  scores.  This  has  the  effect  of  reducing  or  eliminating  the  ability  for  the  observation  system  to  capture  dimensions  of  teacher  effectiveness that are not captured by TVAAS scores.  Finally, as  I  discussed at  the outset,  much of  what is  known about  the properties  of VA  scores has  been learned  in settings where  the stakes were  low. It  is a principle  of  social  science,  often  known  as "Campbell's  Law,"  that  the  validity  of  a  measure  will  decline when  it is used  for high  stakes decision­making. One  can expect  greater sorting,  more teaching­to­the­test, and other changes that will undercut  the accuracy of VA­based  evaluations  when  the  VA  scores  are  important  components  of  salary  or  retention  decisions.  This  might  be  an  acceptable  cost  to  pay  if  there  were  evidence  that  VA­based  evaluations created  incentives to encourage more effective instruction.  But a randomized  experiment conducted on Tennessee teachers by a team at Vanderbilt University suggests  35  that they  do  not (Springer  et al.  2010).  A group  of teachers  was randomly  chosen to be  eligible  to  receive  bonuses  of  up  to  $15,000  per  year  if  they  obtained  high  enough  TVAAS  scores,  while  another  group  was  ineligible.  There  was  no  distinguishable  difference  in  the  performance  of  the  two  groups.  Moreover,  the  group  eligible  for  the  bonus  program  became  gradually  disenchanted  with  TVAAS  over  the  course  of  the  study, having  seen  wild  swings in  their  VA scores due  to random  chance that  could not  be  explained.  This  does  not  bode  well  for  the  capacity  of  a TVAAS­based  evaluation  system to identify, measure, or promote more effective teaching.  Signed,  Jesse Rothstein, Ph.D.  36  JESSE ROTHSTEIN  CURRICULUM VITAE  PERSONAL INFORMATION  Institute for Research on Labor and Employment  University of California, Berkeley  2521 Channing Way #5555  Berkeley, California 94720­5555  (510) 495­0646  Phone:  (510) 643­9657  Fax:  rothstein(a),berkelev.edu  Email:  Homepage:  http://emLberkeley.edu/Mrothst  Address:  EDUCATION  1998­  2003  Ph.D., Economics, University of California, Berkeley  1998 ­  2003  M.P.P., University of California, Berkeley  1991 ­  1995  A.B., Mathematics, magna cum laude, Harvard University  EMPLOYMENT  University of California, Berkeley:  Current:  Professor of Public Policy and Economics (2015­)  Director, Institute for Research on Labor and Employment (2015­)  Past:  Associate Professor of Public Policy (2009­2015) and Economics (2010­2015)  Associate Director (2014­5) and  Acting Director (2013), Institute for Research  on Labor and Employment  rtment of Labor: Chief Economist  U.S. Depa 2010  2009­  2010  Council of  Economic Advisers: Senior Economist  2003 ­  2009  Princeton University: Assistant Professor of Economics and Public Affairs  1997­  1998  Economic Policy Institute: Researcher  2009 ­  AFFILIATIONS  2004­ 2013­ 2014­ 2014­ National Bureau of Economic Research:  Faculty Research Fellow (2004­2009);  Research Associate (2010­)  National Education Policy Center, University of Colorado: Fellow  CESifo Research Network: Fellow  Forschungsinstitut zur Zukunft der Arbeit GmbH (IZA): Research Fellow  s  A  Updated: September 2015  Jesse Rothstein, 2/5  SCHOLARLY PUBLICATIONS  "The Effect of Extended Unemployment Insurance Benefits: Evidence from the 2012­2014  Phase­Out" (with Henry S, Farber and Robert G. Valletta). American Economic  Review: Papers & Proceedings 105(5), May 2015.  "Teacher Quality Policy When Supply Matters." American Economic Review  105(1), January  2015: 100­130.  "Unemployment Insurance and Disability Insurance in the Great Recession" (with Andreas  Mueller and Till von Wachter). Forthcoming, Journal of Labor Economics.  "Permanent Income and the Black­White Test Score Gap" (with Nathan Wozny). Journal of  Human Resources 48(3), Summer 2013: 510­544.  "The Labor Market Four Years Into the Crisis:  Assessing Structural Explanations." Industrial  and Labor Relations Review 65(3), June 2012: 467­500.  "Unemployment Insurance and Job Search in the Great Recession." Brookings Papers on  Economic Activity, Fail 2011: 143­210.  "Constrained After College:  Student Loans and Early Career Occupational Choices" (with  Cecilia Rouse). Journal of  Public Economics 95(1­2), February 2011: 149­163.  "Are Mixed Neighborhoods Always Unstable?  Two­Sided and One­Sided Tipping" (with David  Card and Alexandre Mas).  In Harriet Newburger, Eugenie Birch, and Susan  Wachter, editors, Neighborhood and Life Chances: How Place Matters in Modern  America.  2011. Philadelphia: University of Pennsylvania Press.  "Is the EITC as Good as an NIT?  Conditional Cash Transfers and Tax Incidence." American  Economic Journal: Economic  Policy 2(1), February 2010: 177­208.  "Teacher Quality in Educational Production:  Tracking, Decay, and Student Achievement."  Quarterly Journal of Economics 125(1), February 2010: 175­214.  "The Value of School Facilities: Evidence from a Dynamic Regression Discontinuity Design"  (with Stephanie Cellini and Fernando Ferreira).  Quarterly Journal of Economics  125(1), February 2010: 215­261.  Republished: The Economics of Evaluation in Public Programs (Albert N. Link  and John T. Scott, editors, 2011).  International Library of Critical Writings in  Economics, 258. Cheltenham: Edward Elgar.  "Student Sorting and Bias in Value Added Estimation: Selection on Observables and  Unobservables."  Education Finance and Policy 4(4), Fall 2009: 537­571.  "Selection Bias in College Admissions Test Scores" (with Melissa Clark and  Diane Whitmore  Schanzenbach).  Economics of Education Review 28(3), June 2009: 295­307.  t  "Affirmative Action in Law School  Admissions:  What Do Racial Preferences Do?" (with Alber Yoon).  University of Chicago Law Review 75(2), Spring 2008: 649­714.  "Tipping and the Dynamics of Segregation" (with David Card and Alexandre Mas).  Quarterly  Journal of Economics 123(1), February 2008: 177­218.  Jesse Rothstein, 3/5  ent on  "Does Competition Among Public Schools Benefit Students and Taxpayers?  A Comm Hoxby (2000)."  American Economic Review 97(5), December 2007: 2026­2037.   of Public  "Racial Segregation and the Black­White Test Score Gap" (with David Card).  Journal Economics 91(11­12), December 2007: 2158­2184.  "Good Principals or Good Peers?  Parental Valuations of School Characteristics, Tiebout  Equilibrium, and the Incentive Effects of Competition among Jurisdictions."  American Economic Review 96(4), September 2006: 1333­1350.  rs"  "Was Justice O'Connor Right?  Race and Highly Selective College Admissions in 25 Yea on  nd Mort herson a (with Alan Krueger and Sarah Turner).  In Michael McP Schapiro, editors. College Access:  Opportunity or Privilege.  2006.  New York:  The College Board.  n Law  "Race, Income, and College in 25 Years" (with Alan Krueger and Sarah Turner).  America and Economics Review 8(2), Summer 2006: 282­311.  "College Performance Predictions and the SAT."  Journal of Econometrics 121(1­2), July­ August 2004:297­317.  WORKING PAPERS  "The Earned Income Tax Credit" (with Austin Nichols). September 2015.  "Revisiting the Impact of Teachers." October 2014.  4.  "The Great Recession and its Aftermath: What Role for Structural Changes?" August 201 t  "Scraping By: Income and Program Participation After the Loss of Extended Unemploymen Benefits" (with Robert G. Valletta). February 2014.  May  "The Unintended Consequences of Encouraging  Work: Tax Incidence and the EITC."  2008.  "Mismatch in Law School" (with Albert Yoon).  August 2008.  OTHER WRITING  rief,  "The Great Recession And Its Aftermath: What Role Do Structural Changes Play?" Issue B Washington Center for Equitable Growth, June 2015.  "Taking on Teacher Tenure Backfires." Op­ed, The New York Times, June  13, 2014.  or  "Extended Unemployment Insurance Remains Critical." Issue Brief, Washington  Center f Equitable Growth, May 25, 2014.  earch on  "Effects of Value­Added Policies." Focus (University of Wisconsin  Institute for Res Poverty) 29(2), Fall/Winter 2012­13, 23­24.  "Review of Two Culminating Reports from the MET Project" (with William J. Mathis).  Published online in Think Tank Review, National Education Policy Center,  Boulder Colorado, http://nepc.colorado.edu/thinktank/review­MET­fmal­2013,  January 31, 2013.  "Evaluating Teacher Evaluation" (with Linda Darling­Hammond, Audrey Beardsley, and  Edward Haertel).  Phi Delta Kappan 93(6), March 2012: 8­15.  Jesse Rothstein, 4/5  "Let's Not Rush into Value­Added Evaluations."  In Room for Debate feature,  http://www.nytimes.com, January 16, 2012.  ith  "Using Housing Markets to Estimate the Value of School Infrastructure Investments" (w Stephanie Riegg Cellini and Fernando Ferreira).  Wharton Real Estate Review 15  (2), Fall 2011.  e  "Review of 'Learning About Teaching:  Initial Findings from  the Measures of Effectiv Teaching Project.'"  Published online in Think Tank Review, National Education  Policy Center, Boulder Colorado, http://nepc.coIorado.edu/thinktank/review­ leaming­about­teaching, January 13, 2011.  re,  "Assessing a Teacher's Value:  More Harm Than Good."  In Room for Debate featu http://www.nytimes.com, Sept. 6, 2010.  erican  "Conversation:  Merit, Testing, and Opportunity" (with Richard Rothstein).  The Am Prospect 11 (21), Sept. 25­Oct. 9, 2000, pp. 19­20.  n  "Taxes and the Internet: Updating Tax Structures for a Wired World" (with Traci Gleaso Wright).  State Tax Notes 17 (9), August 23,1999.  HONORS AND FELLOWSHIPS  John T. Dunlop Outstanding Scholar, Labor and Employment Relations  Association  ity  2006 ­  2007  Nicholas Fellow, Center for Economic Policy Studies, Princeton Univers 2006 ­  2009  Jacob Viner University Preceptorship, Princeton University  Public Policy Research Prize, Department of Economics, UC Berkeley  2003  2000 ­  2003  Graduate Research Fellowship, National Science Foundation  , UC  2002 ­  2003  Graduate Fellowship, Fisher Center for Real Estate and Urban Economics Berkeley  y  1998 ­  1999  Departmental Fellowship, Goldman School of Public Policy, UC Berkele 2011  PROFESSIONAL ACTIVITIES  Expert witness, Vergara v.  California (California Superior Court).  Executive Committee, UC Berkeley / UC San Francisco Robert Wood Johnson  2012­ Foundation (RWJF) Scholars in Health Policy Research Program.  Board of Editors, American Economic Review  2011 ­ Associate Editor, Industrial Relations  2012­ Technical Review Committee, National Longitudinal Surveys (Bureau of Labor  2012­ Statistics)  Expert Panel, Interagency Working Group on Expanded Measures of Enrollment  2011­ and Attainment (National Center for Education Statistics)  Advisory Council, Tipping Point Foundation  2010­ Review Panel, College & Beyond (Mellon Foundation)  2010­ ional  2010 ­  2013  Technical Review Panel, High School Longitudinal Study of 2009 (Nat Center for Education Statistics)  2009 ­  2011  External Advisory Council, Chicago Public Education Fund  2014  Jesse Rothstein, 5/5  CONFERENCE ORGANIZATION  2016  2014  2013  2012  2011  )  Program Committee, Labor and Employment Relations Association (LERA Annual Meetings, San Francisco    Co­Organizer, All­California Labor Economics Conference, Berkeley ston  gs, Bo Meetin nual  ists An Program Committee, Society of Labor Econom go  , Chica Program Committee, Society of Labor Economists Annual Meetings onica  Program Committee, All­California Labor Economics Conference, Santa M EXTERNAL GRANTS   Reform and  2014 ­  2016  Washington Center for Equitable Growth, "School Finance Educational Equity" (with Diane Schanzenbach)  ution of Student  2014 ­ 2016  Spencer Foundation, "School Finance Reform and the Distrib Achievement" (with Diane Schanzenbach)  cession: What Role  2012 ­  2013  Russell Sage Foundation, "The Labor Market in the Great Re for the Supply Side?"  nd the Measurement of  2008 ­  2011  Institute for Education Sciences, "Value Added Models a Teacher Quality" (R305A080560)  l Admissions:  The  2005 ­  2007  Melion Foundation, "Affirmative Action and Law Schoo on)  Mismatch Hypothesis and Minority Student Perfonnance" (with Albert Yo come and College in  2004 ­  2005  UCLA Center on Education Policy and Evaluation, "Race, In 25 Years" (with Alan Krueger  and Sarah Turner).  TEACHING  University of California, Berkeley:  Quantitative Methods for Public Policy (masters level): 2014.  Economics of Education Policy (doctoral & masters level): 2013, 2014.  Statistics for Program Evaluation (masters level): 2011, 2012, 2014.  .  Introduction to Policy Analysis (masters level): 2011, 2012, 2013, 2014 Princeton University:  07, 2008, 2009.  Econometrics and Public Policy: Advanced (masters level):  2004, 2005, 20 Public Economics (Ph.D. level).  2004, 2005, 2008, 2009.  8­9.  Senior thesis advising:  6 in 2003­4; 6 in 2004­5; 3 in 2007­8; 1 in 200 nd 2008­09.  4­05 a Nominated for Princeton University Graduate Mentoring Award, 200 Other:    Short course in Labor Economics (with Lowell Taylor).  Delivered at: m, January 2013.   progra American Economic Association continuing education e 2013.  Canadian Labour Market and Skills Research Network summer school, Jun PROFESSIONAL ASSOCIATIONS  olicy, Association for  American Economic Association, Association for Education Finance and P yment   Emplo Public Policy Analysis and Management, Econometric Society, Labor and Relations Association, Society of Labor Economists.  A partial list of research consulted (* indicates a paper cited in the  declaration)  Angrist, Joshua, P. Hull, P. Pathak, and C. Walters (2015). "Leveraging lotteries for  value­added: Testing and estimation." Unpublished manuscript  Bacher­Hicks, Andrew, Thomas}. Kane, and Douglas 0. Staiger (2014). "Validating  teacher effect estimates using changes in teacher assignments in Los  Angeles," Working paper 20657, National Bureau of Economic  Research.  Baker, Eva L, Paul E. Barton, Linda  Darling­Hammond, Edward Haertel, Helen F.  Ladd, Robert L. Linn, Diane Ravitch, Richard  Rothstein, Richard Shavelson &  Lorrie A. Shepard (2010).  "Problems with the use of student test scores to  evaluate teachers."  Briefing paper #278.  Washington DC: Economic  Policy  Institute.  Ballou, D. (2012): "Review of'The Long­Term Impacts of Teachers: Teacher Value­ Added and Student Outcomes in Adulthood"," National Education  Policy  Center, Boulder, CO,, Downloaded Aug. 3, 2015 from  http://nepc.colorado.edu/thinktank/review­long­term­impacts.  * Ballou, Dale (2005). "Value­added assessment: Lessons from Tennessee." Value  added models in education: Theory and applications (2005): 272­297.  Ballou, Dale, William Sanders, and Paul Wright (2004). "Controlling for student  background in value­added assessment" Journal of  Education and Behavioral  Statistics, 29(1): 37­65.  Ballou, Dale, and Matthew G. Springer. "Using Student Test Scores to Measure  Teacher Performance Some Problems in the Design and Implementation of  Evaluation Systems." Educational Researcher 44.2 (2015): 77­86.  * Bill & Melinda Gates  Foundation (2010).  "Learning about teaching: Initial findings  from the Measures of Effective Teaching project" MET project research  paper. Seattle, Washington. Retrieved December 16, 2010, from  http://www.metproiect.org/downloads/Preiiminarv  Findings­ Research  Paper.pdf.  * Bill & Melinda Gates Foundation (2012).  "Gathering feedback for teaching:  Combining high­quality observation with student surveys and achievement  gains." MET project research paper. Seattle, Washington. Retrieved April 16,  2013, from  http://www.metproiectorg/downioads/MET  Gathering  Feedback  Research  Paper.pdf.  Bill & Melinda Gates  Foundation (2013a).  "Ensuring fair and reliable measures of  effective teaching: Culminating findings from the MET project's three­year  study." MET project research brief. Seattle, Washington. Retrieved April 16,  2013, from  http://www.metproiect,org/downloads/MET  Ensuring  Fair  and  Reliable  M  easures  Practitioner  Brief.pdf.  s  g  B    Bill & Melinda Gates Foundation  (2013b). "Feedback for better teaching: Nine principles for using measures of effective teaching." MET project research  brief. Seattle, Washington. Retrieved April 16, 2013, from  http://www.metproiect.org/downIoads/MET  Feedback%20for%20Better%  20Teaching  Pnncipies%20Paper.pdf.  eport  * Board on Testing and Assessment, National  Research Council (2009).  Letter r to the U.S. Department of Education on the Race To The Top Fund.  Dated  October 5.  Retrieved on March  29,2013 from  http://www.nap.edu/catalog.php7record  id­12780.  Bratton Jr., Samuel E., Sandra P. Horn, and S. Paul Wright (undated). Using and  interpreting Tennessee's Value­Added Assessment System. Retrieved on  October 1,2015 from  http://www.shearonforschools.com/documents/TVAAS.HTML.  lue­ Braun, Henry (2005). Using student  progress to evaluate teachers: A primer on va added models. Princeton, N : Educational Testing Service.  Braun, Henry, N. Chudowsky, & Judith Koenig, eds. (2010).  Getting value out of  value­added. Washington, DC: National Academies Press.  * Briggs, Derek & Ben  Domingue (2011).  Due diligence and the evaluation of  teachers: A review of the value­added analysis underlying  the effectiveness  rankings of Los Angeles Unified School  District teachers by the Los Angeles  Times.  Boulder, CO: National Education  Policy Center. Retrieved March  28,  2013 from http://nepc.colorado.edu/publication/due­diligence.  and  Buddin, Richard (2010).  "How effective are Los Angeles elementary teachers  schools?"  White paper, August.  Retrieved March  29,2013 from  http://documents.Iatimes.com/buddin­white­paper­20100908/.  * Campbell, Donald T. (1979). "Assessing the impact of planned social change."  Evaluation and Program  Planning 2(1), p.p. 67­90.  idence  * Carrell, Scott E., & James E. West (2010). "Does professor quality matter? Ev from random assignment of students to  professors." Journal of Political  Economy 118.3.  cts of  * Chetty, Raj, John  N. Friedman & Jonah E.  Rockoff (2011). "The long­term impa   teachers: Teacher value­added and student outcomes in adulthood." Working paper no. 17699.  Cambridge, MA: National  Bureau of Economic  Research.  s  * Chetty, Raj, John N. Friedman, and Jonah E. Rockoff  (2014). "Measuring the Impact of Teachers I: Evaluating Bias in Teacher Value­Added Estimates," American  Economic Review, 104(9), 2593­2632.  * Corcoran, Sean P., Jennifer L.  Jennings & Andrew A. Beveridge (2011). "Teacher  effectiveness on high­ and low­stakes tests."  Unpublished manuscript,  retrieved from  https://files.nvu.edu/scl29/pubIic/papers/corcoran  iennings  beveridge  20  11 wkg  teacher  effects.pdf on April 15, 2013.  * Darling­Hammond, Linda, Audrey Amrein­Beardsley, Edward Haertel & Jesse  Rothstein (2012).  "Evaluating teacher evaluation."  Kappan 93(6), March: 8­ 15.  Duflo, Esther, Rema Hanna & Stephen P. Ryan (2012). "Incentives work: Getting  teachers to come to school." The American Economic Review, 102(4), p.p.  1241­1278.  Figlio, David  N. (2006). "Testing, crime and punishment.'7ounia/ of Public Economics  90(4­5), p.p. 837­851.  Figlio, David  N. & Helen F. Ladd (2008). "School accountability and student  achievement" P.p. 166­182 in Helen  F. Ladd and Edward B.  Fiske, eds.,  Handbook of research in education  finance and  policy.  Routledge: New York.  Figlio, David & Joshua Winicki (2005). "Food for thought? The effects of school  accountability plans on school nutrition." Journal of  Public Economics 89(2­ 3), p.p. 381­94.  Fryer, Roland G.  (2013). "Teacher Incentives and Student Achievement: Evidence  from New York City Public Schools." Journal of Labor Economics, 31{2), 373­ 407.  Gates, Bill (2013). "A fairer way to evaluate teachers: Commentary."  The  Washington Post, April 3.  Retrieved April 15, 2013 from  http://articles.washingtonpost.com/2013­04­ 03/opinions/38246518 1 teacher­evaiuation­svstems­classroom­ observations­student­test.  Goodman, S. F., & Turner, L. J. (2013). "The design of teacher Incentive pay and  educational outcomes: evidence from the New York City bonus program."  Journal of Labor Economics, 31(2): 409­420.  Guarino, Cassandra M., Mark M. Reckase, and Jeffrey M. Wooldridge (2012). "Can  value­added measures of teacher education performance be trusted?,"  Working paper 18, The Education Policy Center at Michigan State University.  Guarino, Cassandra & Brian Stacy (2012).  Review of'Gathering feedback for  teaching.'  Boulder, CO: National  Education Policy Center. Retrieved April 16,  2013, 2013 from http.y/nepc.colorado.edu/thmktank/reyiew­gathering­ feedback.  Horvath, Hedvig (2015). "Classroom assignment policies and implications for  teacher value­added estimation," Unpublished manuscript.  Institute for Education Sciences (2012).  "Learning from recent advances in  measuring teacher effectiveness."  Meeting Summary, August 9.  Retrieved  March 29, 2013 from  http://ies.ed.gov/director/pdf/measuring teacher  effectiveness.pdf.  * Jackson, Kirabo [2012). "Non­Cognitive Ability, Test Scores, and Teacher Quality:  Evidence from 9th Grade Teachers in North Carolina."  NBER Working Paper  18624.  Jacob, Brian A. & Lars Lefgren (2008). "Can principals identify effective teachers?  Evidence on subjective performance evaluation in education." Journal of  Labor Economics, 26(1), p.p. 101­136.  * Jacob, Brian A., Lefgren  Lars, & Sims, David P. (2010). "The persistence of teacher­ induced learning." Journal of Human  Resources, 45(4), 915­943.  Kane, Thomas J., Daniel  F. McCaffrey, Trey Miller & Douglas O. Staiger (2013). "Have  we identified effective teachers? Validating measures of effective teaching  using random assignment."  MET project white paper. Seattle, WA: Bill &  Melinda Gates Foundation. Retrieved March 29, 2013, from  http://www.metproiect.org/downloads/MET Validating  Using  Random  Ass  ignment  Research  Paper.pdf.  * Kane, Thomas J. & Douglas 0. Staiger (2008). "Estimating teacher impacts on  student achievement: An experimental evaluation."  Working paper no.  14607. Cambridge, MA: National Bureau of  Economic Research.  * Koedel, Cory & Julian R. Betts (2011). "Does student sorting invalidate value­added  models of teacher effectiveness? An extended analysis of the Rothstein  critique." Education Finance and  Policy 6(1), p.p. 18­42.  Ladd, Helen (2012).  Untitled research brief in Institute for Education Sciences,  "Learning from recent advances in measuring teacher effectiveness/'  retrieved March  29, 2013 from  http://ies.ed.gov/director/pdf/measuring  teacher  effectiveness  abstracts.p  df  * Lockwood, J.R., Daniel  0. McCaffrey, Laura  Hamilton, Brian Stetcher, Vi­Nhuan Le.  & Jose F. Martinez. (2007). "The sensitivity of value­added teacher effect  estimates to different mathematics achievement measures." Journal of  Educational Measurement, 44 (1), p.p. 47­67.  Lomax, Erin D. and Jeffrey). Kuenzi (2012). "Value­added modeling for teacher  effectiveness." Washington, DC: Congressional Research Service.  Mihaly, Kata, Daniel  F. McCaffrey, Douglas 0. Staiger & J.R. Lockwood (2013).  "A  composite estimator of effective teaching: Research paper."  MET project  research paper,  Seattle, WA: Bill & Melinda  Gates Foundation.  Retrieved  April 15, 2013 from  http://www.metproject.org/downloads/MET_Composite_Estimator_of_Effec  tive_Teaching_Research_Paper.pdf.  * Neal, Derek (2013). "The consequences of using one assessment system to pursue  two objectives," The Journal of Economic Education  44 (4): 339­352.  Neal, Derek and Schanzenbach, Diane Whitmore (2010]. "Left behind by design:  Proficiency counts and test­based accountability." The Review of Economics  and Statistics, 92(2), p.p. 263­283.  Newton, Xiaoxia, Linda  Darling­Hammond, Edward Haertel &  Ewart Thomas  (2010). "Value­added modeling of teacher effectiveness: An exploration of  stability across models and contexts." Educational Policy Analysis Archives,  18(23).  Pratt, Tony (2014). "Making every observation meaningful: Addressing lack of  variation in teacher evaluation ratings." Policy brief, Tennessee Department  of Education Office  of Research and  Policy, November.  Raudenbush, Steven & Jean Marshall (2012).  "How should educators interpret  value­added scores?" White paper, Carnegie Knowledge Network What We  Know Series: Value­Added Methods and Applications, October.  Retrieved from  http://carnegieknowledgenetwork.org/briefs/value­added/interpreting­ value­added on April 1, 2013.  Rockoff, Jonah Ev  Brian Jacob, Thomas J. Kane & Douglas 0. Staiger (2011). "Can you  recognize an effective teacher when you recruit one?" Education Finance and  Policy 6(1), p.p. 43­74.  * Rothstein, Jesse (2009). "Student sorting and bias in value added estimation:  Selection on observables and unobservables."  Education Finance and  Policy  4(4), p.p. 537­571.  * Rothstein, Jesse (2010).  "Teacher quality in educational production: Tracking,  decay, and student achievement" Quarterly Journal of  Economics 125(1), p.p.  175­214.  * Rothstein, Jesse (2011). Review of'Learning about teaching: Initial findings from  the Measures of Effective Teaching  project'Boulder, CO: National  Education  Policy Center. Retrieved March  29, 2013 from  http://nepc.colorado.edu/thinktank/review­iearning­about­teaching.  * Rothstein (2014). "Revisiting the impacts of teachers" Unpublished manuscript  Rothstein, Jesse & William J. Mathis (2013). Review of'Have we identified effective  teachers?' and 'A composite estimator of effective teaching': Culminating  findings from the Measures of Effective Teaching project  Boulder, CO: National  Education Policy Center. Retrieved March  29, 2013 from  http://nepc.coiorado.edu/thinktank/review­MET­final­2013.  Sanders, William L. (2006). "Comparisons among various educational assessment  value­added models." SAS Institute white paper, October 16.  Sanders, William L. and Sandra P. Horn  (1998). "Research findings from the  Tennessee Value­Added Assessment System  (TVAAS)  database: Implications  for educational evaluation and research." Journal of Personnel Evaluation in  Education 12(3): 247­256.  Sanders, William L., and Sandra P. Horn  (1994). 'The Tennessee value­added  assessment system (TVAAS): Mixed­model methodology in educational  assessment" Journal of Personnel  Evaluation in Education 8(3): 299­311.  Sanders, William L, Arnold M. Saxton, and Sandra P. Horn (1997). "The Tennessee  Value­Added Assessment System: A quantitative outcomes­based approach  to educational assessment." In Millman, Jason, ed., Grading teachers, grading  schools: Is student achievement a valid evaluational measure. 137­162.  Sanders, William L., S. Paul Wright, and Sandra P. Horn (1997). "Teacher and  classroom context effects on student achievement: Implications for teacher  evaluation." Journal of Personnel Evaluation in  Education 11(1): 57­67.  SAS Institute (2015). "SAS EVAAS: TVAAS: What's New In  2015."  SAS Institute (2014). "SAS EVAAS; Adjusting for student characteristics in value­ added models."  * Sass, Timothy (2008). "The stability of value­added measures of teacher quality  and implications for teacher compensation policy."  Policy brief #4.  Washington DC: CALDER.  * Springer, Matthew, Dale Ballou, Laura Hamilton, Vi­Nhuan Le, J.R. Lockwood,  Daniel McCaffrey, M. Pepper & Brian Stecher. (2010). Teacher pay  for  performance: Experimental evidence from the Project on Incentives in  Teaching. Nashville, TN: National Center on Performance Incentives.  Staiger, Douglas 0. & Jonah E. Rockoff (2010).  "Searching for effective teachers with  imperfect information." The Journal of  Economic Perspectives 24(3), p.p. 97­ 117.  Tennessee Department of Education (2014). "Teacher characteristics and  effectiveness." February 1.  Tennessee Department of Education (2015). "Teacher and administrator evaluation  in Tennessee: A report on year 3 implementation." April.  Tennessee Department of Education  (undated). "TEAM: Evaluation overview."  Wright, S. Paul, John T. White, William L. Sanders, and June C. Rivers (2010). "SAS  EVAAS Statistical Models." White paper, March 25.  * Value­Added  Research Center with New York City Department of Education  (2010).  NYC teacher data initiative: Technical report on the NYC value­added  model.  Retrieved March  29, 2013 from  http://schools.nvc.gov/NR/rdonlvres/A62750A4­B5F5­43C7­B9A3­ F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf.  ition in a Civii Action  AO 88A  (Rev. 02/14) Subpoena to Testify at a Depos UNITED STATES DISTRICT COURT  for the  MIDDLE  DISTRICT  OF  TENNESSEE  LISA TROUT  )  Plaintiff  )  )  v.  KNOX COUNTY  BOARD OF EDUCATION  )  )  )  Defendant  To:  Civil Action No.  3:14­CV­49  SUBPOENA TO TESTIFY AT A DEPOSITION IN A  John White  CIVIL ACTION  (Name of person to whom this  subpoena is directed)  the time, date, and place set forth below to testify at a  rf  Testimony:  YOU ARE  COMMANDED to appear at  irectors,   organization, you must designate one or more officers, d deposition to be taken in this civil action.  If you are an  or  atters, ing m ent to testify on your behalf about the follow or managing agents, or designate other persons who cons those set forth in an attachment:  g t,  ! Place;  sas institute, Inc., sas Campus Drive,  Buildin Cary, North  Carolina, 27513  I  Date and Time:  04/01/2015 9:00 am  grapher and videographer  The deposition will be recorded  by this method:  Steno g with you to the deposition the following documents,  Production:  You, or your representatives, must also brin it inspection, copying, testing, or sampling of the  electronically stored  information, or objects, and must perm material: 3ee attached list.  ed ­ Rule 45(c), relating to the place of compliance;  The following provisions of Fed. R. Civ. P. 45 are attach duty to  t to a subpoena; and Rule 45(e) and (g), relating to your  Rule 45(d), relating to your protection  as a person subjec f not doing so.  respond to  this subpoena and the  potential consequences o Date:  CLERK OF COURT  OR  Signature of Clerk or Deputy Clerk  Attorney's signature  Lisa Trout   of the attorney representing (name  of pai­ty)  , who issues or requests this subpoena, are:  The name, address, e­mail address, and telephone number C. Suite 340­M,  Nashville, Tennessee, 37201  Richard  L,  Colbert, Kay, Griffin,  Enkema &  Colbert, PLL a  rcoibert@kaygrittin.com, «15­742­4bUU  Notice to the person  who issues or requests this subpoen r tangible things before  tion, o forma , electronically stored in If this subpoena commands the production of documents rved on  the person to  it is se efore   case b in this trial, a notice and a copy of the subpoena m  v'  whom it  is directed. Fed. R. Civ. P. 45(a)(4  C  43  »'   2)  AO 88A  (Rev.  02/14) Subpoena to Testify at a Deposition  in aCivii Action (Page Civil Action  No.  3:14­CV~49  PROOF OF SERVICE  .)  (This section should not be filed with the court unless required by Fed. R. Civ. P. 45 I received this subpoena for (name of individual and title, if any)  on (dale)  s:  I served the subpoena by delivering a copy to the named individual as follow   ; or  on (date)   I returned the subpoena unexecuted  because:  icers or agents, I have also  Unless the subpoena  was issued on  behalf of the United States, or one of its off   law, in the amount of  tendered to the witness the fees for one day's attendance, and the mileage allowed by $  My fees are $  for travel and $  for services, for a total of $  I declare under  penalty of perjury that  this information is true.  Date:  Server's signature  Printed name and title  Server's address  Additional information regarding attempted service, etc.:  0.00  IN THE UNITED STATES DISTRICT COURT  EASTERN DISTRICT OF TENNESSEE  KNOXVILLE DIVISION  LISA TROUT,  )  )  Plaintiff,  v.  KNOX COUNTY BOARD OF  EDUCATION,  Defendant.  )  )  )  )  )  )  NO. 3:14­CV­49  )  )  )  LIST OF DOCUMENTS FOR SUBPOENA DUCES TECUM OF JOHN WHITE  Hie most recent Technical Documentation of EVAAS Analyses for Tennessee.  Any  document  describing  the  methods  used  to  calculate  EVAAS  estimates  and  the  computer program code that implements those methods.  3.  Any  documents establishing  the  validity  of SAS  EVAAS results  as measures of  teacher  effectiveness,  4  Any documents demonstrating or establishing the validity of school­wide or district­wide  EVAAS results as a measure of teacher effectiveness in a non­tested grade or subject.  Any  documents establishing the  validity  of  use  of  the  new TNReady  test results  in  the  calculation of individual teacher TVAAS estimates.  6.  Any documents establishing  the validity of TCAP and/or TNReady  test results  as a tool  for measuring teacher effectiveness.  Any documents establishing vertical alignment between TCAP tests and TNReady tests.  8  Any document that  identifies the EVAAS parameter estimates that are or have been used  in the computation of individual teacher TVAAS results.  IN THE  UNITED STATES DISTRICT COURT  FOR THE  EASTERN  DISTRICT OF TENNESSEE  USA TROUT,  )  )  )  )  Plaintiff,  )  )  )  v.  NO.  3:14­CV­49  )  )  )  KNOX COUNTY  BOARD OF  )  )  EDUCATION.  Defendant.  Objections and Responses to PiaintifTs List of  Documents for  Subpoena Duces Tecum of iohn White  onses to Plaintiffs  John White (hereafter "White") hereby serves his Objections and Resp s:  List of  Documents for Subpoena Duces Tecum of John White as follow General Objections  1.  White objects to these document requests as unduly burdensome, on  the grounds that.  f White but, instead, are  to the extent the documents exist, none are in the personal possession o er.  Accordingly,  White  is  in  the  possession  and  custody  of  SAS  institute  inc.,  White's  employ titute Inc.  SAS Ins unable to produce any of these documents without the permission of  D  they  White objects to these document requests as unduly burdensome to the extent that  2.  are not limited to a  reasonable period  of time.  e to  White objects to the production  of  any document which  is  protected from  disclosur 3.   and  any third party by  his obligations under SAS Institute Inc/s Use and Disclosure of Confidential Inc.  Proprietary Information  Policy and  by the terms of White's employment with SAS Institute  te  White objects to the production of  any document which is  a trade secret of SAS Institu 4.  ry,  as  such  Inc.  or  is  otherwise  considered  by  SAS  Institute  Inc.  as  confidential  or  proprieta rding trade  documents are protected from disclosure to any third party by any applicable law rega tial  and  secrets,  by  obligations  under  SAS  Institute  Inc/s  Use  and  Disclosure  of  Confiden Proprietary Information  Policy, and  by the terms of White's employment with SAS  institute  5.  inc.  White objects to the subpoena because it does not comply with the requirements of  Fed.  .  R. Civ.  P. 45(a)(2), in  that it was not issued from the court where the action is pending Objections and Responses to List of Documents for Subpoena Duces Tecum of John White  1.  The most  recent Technical Documentation of  EVAAS Analyses for Tennessee,  RESPONSE:  White objects to this request on the basis that it is vague and ambiguous in its  request for a  specifically  titled  document, "Technical  Documentation  of  EVAAS  Analyses for  Tennessee/' denoted in all capital letters.  Subject to this objection and the General Objections  above, White is unable to produce any documents.  the  Any  document  describing  the  methods  used  to  calculate  EVAA5  estimates  and  computer'program code that Implements those methods.  RESPONSE:  White objects  to the  request for "computer  program  code that  implements  t  these  methods" as  vague  and  ambiguous since  computer  program  code  is  not  a  documen ,  subject to these this  request for  documents.  Further,  White objects  to this request  on the  stimates."  White  basis that it is vague and ambiguous in that it does not define "methods" or "e objects  to  the  request  for  documents  "describing  the  methods  used  to  calculate  EVAAS  s" as  vague  and  estimates and  the  computer  program  code  that  implements  those  method to specific  uses  of  the  ambiguous  since  the  request  is  out  of  context and  not  in  reference  at  it is  overly  software.  Additionally, White  objects to this request  on the  basis th broad  in  that  may  contain  the  scope  and  unduly  burdensome  in  its  request  for  "any  document"  r program code that  information identified.  Finally, White objects to the request for "compute  secret of SAS Institute  implements these methods" on the basis that such information is a trade Inc.,  or  otherwise considered  confidential  and  proprietary  information  of  SAS  Institute  Inc.,  ing trade secrets, by  protected from disclosure to any third party by any applicable law regard ential  and  Proprietary  obligations  under  SAS  Institute  Inc/s  Use  and  Disclosure  of  Confid stitute Inc.  Subject to  Information Policy, and by the terms of White's employment with SAS In   to  produce  any  these  objections  and  the  General  Objections  above,  White  is  unable documents.  as  measures  of  teacher  3.  Any  document  describing  the  validity  of  SAS  EVAAS  results  effectiveness.    of  SAS  the  validity RESPONSE:  White  objects to the request  for  documents "describing  s since the request  EVAAS results as measures of teacher effectiveness" as vague and ambiguou is out of context and not in  reference to specific uses of the software.  Further,  White objects    burdensome  in  its  to this  request  on  the  basis that  it  is  overly  broad  in  scope  and  unduly to these  request for "any  document" that  may contain  the  information  identified.  Subject  ments.  objections and the General Objections above. White is unable to produce any docu ide  4.  Any  documents  demonstrating or  establishing the  validity  of  school­w or  district­wide  ect  EVAAS results as a  measure of teacher effectiveness in a  non­tested grade or subj ing  RESPONSE:  White objects to the  request for documents  "demonstrating or  establish ectiveness  the validity of school­wide or district­wide EVAAS results as a measure of teacher eff in a  non­tested grade or subject" as vague and  ambiguous since the request is out of  context  uest on  and not in reference to specific uses of the software.  Further, White objects to this req the  basis  that  it  is  overly  broad  in  scope  and  unduly  burdensome  in  its  request  for  "any  ns and the  document" that may contain  the information  identified.  Subject to these objectio General Objections above, White is unable to produce any documents.  5.  Any  documents establishing  the validity  of  use  of  the  new TNReady  test  results  in  the  calculation of  individual teacher TVAAS estimates.  e of  RESPONSE:  White objects to the request for documents "establishing the validity of us s" as  the  new TNReady  test  results  in  the  calculation  of  individual  teacher TVAAS  estimate cific uses  vague and ambiguous since the request is out of  context and not in  reference to spe  broad  in  of  the software.  Further,  White objects to this request on the basis that  it  is overly contain  the  scope  and  unduly  burdensome  in  its  request  for  "any  document"  that  may  bove, White  information identified.  Subject to these objections and the General Objections a is unable to produce any documents.  eady test results  RESPONSE:  Any documents establishing the validity of TCAP and/or TNR 6.  as a tool for measuring teacher effectiveness.   of TCAP  validity RESPONSE:;  White objects to the request for documents "establishing the  eness" as  vague  and  and/or TNREADY  test  results  as  a  tool  for  measuring  teacher  effectiv ific  uses  of  the  ambiguous  since  the  request  is  out  of  context  and  not  In  reference  to spec   In  scope  y broad software.  Further,  White objects to this request on the  basis that it  is overl ay contain  the information  and  unduly burdensome in  its request for "any document" that m s above. White is unable to  Identified.  Subject to these objections and the General Objection produce any documents.  7.  Any documents establishing vertical alignment between TCAP tests  and TNReady tests.  ent  tical  alignm RESPONSE;  White  objects to the request for  documents "establishing ver e request  is out of  between TCAP tests and TNReady  tests" as vague and ambiguous  since th  objects to this  context and not  in  reference to specific uses of  the software.  Further, White   its request for  request on the basis that it is overly broad in scope and unduly  burdensome in se objections and  "any document" that may contain the information identified.  Subject to the   the General Objections above, White is unable to produce any documents. 8.  re or have been used  Any document that identifies the EVAAS parameter estimates that a in the computation of individual teacher TVAAS results.  fies  the  EVAAS  RESPONSE;  White  objects  to  the  request  for  documents  which  "identi parameter  estimates  that  are  or  have  been  used  in  the  computation  of  individual  teacher  and not in reference  TVAAS results" as vague and ambiguous since the request is out of context  to  specific  uses  of  the software  arid  because  "parameters"  is  not defined.  Further,  White  ly burdensome in  objects to this request on the basis that it is overly broad in  scope and undu Finally,  White  its request  for "any  document" that  may contain  the  information  identified.  stimates that  objects to the request for any document which "identifies the EVAAS parameter e  on the  basis  are or have  been used  in  the computation  of  individual  teacher TVAAS  results" ise  considered  that  parameter  estimates  are  trade  secrets  of  SAS  Institute  Inc.,  or  otherw isclosure to any  confidential and proprietary information of SAS Institute Inc., protected from d AS  Institute  third  party by  any applicable  law regarding  trade secrets,  by obligations  under S  by the terms  Inc/s Use and Disclosure of  Confidential and Proprietary  information Policy, and the General  of  White's  employment with  SAS  Institute  inc.  Subject to  these objections and  Objections above, White is unable to produce any documents.  This the 1st  day of April  203.5.  By:  Debra  L  Dewar  Senior Principal Legal  Counsel  HC  Bar No.  2S8S7  SAS Institute Inc.  SAS Campus Drive  Cary, North  Carolina  27513  Telephone: (919) 677­8000  Facsimile:  (919)677­8177  ciebbie.dewar(§>sas.com  Attorney for John White  CERTIFICATE OF SERVICE  1  hereby certify that on April 1,2015,1 served the foregoing Objections and Responses to list of  ai!,  Documents for Subpoena Duces Tecum of John White by depositing a copy of same in  the U.S. M :  post­page and addressed as foiiows in accordance with the Federal  Rules of Civil  Procedure Richard  L Colbert  Kay, Griffin, Enkema  & Colbert, PLLC  222 Second Avenue  North  Suite 340~M  Nashviile, Tennessee  37201  jay C. Ballard  Senior Counsel  Attorney General's Office ­ State of Tennessee  Civil  litigation and State Services Division  p.o.  Box 20207  ,  Nashviile, Tennessee  37202­0207  By:  Debra 1. Dewar  Senior Principal Legal  Counsel  NC Bar  No. 28887  SAS Institute Inc.  SAS Campus Drive  Cary, North  Carolina  27513  Telephone: (919) 677­8000  .  Facsimile:  (919)677­8177  debbie.dewar(a)sas.com  Attorney for John White  m  £Mm  I fix?  vEXHIBIT  i)  i  h ­t­ZT  STATE OF TENNESSEE  DEPARTMENT OF EDUCATION  BILL HASLAM  NINTH FLOOR, ANDREW JOHNSON TOWER  710 JAMES ROBERTSON PARKWAY  NASHVILLE. TN 37243­0375  GOVERNOR  CANDICE MCQUEEN  COMMISSIONER  MEMORANDUM  TO:  Directors of Schools  FROM:  Nakia Towns, assistant commissioner for data and research  RE:  Updates to TVAAS Methodology  DATE:  Jan. 27,20X5  This memo outlines two updates to the TVAAS methodology that will be implemented for the 2014­15 school  year:  2.  The  process known as re­est/mat/on will no longer be used in grades 4­8.  2.  The expectation for growth in grades 4­8 will be reset each year using the intra­year approach rather  than using the current jbase­yeor approach.  Educator Feedback and Input  The Tennessee Department of  Education received feedback from educators in grades 4­8 expressing some  confusion  regarding the process known as re­estimation and  the base­year growth expectations.  As a  result,  the division of  data and  research contacted SAS to explore potential options to address these Issues.  After SAS  confirmed the viability of  the recommended  updates, the department then solicited formal input from district  staff and other educators to help determine if these updates would be adopted this school year.  The Teacher  Advisory Council ­  composed of teacher of  the year finalists from across the state­and a group of  district  assessment and accountability personnel were consulted  to review the proposed recommendations.  Both of  these groups overwhelmingly supported the recommendations as a way to increase consistency across grade  levels and to improve transparency in the TVAAS methodology.  Based upon SAS analysis and educator input,  the department elected to adopt these recommended updates for the 2014­15 school year, as detailed herein.  Eliminating Re­Estimation  The TVAAS calculation in grades 4 ­  8 has historically used the re­estimation  process.  Re­estimation  incorporates student scores in subsequent years to adjust growth estimates in individual subjects and grades  from prior years. While TVAAS evaluation composites are final and do not change in subsequent years, the  growth estimates for Individual subjects and grades, such as the 5th grade math  estimate in 2013, are subject  to minor adjustments in subsequent years.  Although there are valid statistical justifications for using  re­ estimation, the department has decided to stop using re­estimation going forward for the following reasons:  I  2  s  E   to the growth estimate but poses a  Re­estimation typically results in  a very small adjustment in communicating a  clear explanation of the  considerable challenge to transparency in reporting and  process itself.  ign the methodology in  these grades with  Eliminating re­estimation in  grades 4­8 will more closely al  subjects, neither of which  use re­estimation.  the methodology used  in early grades and end of  course calculation of TVAAS growth estimates in grades 4 ­ As a  result, re­estimation will  no longer be included  in the  '  8 for the 2014­15 school year and beyond.  Setting Growth Expectation Using Intra­year Approach  proach to set the expectation for growth. When using  TVAAS scores in grades 4­8 have used the base­year ap  compared to the growth of  students with similar  the base­year approach, student growth in a  given year is from the 2008­09 school year was used as the base  prior achievement in the base year, Through 2014, data  ubjects, the intra­year approach is used, meaning that  year for grades 4 ~ 8. in early grades and end of course s th of students with similar prior achievement in the  student growth in  a given year is compared  to the grow same school year.  roach in TVAAS calculations for grades 4­8 beginning  The department will direct SAS to use the intra­year app cision is as follows:  with the 2014­15 school year. The rationale for this de   »  ®  closely align  with the methodology used  in the  Using the intra­year approach in grades 4 ­ 8 will more  early grades and end of  course subjects.  des 4­8 once the new TNReady assessment is  Using the intra­year approach would  be necessary in gra g the intra­year approach now  will ease the  implemented during the 2015­16 school year. Adoptin transition for next year.  distribution of TVAAS scores between  different  The intra­year approach produces less variation in the  grades and subjects versus the base­year approach.  ach does not prescribe a particular distribution of  Similar to the base­year approach, the intra­year appro  teacher, school, and  district can earn a TVAAS score of  teacher, school, or district TVAAS scores.  As such, any ar approach will  be used for setting the expectation  level 1 through level 5 in any given year.  Thus, the intra­ye ­15 school year. The calculation of multi­year  of growth when TVAAS scores are calculated for the 2014 timates for prior years, which were determined using  evaluation composites will still  utilize existing growth es the base­year approach.  ently Asked Questions below.  Please find additional information in  a collection of  Frequ gy Updates  TVAAS Methodolo Frequently Asked Questions ­  What are the changes to the TVAAS methodology?  ill take effect in the current 2014­15 school year:  The following two TVAAS methodology changes w ger be  used in grades 4­ 8.  The process known as re­estimation will  no lon set each year using the intra­year approach  The expectation for growth in grades 4­8 will  be re '    rather than using the current base­year approach. tes?   upda Why would the department make TVAAS methodology ssing some  ed feedback from educators in grades 4­8 expre The Tennessee Department of Education  receiv a  result,  atio'n and the base­year growth expectations. As  confusion  regarding the process known  as re­estim After SAS  xplore potential options to address these issues.  the division of  data and  research contacted SAS to e  district  tes, the department then solicited formal input from confirmed the viability of the recommended  upda  Teacher   updates would  be adopted this school year. The staff and  other educators to help determine if  these s the state ­ and a group of district  composed of teacher of  the year finalists from acros Advisory Council ­  ions. Both of  consulted to review  the proposed recommendat assessment and accountability personnel  were  cross grade  mmendations as a way to increase consistency a these groups overwhelmingly supported the reco   methodology.  levels and to improve transparency in the TVAAS ?  When will these methodology updates be implemented  memo wiN  be implemented beginning with scores  The methodology updates described in  the above following the 2014­15 school year.  generated  ted?  Will any previous year scores be updated or re­calcula  for  ll  not be applied  retroactively to scores generated No. These updates to the TVAAS methodology wi previous school years.  ?  Was the previous methodology "incorrect" in some way   are determined in accordance with  state law, some No. While most aspects of the TVAAS methodology   updates  viable options with associated pros and cons. The elements of the methodology present multiple  S, who  les. The department enlisted the expertise of SA presented in  the above memo are two such examp  and a  nalists who make up the Teacher Advisory Council, calculates TVAAS scores, the teacher of  the year fi dvantages of   personnel to help weigh the advantages and disa group of district assessment and accountability each, of the options.  odology used in early grades and end of  ut the meth Will these methodology updates change anything abo course subjects?    ­8 with the ll further align the methodology used Sn grades 4 No, These updates only impact grades 4­8, and wi urse subjects.  methodology used in  early grades and End  of Co s known as re­estimation?  What are the primary justifications for discontinuing the proces ion, it typica(!y results in very small adjustments to  While there are sound statistical reasons to use re­estimat re­estimation are incredibly nuanced and the  growth estimates. At the same time, the reasons for using  erable confusion. In addition, re­estimation  was  '  process can be difficult to explain; this often leads to consid ting re­estimatlon further aligns with the  only possible in the  methodology used in  grades 4­8; elimina ts. Upon weighing the pros and cons, stakeholders  methodology used  in early grades and End  of  Course subjec ­ overwhelmingly supported eliminating­re­estfmation.  roach in grades 4­8?  What are the primary justifications for using the intra­year app rades and subjects is that it will  more closely align  One advantage to moving to the intra­year approach in all g y, the intra­year approach will smooth the  the methodology used  across grades and subjects. Additionall ­16 school year. While not prescribing a particular  transition to the newTNReady assessment during the 2015 s less variation in  the distribution of TVAAS scores  distribution of scores, the intra­year approach also produce proach. Upon weighing the pros and cons,  between different grades and subjects than the base­year ap r approach for all grades and subjects.  stakeholders overwhelmingly supported using the intra­yea  such as the scores used for teacher  How will  previous year scores be inciuded in multi­year composites, evaluation?  sed, as applicable, when calculating composites. This  The most recent available scores from  prior years will be u 012­13 and 2013­14 scores ­ will be included  in the  means that, following the 2014­15 school year, the same 2 er taught 5th  grade math in  2012­13,2013­14, and  multi­year composites for 2014­15. For example, if  a teach rh grade math growth estimate calculated  using the  2014­15, the TVAAS model would  include their 2014­15 5 ite score would also include their previously  updated methodology.  The teacher's TVAAS evaluation compos th  tes. For more information on  multi­year  reported 2012­13 and  2013­14 5 grade math growth estima act SAS using the "Contact Us" feature at this link.  composites and how composites are calculated, please cont Where can I learn more about TVAAS?  esources, including a "How TVAAS Works" video  The departments TVAAS page contains a variety of TVAAS r that gives an overview of the TVAAS methodology.  TEACHER QUALITY IN EDUCATIONAL PRODUCTION:  TRACKING, DECAY, AND STUDENT ACHIEVEMENT*  JESSE ROTHSTEIN  Growing  concerns  over  the inadequate  achievement  of  U.S.  students  have  led  to  proposals  to  reward  good  teachers  and  penalize  (or fire)  bad  ones.  The  leading method  for assessing teacher  quality is "value  added" modeling  (VAM),  which  decomposes  students'  test  scores  into components  attributed  to  student  heterogeneity and  to  teacher  quality.  Implicit in  the VAM  approach  are strong  assumptions  about  the  nature  of  the  educational  production  function  and  the  assignment of students  to classrooms.  In this  paper, I  develop falsification  tests  for three widely  used VAM specifications,  based on the idea  that future teachers  cannot influence students' past achievement.  In data from  North Carolina, each  of  the VAMs'  exclusion  restrictions is dramatically  violated. In  particular, these  models indicate large  "effects" of fifth  grade teachers  on  fourth grade  test score  gains. I also find  that conventional measures of individual  teachers' value added  fade out very quickly and are at best weakly related  to long­run effects. I discuss  implications for the use of VAMs as personnel tools.  I.  INTRODUCTION  Parallel  literatures in  labor  economics and  education  adopt  similar econometric strategies for  identifying the effects  of firms  on  wages  and  of  teachers  on  student test  scores.  Outcomes  are  modeled  as the  sum of firm  or teacher  effect,  individual  hetero­ geneity, and transitory, orthogonal  error. The resulting estimates  of firm  effects are used  to gauge  the relative  importance of firm  and worker  heterogeneity in  the  determination of  wages.  In ed­ ucation,  so­called "value  added" models  (hereafter,  VAMs)  have  been used to measure the importance of teacher quality to educa­ tional production, to assess teacher preparation and  certification  programs, and as important inputs to  personnel evaluations and  merit pay programs.1  'Earlier versions of this paper circulated under the title "Do Value Added Mod­ els Add Value?" I am grateful to Nathan Wozny and Enkeleda Gjeci for exceptional  research assistance. I thank Orley Ashenfelter, Henry Braun, £)avid Card, Henry  Parber, Bo Honore, Brian Jacob, Tom Kane, Larry Katz, Alan Krueger, Sunny Ladd,  David Lee, Lars Lefgren, Austin Nichols, Amine Ouazad, Mike Rothschild, Cecilia  Rouse, Diane Schanzenbach, Eric Verhoogen, Tristan Zajonc, anonymous referees,  and conference  and seminar  participants for  helpful conversations  and sugges­ tions. I also  thank the North Carolina  Education Data Research Center  at Duke  University for  assembling, cleaning,  and making available  the confidential data  used in  this study  Financial support was  generously provided  by the Princeton  Industrial Relations Section and Center for Economic Policy Studies and the U.S.  Department of Education (under Grant R305A080560). rothste.in@berkdey.edu.  1.  On firm  effects, see, for example,  Abowd and  Kramarz (1999). For  recent  examinations  of  teacher effects  modeling,  see McCaffrey  et al.  (2003);  Wainer  (2004); Braun (2005a, 2005b); and Harris and Sass (2006).  © 2010 by the President and Fellows of Harvard College and the Massachusetts Institute of  Technology.  The Quarterly Journal of  Economics, February 2010  175  a  S  F  176  QUARTERLY JOURNAL OF ECONOMICS  All of these applications suppose that the estimates can be in­ terpreted causally. But observational analyses can identify causal  effects only under unverifiable assumptions about the correlation  between  treatment  assignment—the  assignment  of  students  to  teachers, or the matching of workers to firms—and  other determi­ nants of test scores and wages. If these assumptions do not hold,  the resulting estimates of teacher and firm  effects are likely to be  quite misleading.  Anecdotally, assignments of students to teachers incorporate  matching to take advantage of teachers' particular specialties, in­ tentional separation of children who are known to interact badly,  efforts on the principal's part to reward favored teachers through  the  allocation  of  easy­to­teach  students,  and  parental  requests  (see, e.g., Monk [1987]; Jacob and  Lefgren [2007]). These are dif­ ficult  to model statistically.  Instead, VAMs  typically assume that  teacher assignments are random conditional on a single (observed  or latent) factor.  In  this  paper,  I  develop  and  implement  tests  of  the  exclu­ sion restrictions of commonly used value added specifications. My  strategy exploits the fact that future teachers cannot have causal  effects  on  past  outcomes,  whereas  violations  of  model  assump­ tions may lead  to apparent  counterfacfcual "effects" of  this form.  Test  scores,  like  wages,  are  serially  correlated,  and  as  a  result  an association between the  current teacher  and the lagged score  is strong evidence against exogeneity with respect to the  current  score.  I examine three commonly  used VAMs, two of which have di­ rect parallels in the firm  effects literature.  In the simplest,  most  widely used VAM—which  resembles the most common  specifica­ tion for firm  effects—the necessary  exclusion restriction  is that  teacher assignments  are orthogonal  to all  other determinants of  the  so­called "gain"  score,  the  change  in  a  student's  test  score  over the  course  of the  year.  If this  restriction holds, fifth  grade  teacher assignments should not be correlated with students' gains  in fourth grade. Using a large microdata set describing North Car­ olina elementary students, I find  that there is in fact substantial  within­school  dispersion  of  students'  fourth  grade  gains  across  fifth  grade classrooms.  Sorting on  past reading gains is  particu­ larly prominent, though there is clear evidence of sorting on math  gains as well. Because test scores exhibit strong mean reversion—  and  thus  gains  are  negatively  autocorrelated—sorting  on  past  gains produces bias in the simple VAM's estimates.  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  177  The  other VAMs  that  I  consider rely  on  different  exclusion  restrictions, namely  that classroom  assignments are  as good  as  random  conditional  on  either  the  lagged  test  score  or  the  stu­ dent's (unobserved, but permanent) ability.  I discuss how similar  strategies  can  be  used  to  test  these  restrictions  as  well.  I  find  strong evidence in the data against each.  Evidently, classroom assignments respond dynamically to an­ nual achievement in  ways that  are not captured  by the  controls  typically included in VAM  specifications. To  evaluate the magni­ tude of the biases  that assignments produce,  I compare  common  VAMs to a richer model  that conditions on the complete achieve­ ment history.  Estimated teacher  effects  from  the  rich model  di­ verge importantly from  those obtained from  the simple VAMs  in  common use. I  discuss how selection on unobservables is likely to  produce  substantial additional  biases.  I  use a  simple simulation  to explore the sensitivity of teacher rankings to these biases. Un­ der plausible assumptions, simple VAMs can be quite misleading.  The  rich VAM  that  controls  for  all  observables  does  better,  but  still yields rankings that diverge meaningfully from the truth.  My estimates  also point  to an important  substantive result.  To  the  extent  that  any  of  the  VAMs  that  I  consider  identify  causal  effects,  they  indicate  that  teachers'  long­run  effects  are  at best  weakly proxied  by  their immediate  impacts.  A teacher's  effect in the year of exposure—the universal focus of value added  analyses—is  correlated  only  .3  to  .5  with her  cumulative  effect  over  two  years,  and  even  less  with her  effect  over  three  years.  Accountability policies that rely on measures of short­term value  added would do  an extremely  poor job of  rewarding the teachers  who are best for students' longer­run outcomes.  An  important  caveat  to  the  empirical  results  is  that  they  may  be  specific  to  North  Carolina.  Students  in  other  states  or  in individual school  districts might be  assigned to classrooms in  ways  that satisfy  the  assumptions  required  for  common VAMs.  But at the least, VAM­style  analyses should attempt to evaluate  the  model  assumptions,  perhaps  with  methods  like  those  used  here. Models that rely on incorrect assumptions are likely to yield  misleading  estimates,  and  policies  that  use  these  estimates  in  hiring, firing,  and compensation decisions  may reward and  pun­ ish teachers  for  the  students  they  are  assigned  as much  as  for  their actual effectiveness in the classroom.  Section II reviews the use of preassignment variables to test  exogeneity assumptions.  Section  III introduces  the  three VAMs,  178  QUARTERLY JOURNAL OF ECONOMICS  discusses their implicit assumptions,  and describes my  proposed  tests. Section  IV  describes the  data.  Section V  presents results.  Section VI attempts to quantify the biases that nonrandom class­ room  assignments  produce  in VAM­based  analyses.  Section VII  presents evidence on teachers' long­run effects. I conclude, in Sec­ tion VIII, by discussing some implications for the design of incen­ tive pay systems in education.  II.  USING PANEL DATA  TO TEST  EXCLUSION RESTRICTIONS  A central assumption in all econometric studies of treatment  effects  is  that  the  treatment  is  uncorrelated  with  other  deter­ minants of the  outcome, conditional  on covariates. Although  the  assumption is ultimately untestable—the "fundamental problem  of  causal  inference" (Holland  1986)—the  data can  provide  indi­ cations  that it  is unlikely  to hold.  In  experiments, for  example,  significant  correlations  between  treatment  and  preassignment  variables are interpreted as evidence that randomization was un­ successful.2  Panel data  can be  particularly useful.  A correlation  between treatment and some preassignment variable  X need not  indicate  bias in  the  estimated  treatment  effect if  X  is  uncorre­ lated  with  the  outcome  variable  of  interest.  But  outcomes  are  typically correlated  within  individuals over  time,  so an  associa­ tion between treatment and the lagged outcome strongly suggests  that the treatment is not exogenous with respect to posttreatment  outcomes.  This insight has been most fully explored in the literature on  the effect of job training on wages and employment. Today's wage  or employment status is quite informative about tomorrow's, even  controlling for  all  observables.  Evidence  that assignment  to job  training is correlated  with lagged  wage dynamics  indicates that  simple  specifications  for  the  effect  of  training  on  outcomes  are  likely to  yield biased  estimates (Ashenfelter  1978).  Richer mod­ els of  the training  assignment  process may  absorb  this correla­ tion while  permitting identification (Heckman,  Hotz,  and Dabos  1987).  But  even  these  models  may  impose  testable  restrictions  on the  relationship between  treatment and  the outcome  history  2.  Similar tests are often used in nonexperimental analyses: Researchers con­ ducting propensity score matching studies frequently check for "balance" of covari­ ates conditional on the propensity score (Rosenbaum and Rubin 1984), and Imbens  and Lemieux (2008) recommend analogous tests for regression discontinuity ana­ lyses.  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  179  (Ashenfelter and  Card  1985; Card  and Sullivan  1988; Jacobson,  LaLonde, and Sullivan 1993).3  In  value  added  studies,  the  multiplicity  of  teacher  "treat­ ments" can blur  the connection  to program  evaluation methods.  But the utility of  past outcomes for  specification diagnostics car­ ries over  directly.  Identification of  a teacher's effect  rests on  as­ sumptions about the relationship between the teacher assignment  and  the  other  determinants  of  future  achievement,  and  the  re­ lationship with  past  achievement  can  be  informative  about  the  plausibility of these assumptions.  Only a few studies have attempted to validate VAMs.  Harris  and Sass  (2007) and  Jacob  and  Lefgren (2008)  show that  value  added  coefficients  are  weakly  but  significantly  correlated  with  principals'  ratings  of  teacher  performance.  Of  course,  if  princi­ pal  decisions  about  classroom  assignments  created  bias  in  the  VAMs,  causality could  run from  principal  opinions  to estimated  value added rather than the reverse. More relevant to the current  analysis,  Kane  and  Staiger  (2008)  demonstrate  that VAM  esti­ mates from  observational data  are approximately  unbiased pre­ dictors of teachers' effects when students are randomly assigned.  Although I examine  a question closely related to that considered  by Kane and Staiger,  my larger and more representative sample  permits  me  to  extend  their  analysis  in  two  ways.  First,  I  have  much more  statistical power.  This enables  me  to identify  biases  that are  substantively  important  but  that lie  well within  Kane  and Staiger's confidence intervals. Second,  my sample resembles  the sort  that would be  used for  any VAM  intended  as a teacher  compensation or retention tool. In particular, it includes teachers  specializing in  students (e.g.,  late readers)  who cannot  be  read­ ily identified  and excluded  from large­scale  analyses. The  likely  exclusion of such teachers from  Kane and Staiger's sample quite  plausibly  avoids  the  most  severe  biases  in  observational  VAM  estimates.4  3.  Of course, these sorts of tests cannot diagnose all model violations. If treat­ ment assignments depend  on  unobserved determinants  of future  outcomes that  are uncorrelated with the outcome history, the treatment effect estimator may be  biased even though treatment is uncorrelated with past outcomes.  4.  In the Kane and Staiger experiment, principals were given the name of one  teacher and asked to  identify a comparison  teacher such that it would be appro­ priate to randomly assign students within the pair. One imagines that principals  generally  chose  a  comparison  who  was  assigned  similar  students  as the  focal  teacher in  the preexperimental data. Moreover,  a substantial majority  of princi­ pals declined to  participate, perhaps  because the initial  teacher was a specialist  for whom no similar comparison could be found.  180  QUARTERLY JOURNAL OF ECONOMICS  III.  STATISTICAL MODEL AND  METHODS  This section develops the statistical framework for YAM anal­ ysis and introduces my tests.  I begin by  defining the parameters  of interest in Section III.A. In Section III.B, I introduce the  three  VAMs that I consider. Section III.C describes the exclusion restric­ tions that the YAM requires to permit identification of the causal  effects of  interest and  develops the  implications of  these restric­ tions for the relationship between the current teacher and lagged  outcome. Section III.D discusses the implementation of the tests.  III.A.  Defining the Problem  I take  the parameter  of interest in  value added  modeling to  be the effect on a student's test score at the end of grade g of being  assigned to a particular grade­^ classroom rather than to another  classroom at the  same school.  Later,  I  extend this  to look  at dy­ namic treatment effects (that is, the effect of the grade­g classroom  on  the g + s  score).  I  do not  distinguish  between  classroom  and  teacher effects,  and  use the  terms interchangably.  In the  Online  Appendix,  I  consider this  distinction,  defining a  teacher's  effect  as the time­invariant component  of the effects  of the classrooms  taught  by the  teacher over  several years.  The  basic conclusions  are unaffected by this redefinition.  I am interested in whether common VAMs identify classroom  effects with arbitrarily large samples. I  therefore sidestep small­ sample issues by considering the properties of YAM estimates as  the number  of students grows  with the number of teachers (and  classrooms) fixed.5  If classroom effects are identified under these  unrealistic  asymptotics,  VAMs  may  be  usable  in compensation  and retention policy with appropriate allowances for the sampling  errors that arise  with finite  class sizes;6  if not,  these corrections  are likely to go awry.  A final  important distinction is between  identification of the  variance of teacher quality and identification of individual teach­ ers'  effects.  I  focus  exclusively  on  the  latter.  It  is  impractical  5.  Under realistic asymptotics, the number of  classrooms should rise in  pro­ portion to the number of students. If so, classroom effects are not identified under  any exogeneity restrictions: Even in the asymptotic limit, the number of students  per teacher remains finite and the sampling error in an individual teacher's effect  remains nontrivial.  6.  A typical approach shrinks a teacher's estimated effect toward the popula­ tion mean in proportion to the degree of imprecision in the estimate. The resulting  empirical Bayes estimate  is the best linear  predictor of  the teacher's true effect,  given the noisy estimate. See McCaffrey et al. (2003, pp. 63­68).  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  181  to  report  each  of  several  thousand  teachers'  estimated  effects,  however.  I  therefore report only  the implied standard  deviations  (across  teachers)  of  teachers'  actual  and  counterfactual  effects,  along with tests of the hypothesis that the teacher effects are all  zero.7  III.B.  Data Generating Process and the Three VAMs  I  develop  the  three  VAMs  and  the  associated  tests  in  the  context  of  a  relatively  general  educational  production  function,  modeled on those used by Todd and Wolpin (2003) and Harris and  Sass (2006), that allows student achievement to depend on the full  history of inputs received to date plus the student's innate ability.  Separating classroom effects from other inputs, I assume that the  test score of student i at the end of grade g, Aig, can be written as  8  g  (1)  Aig  —  Ctg  ­J­ fihgc{i,h)  /t=l  l^iTg  +  sih4>hg  + vig­ A=1  Here,  phgc  is the effect  of being  in classroom c  in grade  h on the  grade­# test score, and c (i, h) <=  (1,..., Jh] indexes the  classroom  to which student i is assigned in grade h. m is individual ability.  We  might expect  the achievement  gap between high­ability  and  low­ability students to  grow over time;  this would  correspond to  tk  > %  >  0 for each k > g. £ih captures all other inputs in grade h,  including those received from the family, nonclassroom peers, and  the community. It might also include developmental factors: A pre­ cocious child might have positive es in early grades and negative  es in later  grades as her  classmates caught  up. As  this example  shows,  s  is quite likely  to be  serially correlated  within students  across grades.  Finally,  % represents  measurement  error  in the  grade­# test relative to the student's "true" grade­g achievement.  8  This is independent across grades within students.  A  convenient  restriction  on  the  time  pattern  of  classroom  ~g  for some  0 <  effects is  uniform  geometric  decay,  /?/^c  =  \ <  1 and all h hg).  It  will  be  useful  to  adopt  some  simplifying  notation.  Let  tyg  = XX:i tihfihg be  the composite grade­# residual achievement,  and let A  indicate first differences across student grades: A/?^ ~  = Tg  ­ rg„1, Aa)ig  = C0ig  ­ (Oig—t, and so on.  &hgc ­ Ph.g­u,  Tractable  VAMs  amount to  decompositions  of  Aig  (or,  more  ^_i) into the current teacher's  effect  —  Aig  ­  commonly, of  a student heterogeneity component, and an error assumed  Pggc(.i,g)> to be  orthogonal  to  the  classroom  assignment.  Models  differ in  the  form  of  this  decomposition.  In  this  paper  I  consider  three  specifications:  A  simple  regression  of  gain  scores  on  grade  and  contemporaneous classroom indicators,  c  VAM1:  A­Ajg  —  c  a regression of score levels (or, equivalently, of gains) on classroom  indicators and the lagged score,  VAM2.  Aig  —  otg  ­f­  Aig­iX  + figgc(i,g) "1~  &2igi  and a regression that stacks gain scores from several grades and  adds student fixed effects,  VAMS:  AAig = Ug + figged,g)  estg.  + Mi  +  All three are widely used.9  VAM2 and VAMS  can both be seen as  generalizations  of VAM1:  Constraining k  —  1 converts  VAM2  to  VAM1, whereas constraining /A*  S 0 converts VAMS.  ZZ/.C.  Exclusion Restrictions and Falsification Tests  Despite  their  similarity,  the  three  VAMs  rely  on  quite  dis­ tinct restrictions  on  the process  by  which students  are assigned  to classrooms. I discuss the three in turn.  9.  The most  widely used VAM,  the Tennessee Value Added Assessment Sys­ tem (TVAAS; see Sanders, Saxton, and Horn [1997]), is specified as a mixed model  for  level  scores  that  depend  on  the full  history of  classroom  assignments,  but  this model implies an equation for annual gain scores of  the form used in VAM1.  VAM2  is  more  widely  used  in  the  recent  economics  literature. See,  for  exam­ ple, Aaronson,  Barrow, and Sander  (2007); Goldhaber (2007); Jacob and Lefgren  (2008); and Kane, Rockoff, and Staiger (2008). VAM3 was proposed by Boardman  and Murnane (1979) and has been used  recently by Rivkin, Hanushek, and Kain  (2005); Harris and Sass (2006); Boyd et al. (2007); and Jacob and Lefgren (2008).  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  183  The  Gain  Score  Model  (VAM1).  First­differencing  the  pro­ duction function (1), we can write the grade­g gain score as  (2)  kcig  + Y2 Afihgcii.h) 4­ figgc(i,g}  + Mi Atg + AoJig  + AUjg.  h=l  A­Ajg  =  If we  assume that  teacher effects  do not  decay,  Afihgc = 0 for all  h < g. The error term eug from VAM1 then has three components:  Awj^r  ­f­  Avig.  ^lig  ^ Mi Ar VAMl will yield consistent estimates of the grade­g classroom  effects only if, for each c,  5  (3)  Eieug  c (i, g) —  c]  —  0.  The most natural  model  that is consistent with (3) is  for assign­ ments  to  depend  only  on  student  ability,  /x;?  and  for  ability  to  have the  same effect  on achievement in  grades g  and g —  1 (i.e.,  Axg  = 0). With these restrictions, VAMl  can be seen  as the first­ difference estimator for a fixed  effects model, with strict exogene­ ity of classroom assignments conditional on /z,. By contrast, (3) is  not likely to hold if c (i, g) depends, even in part, on <%_i, %~i, or  Ag­v  Differences in last year's gains across  this year's classrooms  are informative about the exclusion restriction. Using (2), the av­ erage g ~ 1 gain in classroom c is  (4)  E\_&A(g­.\   c(£,  g) —  c] —  ­f­  ^\.^g—\fg—\,c(i,g—Y) I  c(i,  g) —  c]  ­^Eleug­i  C(J,  g) = c].  The first  term  is  constant  across  c  and  can  be  neglected.  The  second term  might vary  with c  if (for  example) a  principal com­ pensated  for  a  bad  teacher  in  grade  g ­ 1 by  assignment  to  a  better­than­average  teacher  in  grade  g.  This  can  be  absorbed  by  examining  the  across­c (i, g)  variation  in  A^_i  controlling  10  for c(i,  g —  1).  I estimate specifications  of this form below. Any  10.  This is a  test of  the hypothesis  that students are randomly  assigned to  grade­g classrooms  conditional  on the  g — 1 classroom. This  test is  uninforma­ tive  unless there  is independent variation  in c {i, g ­ 1) and c (i, g). To take one  example, Nye, Konstantopoulos, and Hedges (2004) use data from the Tennessee  STAR class size  experiment to study  teacher effects.  In STAR, "streaming" was  quite common, and in many  schools there is zero independent  variation in third  grade  classroom  assignments controlling  for  second  grade assignments.  In this  case, identification  of teacher  effects rests  entirely on  the assumption  that past  teachers' effects do not decay.  184  QUARTERLY JOURNAL OF ECONOMICS  remaining variation across grade­g classrooms in g — 1 gains, af­ ter  controlling  for  g ­ 1 classroom  assignments,  must  indicate  that students are  sorted into grade­g  classrooms on  the basis of  eiig­i­ Sorting on eug­i would not necessarily violate (3) if eug were  not serially correlated.  But the  definition of  eug  above indicates  four sources of potential serial correlation. First, ability jit  appears  in  both  eug  and  eug­i  (unless  At,, = 0). Second,  the  £ig  process  may be  serially correlated.  Third, even  if  s  is white  noise,  A&); g  is a moving average of  order g ­ 1 (absent strong restrictions on  is an  MAd), degenerate  only if  the (j)  coefficients). Finally,  var(u) = 0.11  Thus,  (3)  is  not likely  to hold  if  E[eiig­i \ c(i, g)] is  nonzero.  The Lagged  Score Model  (VAM2).  VAM2 frees up the coeffi­ cient on  the lagged test score. If  teacher effects  decay geometri­ cally  at uniform  rate 1 —  X,  the grade­g  score can  be written in  terms of the g ­ 1 score,  (5)  Aig  = &g + Aig­iX ­f figged,g)  + 62^,  where ag  — oLg­ ag­ik. This can  equivalently  be  expressed as  a  model for the grade­g gain, by subtracting Ag­i from each side of  (5). In either case, the error is  (6)  g­i  e2ig  —  Mi  ( %   %—X^­}  'y ^ £ih {fPhg  ^ig "I"  (Vig  h=l  As before, each of the terms in (6) is likely to be serially correlated.  The exclusion restriction for VAM2 is that ezig is uncorrelated  with c (i, g) conditional on  Ag­i­ This  would  hold if  c (i, g) were  randomly assigned conditional on Aig­1. It is unlikely to hold if as­ signments depend on e2ig­i or on any of its components (including  /Mi).12  As with the VAM1,1 test the VAM2 exclusion restriction by  11.  In Rothstein (2008), I conclude that  Avig  accounts for as much as 80% of  the variance of AAig.  12.  Alternatively, if rg  ~ rg­_iA  is constant across g, (5) can be seen as a fixed  effects model with a lagged dependent variable. A  and  fiss  can be identified via IV  or GMM (instrumenting for AAig­i in a model for AAig) ifc (i, g) depends on /z; but  is strictly exogenous conditional on this (Anderson and Hsiao 1981; Arellano and  Bond 1991). See, for example, Koedel  and Betts (2007). Value  added researchers  typically apply  OLS  to (5).  This  is inconsistent  for  k  and  identifies fig8c  only  if  c (i, g) is random conditional on A'g­i­ TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  185  reestiraating the model with theg~ 1 gain as the dependent vari­ able. By rearranging the lag of (5), we can write the g — 1 gain as  (7)  AAig­ i   ~  X"1 (ag  + A g ­ i  (X ­ X) +  P g ­ i , g ~ i , c (i4­ i )  +  2ig~ i )    e Thus,  the  grade­#  classroom  assignment  will  have  predictive  power  for  the  gain  in  grade  g ­ 1,  controlling  for  the  g ­ 1  achievement  level,  if  grade­g  classrooms  are  correlated  either  or  with  with  the  g­ 1 teacher's  effect  (i.e.,  with  13  for  olling  led out by contr  former can be ru As in VAM1, the e2ig­i­ g ~ 1 classroom assignments; the latter would indicate a violation  of the VAM2 exclusion restriction if 62 is serially correlated.  The Fixed Effects in Gains Model (VAM3).  For the final YAM,  we  return  to equation (2)  and to  the earlier  assumption  of  zero  decay of teachers' effects.14 The student fixed effects used in VAM3  absorb any  variation  in  IM  (assuming that  Atg­  = 1 for  each  g).  4­ At^.  Thus, the VAM3 error term is eztg =  The reliance on fixed effects, combined with the small time di­ mension of student data sets, means that VAM3 requires stronger  assumptions than the earlier models. To avoid bias in the teacher  even in large samples, teacher assignments must  be  effects  strictly exogenous  conditional on  /i;:  E\ezih I  c(i, g)] = 0 for  all g  and all h (Wooldridge 2002, p. 253).15  Conditional strict exogene­ ity means that the same information, /x;  or some function of it, is  used to make  teacher assignments in  each grade. This requires,  in effect, that principals decide on classroom assignments for the  remainder  of  a  child's career  before she  starts kindergarten.  If  teacher  assignments  are  updated  each  year  in  response  to  the  student's performance during the previous year, strict exogeneity  is violated.  figgc,  13. The  test can alternatively  be expressed in terms  of a  model for the score  level in g —  2. (Simply rearrange terms in (7).) The VAM2 exclusion restriction of  will be rejected if the grade­,? classroom  random assignment conditional on  predicts As­2 conditional on  14.  Although VAM1 and VAM2 can easily be generalized to allow for nonuni­ form decay, VAM3 cannot.  15.  For  practical value  added implementations, it is rare to have  more than  three or  four student  grades, so  asymptotics  based on  the g  dimension  are in­ feasible. One  approach  if strict  exogeneity does  not hold  is to  focus  on  the first  difference  of (2).  OLS estimation  of  the first­differenced  equation  requires that  be  uncorrelated  with esjg­i,  e&g,  and e^ig+ i ­   Though  this is  weaker  than  strict exogeneity, it is difficult to imagine an assignment  process that would sat­ isfy  one  but  not  the other.  If  the OLS  requirements are  not satisfied,  the only  option is IV/GMM (see note 12), instrumenting for both the g and g ­ 1 classroom  assignments. Satisfactory instruments are not apparent.  186  QUARTERLY JOURNAL OF ECONOMICS  As before, my test is based on analyses of the apparent effects  of  grade g  teachers  on  gains  in  prior  grades.  Consider  estima­ tion of YAM 1, without the student fixed effects that are added in  VAM3. If teacher assignments depend on ability, this will bias the  YAM  coefficients and  will lead  me  to reject  the VAM1 exclusion  restriction. But the conditional strict exogeneity assumption im­ poses restrictions on  the coefficients from the VAM1 falsification  test. Under  this assumption,  the only source  of  bias in VAM1 is  the omission of controls for /Xj. As /i; enters into every grade's gain  equation, grade­g teachers should have the same apparent effects  on g ­ 2 gains as they do on g ­ 1 gains. An indication that these  differ would  indicate that  omitted time­varying  determinants of  gains are correlated with teacher assignments, and therefore that  assignments are not strictly exogenous.  Following  Chamberlain  (1984),  consider  a  projection  of  /x  onto  the  full  sequence  of  classroom  assignments  in  grades  1  through G:  (8)  + %Gc(i,G) + Vi­ Mi  = £lc(U> H  She is the incremental information about /x; provided by the knowl­ edge that the student was in classroom c in grade h, conditional on  classroom  assignments in all other  grades. Substituting (8) into  (2), we obtain  G  (9)  ^2  h€c{iM  + m  + 63^,  AAig  =  Aag +  n k=i  Under con­ for h  and TT ­f  where rr ggc  each   c(i, G)] = 0 for  E{ezih I c(i, 1), ..., exogeneity,  strict  ditional  rn  is  that  s  projection ensure linear  is a  that (8)  h,  and  the fact  of  OLS regression  An  as well.  the regressors  with  uncorrected  h G  grades 1 throug indicators in  classroom  gains onto  grade­g  thus estimates the 7%e coefficients without bias. When G >  3, the  underlying parameters are overidentified. To see this, note that  —  %gc&*g  (10)  Pggc  /igc  —  ^hc^xg  Kkgc = %he&h = £/icATg_ i   &T g   Aig^i  —  Kh.g­l.c  g.  AT g   AXg .i  for  all h > g: The  coefficient for  grade­/i classroom  c  in  a  model  of  gains in  grade  g  is  proportional  to  the  same  coefficient  in  a  model  of  gains  in  g ­ 1.  If  there  are  Jh  gr&de­h  classrooms  in  the sample, this represents Jh  — 1 overidentifying restrictions on  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  the 2Jh elements of the vectors 11/^  = {TT^I ...        ^ h . g ­ 187  and Uhg­i =  tJh} i6  To test these restrictions, I estimate the the Jk­vector  the scalars Ati and Arg  that minimize  and  (11)  D =  fthg­i  S^AT^AV  1  W"" Z k Ar g   J J  Hhg­i  £,ftAtg_i  ShAtg  as W. Under the null  using the sampling variance of (fl;^  hypothesis  of  strict  exogeneity,  the  minimized  value  D  is  dis­ tributed  x2  with  Jh —  1 degrees of  freedom.17  If  D  is above  the  95% critical value from this distribution,  the null is rejected. In­ tuitively, the correlation  between corresponding elements of  the  coefficient vectors n^_i and Tlhg,  representing apparent "effects"  of grade­/i teachers on gains in grades g —  1 and gig  3,  there are many such  pairs of  vectors that must  be propor­ tional. Even when G = 3, there are additional overidentifying restrictions created  by similar proportionality relationships for teachers' effects on future gains. These  restrictions might fail either because strict exogeneity is violated or because teach­ ers' effects decay (that is, fihh ^ fihg  forsome^ > A). I therefore focus on restrictions  on the coefficients for teachers' effects on past gains, as these provide sharper tests  of strict exogeneity.  17.  Although there are Jh + 2 unknown parameters, they are underidentified:  by a  constant and dividing  Arg_i and  Ar^ by  the same constant  Multiplying  does not change the fit.  18. This makes W singular in (11). For the OMD analysis of VAM3,1 drop the  elements of n^k  that correspond to the largest class at each school.  188  QUARTERLY JOURNAL OF ECONOMICS  classrooms within schools. They resemble tests of successful ran­ domization in stratified experiments, treating schools as strata.  Intuitively, I will reject random assignment if replacing a set  of school indicators with grade­g grade classroom indicators adds  more explanatory power for g —  1 gains than would be expected by  chance alone. Let Sg  and Tg  be matrices of indicators for grade­^  schools and classrooms. These are collinear, so to eliminate this I  define  fg  as the submatrix of  Tg  that results from excluding the  columns  corresponding  to  one  classroom  per  school. The  VAM1  test is based on a simple regression:  (12)  = oc  ­j­ Sg8 + Tgfi + e.  The identifying  assumption  of  VAM1 is  rejected  if  ^ 0. I  use  a heteroscedasticity­robust score test (Wooldridge  2002, p. 60) to  evaluate this. I also estimate versions of (12) that include controls  for grade­(g ­ 1) classroom assignments.  To test VAM2,  I simply  add a control for Ag on the right­hand side of (12).  It is  clear  from  the  definition  of  fg  that only  schools  with  multiple classrooms per grade can contribute to the analysis. One  might be concerned that schools with only two or three classrooms  will be  misleading, as even with  random assignment of students  to classrooms there will be substantial overlap in the composition  of  a student's  grade­g and  grade­(g­ — 1)  classrooms. The  Online  Appendix presents a Monte Carlo analysis of the VAM1 and VAM2  tests in schools of  varying sizes. The VAM1 test has appropriate  size even with just two classrooms per school, so long as the num­ ber  of  students  per  classroom  is  large.  (Recall  that  I  focus  on  large­class asymptotics.) With small  classes, the asymptotic  dis­ tribution of  the test statistic is an imperfect approximation,  and  as a  result the test  over­rejects slightly.  When there  are twenty  students per  class, the test  of VAM1 has  size around 10%.  With  empirically reasonable parameter values, the VAM2 test performs  similarly.19,20  ­i  19.  When students are assigned to classrooms based on the lagged score and  when this score incorporates implausibly high degrees of clustering at the fourth  grade classrom level, the VAM2 test rejects at high rates even with large classes.  This  reflects  my  use  of  a  test  that  assumes  independence  of  residuals  within  schools.  Unfortunately,  it is  not  possible  to  allow for  dependence,  as clustered  variance­covariance matrices are consistent only if  the number of  clusters grows  with  the  number  of  parameters fixed  (Kezdi  2004)  and in  my  application,  the  number of parameters grows with the number of clusters.  20.  Kinsler (2008) claims that the VAM3 test also overrejects in simulations.  In  personal communication,  he reports  that the  problem  disappears  with large  classes.  TEACHER QUALITY IN  EDUCATIONAL PRODUCTION  189  I also report the standard deviation of the teacher coefficients  (the 08  in (12))  themselves.  The standard  deviation  of  the esti­ mated coefficients necessarily exceeds that of the true coefficients  (those that would be identified with large samples of students per  teacher, even if these are biased estimates of teachers' true causal  effects). Aaronson,  Barrow, and  Sander (2007)  propose a simple  estimator for the variance of the true coefficients across teachers.  Let fS  be a mean­zero vector of true projection coefficients and let $  be an unbiased finite­sample  estimate of p, with E[p'0 —  /?)] = 0.  The variance (across elements) of /?  can be written as  Etf'fi] =  E i p ' p ]  ­ E[0 ­ m?  P)l  (13)  ­  E l f i ' p ]   is simply  the  variance  across  teachers  of  the  coefficient  estimates.21  E[0 ­ /?)'(£ ­ fi)] is the  average heteroscedasticity­ robust sampling variance, I weight each by the number of students  taught.  Specifications  that include  indicators  for  classroom  assign­ ments in several grades simultaneously—such as that used for the  test of VAM3—introduce two complications. First, the coefficients  for teachers in different grades can  only  be separately identified  when there is sufficient shuffling of students between classrooms.  If students  are perfectly  streamed—if  a student's classmates in  third grade  are also  his or  her classmates  in fourth  grade—the  third  and fourth  grade classroom  indicators  are collinear.  I  ex­ clude from my samples a few schools where inadequate shuffling  leads to  perfect  collinearity. Second,  these  regressions are  diffi­ cult to compute, due to the presence of several overlapping sets of  fixed effects. As discussed in the Online Appendix, this difficulty is  avoided by restricting the samples to students who do not switch  schools  during the  grades for  which classroom  assignments  are  controlled.  IV:  DATA AND  SAMPLE CONSTRUCTION  The  specifications  described  in  Section  III  require  lon­ gitudinal  data  that  track  students'  outcomes  across  several  grades,  linked  to  classroom  assignments  in  each  grade.  I  use  administrative  data  on  elementary students  in  North  Carolina  public schools, assembled and  distributed by  the North Carolina  p  21.  is normalized to have mean zero across teachers at the same school, and  its variance is adjusted for the degrees of freedom that this consumes.  190  QUARTERLY JOURNAL OF ECONOMICS  Education Research Data  Center. These data have been used  for  several previous value added analyses (see, e.g., Clotfelter, Ladd,  and Vigdor [2006]; Goldhaber [2007]).  I examine end­of­grade  math and  reading tests from  grades  3 through  5,  plus "pretests"  from  the  beginning  of  third  grade  (which I treat as second grade tests). I standardize the scale scores  separately for each subject­grade­year combination. 22  The North Carolina data identify the school staff member who  administered  the  end­of­grade  tests.  In  the elementary  grades,  this was  usually the  regular teacher.  Following Clotfelter, Ladd,  and Vigdor  (2006),  I  count  a student­teacher  match as  valid  if  the test  administrator taught  a "self­contained" (i.e., all day,  all  subject) class  for the  relevant grade in the  relevant year, if  that  class  was  not  designated  as special  education  or  honors,  and  if  at least  half of  the tests  that the  teacher administered  were to  students in the  correct grade.  Using this  definition, 73%  of fifth  graders  can  be  matched  to  teachers.  In  each  of  my  analyses,  I  restrict the sample to students with valid teacher matches in all  grades for which teacher assignments are controlled.  I focus on  the cohort of  students who  were in fifth  grade in  2000­2001. Beginning with the population (N = 99,071), I exclude  students who have inconsistent longitudinal records (e.g., gender  changes between  years); who  were  not in  fourth grade in 1999­ 2000;  who are  missing fourth  or fifth  grade test  scores; or  who  cannot be matched to a fifth grade teacher. I additionally exclude  fifth  grade classrooms that contain fewer than twelve sample stu­ dents or are the only included classroom at the school. This leaves  my  base  sample,  consisting of  60,740 students  from  3,040 fifth  grade classrooms and 868 schools.  My analyses all use subsets of  this sample that provide suf­ ficient  longitudinal  data. In  analyses of  fourth grade  gains, for  example, I exclude students who have missing third grade scores  or  who  were  not  in  third  grade  in 1998­1999.  In  specifications  that include identifiers for  teachers in multiple grades, I further  exclude students who changed schools between grades, plus a few  schools where streaming produces perfect collinearity.  Table I presents summary statistics. I show statistics for the  population, for the base sample, and for my most restricted sample  22.  The original score scale is meant to ensure that one point corresponds to  an equal amount of learning at each grade and at each point in the within­grade  distribution. Rothstein (2008) and Ballou (2009) emphasize the importance of this  property for value added modeling. All of  the results here are robust to using the  original scale.  # of students  # of schools  1 fifth grade teacher  2 fifth grade teachers  3­5 fifth grade teachers  >5 fifth  grade teachers  # of fifth  grade classrooms  # of fifth grade classrooms w/valid teacher match  Female (%)  Black (%)  Other nonwhite (%)  Consistent student record (%)  Complete test score record, G4~­5 (%)  G3~5(%)  G2­5 (%)  Changed schools between G3 and G5 (%)  V a l i d   t ea c h e r  a s s i g n m e n t  i n  g r a d e  3  ( % )   grade 4 (%)  grade 5 (%)  Ft. of students in G5 class in same G4 class  Fr. of students in G5 class in same G3 class  TABLE I  0.15  0.22  72  30  68  70  72  88  81  776  203  4,876  3,315  49  29  8  99  122  168  [0.19]  [0.15]  0.15  0.22  100  99  91  80  27  78  86  100  7  28  59  3,040  3,040  50  602  207  0  868  60,740  [0.17]  [0,13]  0.28  0.30  100  100  100  [0.18]  O  CD  (­i  h  O  3  <5  fc  *  So  O  o  O  3  pq  t)  c:  n  3  §  S  0  [0.19]  ft  >3  <©  6  100  100  100  100  440  36  2,116  2,116  51  23  0  122  23,415  598  (6)  (5)  (4)  (3)  (2)  (1)  99,071  1,269  ts  O  SD  Mean  SD  Mean  Most restricted sample  SD  Base sample  Mean  Population  SUMMARY STATISTICS  [1.00]  [0.70]  [0.58]  [0.55]  [0.98]  [0.95]  [0.98]  0.00  ­0.02  ­0.02  ­0.01  0.00  0.01  ­0.02  0.04  0.08  0.08  ­0.01  [0.76]  [0.59]  [0.59]  [1.00]  0.14  [0.97]  [0.94]  [0.97]  0.09  0.04  0.00  0.00  ­0.02  0.07  0.07  0.11  0.12  0.01  ­0.02  ­0.01  0.07  0.09  0.11  (3)  (2)  0.11  Mean  SD  (1)  (0.96]  [0.94]  10.97]  [0.98]  [0.69]  [0.58]  [0.55]  [0.98]  [0.94]  [0.97]  [0.97]  [0.75]  [0.59]  [0.58]  (4)  SD  Base sample  Mean  Population  ­0.02  0.00  0.01  0.17  0.18  0.17  0.19  ­0.01  0.01  0.00  0.20  0.20  0.19  0.20  (5)  Mean  [0.96]  [0.91]  [0.93]  [0.94]  [0.69]  [0.56]  [0.53]  [0.98]  [0.91]  [0.93]  [0.94]  [0.751  [0.57]  [0.57]  (6)  SD  Most restricted sample  Notes. Summary statistics are ccraputed over all available observations. Test scores are standardized using all  third graders in 1999, fourth graders in 2000, and fifth graders  in 2001, regardless of grade progress. "Population" in columns (1) and (2) is students enrolled in fifth grade in 2001, merged with third and fourth grade records (if present) for the  same students in 1999 and 2000, respectively. Columns (3) and (4) describe the base sample discussed in the text; it excludes students with missing fourth and fifth grade test scores,  students without valid fifth grade teacher matches, fifth grade classes with fewer than twelve sample students, and schools with only one fifth grade class. Columns (5) and (6) further  restrict the sample to students with nonmissmg scores in grades 3­5 (plus the third grade begiiming­of­year tests) and valid teacher assignments in each  grade, at schools with  multiple classes in each school in each grade and without perfect ceflinearity of dassrooin assignments in different grades.  Third grade {beginning of year)  Third grade (end of year)  Fourth grade (end of year)  Fifth grade (end of year)  Third grade gain  Fourth grade gain  Fifth grade gain  Reading scores Third grade (beginning of year)  Third grade (end of year)  Fourth grade (end of year)  Fifth grade (end of year)  Third grade gain  Fourth grade gain  Fifth grade gain  Math scores  TABLE I  (CONTINUED)  t—'  05  §  &  0  £  ©  *5  fcq  O  O  b  O  q  &  £  ti  in  ^  tq  £  S  O  to  CO  TEACHER QUALITY IN EDUCATIONAL  PRODUCTION  193  (used for estimation of equation (9)). The last is much smaller than  the others,  largely because  I require  students  to have attended  the same school in grades 3 through 5 and to  have valid teacher  matches in each grade. Table I indicates that the restricted sample  has higher mean fifth grade scores than the full population. This  primarily reflects the lower scores of students who switch schools  frequently.23 Average fifth grade gains are similar across samples.  The Online Appendix describes each sample in more detail.  As discussed  above, my  tests can  be applied  only if  there is  sufficient reshuffling  of  classrooms between  grades. Table A2  in  the Online  Appendix shows  the fraction  of  students' fifth  grade  classmates who were also in the same fourth grade classes, by the  number of fourth grade classes at the school. Complete reshuffling  (combined  with equal­sized  classes) would  produce 0.5 with two  classes, 0.33 with three, and so on. The actual fractions are larger  than  this,  but  only  slightly.  In  schools  with  exactly  three fifth  grade  teachers,  for  example, 35%  of  students' fifth  grade  class­ mates were  also their  classmates in  fourth grade.  In only  7% of  multiple­classroom schools do the fourth and fifth grade classroom  indicators have deficient rank.  Table  II  presents  the  correlation  of  test  scores  and  gains  across grades  and  subjects. The  table indicates  that fifth  grade  scores are correlated above .8 with fourth grade scores in the same  subject, whereas correlations with scores in earlier grades or other  subjects are somewhat lower. Fifth grade gains are strongly neg­ atively correlated with fourth grade levels and gains in the same  subject and weakly  negatively correlated with those in the other  subject. The correlations between fifth  and third grade gains are  small but significant both within and across subjects.  VAM3 is predicated  on the  notion that student  ability is an  important component of annual gains. Assuming that high­ability  students  gain  faster, this would  imply  positive  correlations  be­ tween  gains in  different years.  There is  no indication  of  this in  Table  II.  One  potential explanation  is that  noise  in  the annual  tests introduces negative autocorrelation in gains, but I conclude  elsewhere  (Rothstein  2008)  that even  true gains  are negatively  23.  Table  I shows  that average  third and fourth  grade scores in  the "popu­ lation" are well above zero. The  norming sample that I use to standardize scores  in each  grade consists of  all students in that  grade in  the relevant year  (i.e., of  all third graders in 1999), whereas only those who make normal progress to fifth  grade in 2001 are included in the sample for  columns (1) and (2). The low scores  of students who repeat grades account for the discrepancy.  QUARTERLY JOURNAL OF ECONOMICS  194  TABLE II  CORRELATIONS OF TEST SCORES AND SCORE GAINS  ACROSS GRADES  Correlations  Summary statistics  Fifth grade score  Fifth grade gain  Mean  (1)  Math scores  G5  G4  G3  G3 pretest  Reading scores  G5  G4  G3  G3 pretest  Math gains  G4­G5  G3­G4  G2­G3  Reading gains  G4­G5  G3­G4  G2­G3  SD  (2)  Math  Reading  Math  Reading  (3)  (4)  (5)  .78  .73  .70  .64  .29  ­.27  ­.07  ­.03  .03  70,740  61,535  57,382  50,661  .31  .29  .05  .05  70,078  61,535  57,344  50,629  ­.41  .25  .07  .02  .01  61,349  56,171  50,615  .31  .25  .10  .08  .01  1  .41  .02  60,987  56,159  50,558  0.02  1.00  1  0.07  0.09  0.08  0.97  0.95  0.97  .84  0.01  0.06  1.00  .78  .73  .70  .59  1  .10  0.97  0.95  0.99  .82  .05  .78  .65  .01  .00  .29  .10  1  0.02  0.55  0.58  0.70  .11  .08  .07  .05  0.00  0.02  0.02  0.58  0.59  0.75  .08  .08  .09  .10  0.09  0.08  0.01  ­0.01  .80  .71  (6)  N  (7)  ­.02  .00  .08  Notes. Each  statistic is  calculated  using the  maximal  possible  sample  of  valid  student records  with  observations on all necessary scores and normal grade progress between the relevant grades. Column (7) lists  the sample size for each row variable; correlations use smaller samples for which the column variable is also  available. Italicized correlations are not different from zero at the 5% level.  autocorrelated. This strongly suggests that VAM3 is poorly suited  to the test score data generating process.  V.  RESULTS  Tables  III,  IV,  and  V  present  results  for  the  three  VAMs  in  turn.  I  begin  with  VAM1,  in  Table  III.  I  regress fifth  grade  math  and  reading  gains  (in  columns  (1)  and  (2),  respectively)  on  indicators  for  fifth  grade  schools  and  classrooms,  excluding  one classroom  per school. In  each case, the hypothesis that all of  the classroom coefficients are zero (i.e., that classroom indicators  have no explanatory power  beyond that  provided by school indi­ cators) is decisively rejected. The VAM indicates that the within­ school standard deviations of fifth grade teachers' effects on math  and reading are 0.15 and 0.11, respectively. This is similar to what  55,142  3,038  868  .086  55,142  3,038  868  .132  55,142  3,038  868  .100  55,142  3,038  868  .195  .148  Adjusted .K2  40,661  2,761  783  .297  .203  .066  40,661  2,761  783  .176  y  ft  ft  40,661  2,761  783  .254  .154  y  <.001  40,661  2,761  783  .174  .064  y  <.001  Ss  0.193  0.140  0.220  0.182  CO  Ol  O  5S  3  O  <5  p  fc  9  £  o  <5  ri  §  £  ^  S  S3  O  &  0.105  <.001  0.168  (8)  0.151  0.090  .035  (7)  Reading  Fourth grade gain  Math  Nates. Dependent variables are as indicateii at the top of each column. Regressions include school indicators, fifth grade teacher indicators, and (in columns (5M8)) fourth gra4e  teacher indicators, with one teacher per school per grade excluded, p­values are for test of the hypothesis that atl teacher coefficients equal zero, using the heteroscedasUcity­robast  score test proposed by Wooldridge (2002, p. 60). Standard deviations are of teacher coefficients, normalized to have mean zero at each school and weighted by the nomber of students  taught. Adjusted standard deviations are computed as described in Online Appendix B2. Sample for columns (l)­<4) includes students from the base sample (see text) with nonmissing  scores in each subject in grades 3­5. Columns (SMS) exclude students without valid fourth grade teacher matches and those who switched schools between fourth and fifth grade.  .033  n  n  a  n  .081  <001  <.001  .047  0.125  0.150  ft2  0.181  0.188  y  <.001  <.001  .002  .016  <.001  <001  0.126  0.181  0.197  0.163  (6)  0.142  0.084  (5)  0.134  0.077  0.160  (4)  0.113  (3)  Reading  Fifth grade gain  Math  0.179  0.149  (2)  (1)  Reading  Fourth grade gain  Math  Teacher coefficients  Fifth grade teachers  Unadjusted SD  Adjusted SD  p­value  Fourth grade teachers  Unadjusted SD  Adjusted SD  p­value  Exclude invalid fourth  grade teacher  assignments & fifth  grade movers?  # of students  # of fifth grade teachers  # of schools  Reading  Math  Fifth grade gain  TABLE III  EVALUATION OF VAM1: REGRESSION OF GAIN  SCORES ON TEACHER INDICATORS  .206  868  55,142  3,038  55,142  3,038  .249  0.239  (0.004)  ­0.383  (0.004)  n  ­0.317  (0.004)  0.195  (0.004)  n  868  <.001  <.001  .313  .273  0.150  0.109  0.176  0.150  y  40,661  2,761  783  .385  .302  55,142  3,038  868  .237  .193  55,142  3,038  868  .274  .231  (0.004)  n  ­0.218  40,661  2,761  783  .315  .224  y  .268  40,661  2,761  783  .354  y  (0.005)  ­0.206  40,661  2,761  783  .307  .215  y  ­0.229  (0.005)  0.379  (0.005)  0.332  (0.005)  0.255  (0.005)  ­0.387  (0.005)  ­0.292  (0.004)  0.189  (0.004)  0.126  <.001  0.142  0.162  <.001  0.175  0.182  <.001  0.109  .001  .162  0.121  <.001  0.150  0.091  0.138  0.079  0.169  0.160  0.121  <.001  0.161  <.001  0.191  ­0.213  (0.004)  0.380  (0.004)  n  0.129  0.076  .007  (8)  (7)  (6)  (5)  0.368  (0.004)  0.067  .040  0.120  (4)  (3)  (2)  (1)  Reading  Math  Reading  Fourth grade gain  Math  Fifth grade gain  scores, fifth grade teacher indicators,  Notes. Dependent variables are as indicated at the top of each column. Regressions include school indicators, fourth grade math and reading  teacher coefficients equal zero,  and (in columns (SMS)) fourth grade teacher indicators, with one teacher per school per grade excluded, p­values are for test of the hypothesis that all  zero at each school and  using the heteroscedastidty­robust score test proposed by Wooldridge (2002, p. 60). Standard deviations are of teacher coefficients, normalized to have mean  able III.  orrespond to those in T c ppendix B2. Samples  weighted by the number of students taught. Adjusted standard deviations are computed as described in Online A Exclude invalid fourth grade  teacher assignments &  fifth grade movers?  # of students  # of fifth grade teachers  # of schools  R2  Adjusted R2  Fourth grade reading score  Teacher coefficients  Fifth grade teachers  Unadjusted SD  Adjusted SD  p­value  Fourth grade teachers  Unadjusted SD  Adjusted SD  p­value  Continuous controls  Fourth grade math score  Reading  Math  Reading  Fourth grade gain  Math  Fifth grade gain  TABLE IV  EVALUATION OF VAM2: REGRESSIONS WITH CONTROLS FOR  LAGGED SCORE LEVELS  5  O  02  o  O  0  £  ©  £  S3  o  c  S3  M  fe  H  sa  £  <©  C75  to  (3)  (2)  (1)  0.103  .284  .092  24  .08  .06  (6)  Corr((4),(5))  Notes. N  = 25,974. Students who switched schools between third and fifth  grade, who are missing test scores in third or fourth grade (or on the third grade beginmng­of­year  teste), or who lack valid teacher assignments in  any of grades 3­5 are  excluded. Schools with only one included teacher  per grade or where teacher indicators are collinear across  grades are also excluded. "Unrestricted model" reports  estimates from a specification  with school indicators and indicators for classrooms  in grades 3, 4, and  5. Restricted model  reports optimal minimum distance estimates obtained from the coefficients from the unrestricted models for third and fourth grade gains, excluding the largest class in each grade in  each school. Restriction is that the fourth grade effects are a scalar multiple of the third grade effects. The weighting matrix is the inverse of the robust sampling variance­covariance  matrix for the unrestricted estimates, allowing for cross­grade covariances.  <.001  2,174  1,684  1.17  (5)  (4)  0.123  0.163  0.145  Fourth grade  Reading  Third grade  Unrestricted model  Standard deviation of teacher efifects, adjusted  0.144  0.135  .04  Fifth grade teacher  0.099  0.160  0.136  .07  Fourth grade teacher  0.193  0.183  Third grade teacher  0.166  0.228  ­.36  Fit statistics  .245  .314  .376  R2  Adjusted R2  .042  .129  .209  Restricted model (optimal minimum distance)  Ratio, effect on G4/effect on G3  0.14  SD of G5 teacher effects  0.018  0.088  0.126  Objective function  2,136  95% critical value  1,684  <.001  p­value  Corr((l),(2))  Fourth grade  Third grade  Math  TABLEV  CORRELATED RANDOM EFFECTS EVALUATION OF VAM3: GAIN SCOKB SPECIFICATION WITH STUDENT FIXED EFFECTS  ­J  C£>  M  *  O  3  C5  O  <3  O  ft!  ro  85  O  3  5  O  D  55  5  S  £  <©  S3  U*  ^  as  IS)  to  198  QUARTERLY JOURNAL OF ECONOMICS  has  been  found  in  other  studies  (e.g.,  Aaronson,  Barrow,  and  Sander [2007]; Rivkin, Hanushek, and Kain [2005]).  Columns (3) and (4) present falsification tests in which fourth  grade gains are substituted for the fifth grade gains as dependent  variables, with the specification otherwise  unchanged. The stan­ dard  deviation  of fifth  grade  teachers' "effects" on  fourth grade  gains is 0.08 in each subject, and the hypothesis of zero association  is rejected in each specification.24  In both the standard deviation  and statistical  significance senses, fifth  grade classroom  assign­ ments  are slightly  more  strongly  associated  with  fourth  grade  reading gains than with math gains.  One potential explanation for  these counterfactual effects is  that they represent omitted variables bias deriving from my fail­ ure to control for fourth grade teachers. Columns (5)~(8)  present  estimates that do control for fourth grade classroom assignments,  using a sample of students who attended the same school in fourth  and fifth grades and can be matched to teachers in each grade. Two  aspects of the results are of interest. First, fourth grade teachers  have  strong independent  predictive  power  for fifth  grade  gains.  This is at least suggestive that the "zero decay" assumption is vi­ olated. I return to this in Section VII. Second, the coefficients on  fifth  grade classroom indicators in  models for fourth grade gains  remain  quite  variable—even  more  so  than  in  the sparse  speci­ fications  in  columns (3)  and (4)—and  are  significantly different  from zero. Evidently, the correlation between fifth  grade teachers  and fourth  grade gains derives  from sorting  on  the basis  of  the  fourth grade residual, not merely from between­grade correlation  of teacher assignments.  These results strongly suggest that the exclusion restrictions  for VAM1 are violated. To demonstrate this conclusively, however,  we need  to show  that the  residual in VAM1, eug, is serially cor­ related. To  examine  this,  I  reestimated  VAM1 for  fourth  grade  teachers' effects on  fourth grade gains.  The correlation  between  eii4 and ens is ­.38 in math and ­.37 in reading.  The  negative  serial  correlation  of  ei  implies  that  students  with  high  gains  in  fourth  grade  will  tend  to  have  low  gains  in  fifth  grade,  and  vice  versa.  Because  VAM1  evidently  does  not  24.  The table shows analytic  p­valnes based on  the F  distribution. As noted  earlier, simulations  suggest  that  my  tests over­reject  slightly.  When  I  use  the  empirical  distribution of  test statistics  from  an appropriately  calibrated  Monte  Carlo simulation (discussed in the Online Appendix) to construct p­values, these  are .031 and .004, respectively.  TEACHER QUALITY IN EDUCATIONAL PRODUCTION  199  adequately  control  the  determinants of  classroom  assignments,  it gives  unearned  credit  to teachers  who  are  assigned  students  who did poorly in fourth grade, as these students will predictably  post  unusually  high fifth  grade  gains  when  they  revert  toward  their long­run means. Similarly, teachers whose students did un­ usually  well  in  fourth  grade  will  be  penalized  by  the students'  fall back  toward their long­run  means in fifth  grade. Indeed, an  examination of  the VAM1  coefficients indicates  that fifth  grade  teachers whose  students have  above average  fourth grade gains  have systematically  lower  estimated value  added than teachers  whose  students  underperformed  in  the  prior  year.  Importantly,  this pattern is stronger than can  be explained by sampling error  in the  estimated  teacher effects; it  reflects true  mean  reversion  and not merely measurement error.  Table  IV  repeats  the  falsification  exercise  for  VAM2.  The  structure is  identical  to  that  of  Table  III.  Columns  (1)  and  (2)  present estimates of the basic YAM for fifth grade teachers' effects  on fifth grade gains, controlling for fourth grade math and reading  scores. The standard deviations of fifth grade teachers' effects are  nearly identical to those in Table III. Columns (3) and (4) substi­ tute fourth  grade  gains as the dependent  variable.  Once  again,  we see that fifth  grade teachers are  strongly predictive,  more so  in  reading than  in  math.25  Columns (5)­(8)  augment the  speci­ fication  with  controls  for  fourth grade  teachers. The fifth  grade  teacher coefficients are no longer jointly significant in the fourth  grade math gain specification, though they remain quite large in  magnitude. They are still highly significant in the specification for  fourth grade reading gains.  The VAM2 residuals, like those from VAM1, are nontrivially  correlated between  fourth and fifth  grades, ­.21 for math  gains  and  —.19  for  reading. They  are also  correlated  across subjects:  —.14  between fourth  grade reading  and fifth  grade math. Thus,  the evidence that fifth  grade teacher assignments are correlated  with  the fourth  grade residuals  indicates that  the VAM2  exclu­ sion restriction  is violated, regardless  of whether  the dependent  variable is  the math  or the reading score.  As  before, fifth  grade  teachers'  effects  on fifth  grade  scores  are  negatively  correlated  with  their  counterfactual  "effects"  on  fourth  grade  gains,  sug­ gesting that mean  reversion in  student achievement—combined  25.  p­values based on Monte Carlo simulations (see note 24) are .086 and .018  in columns (3) and (4), respectively.  200  QUARTERLY JOURNAL OF ECONOMICS  with nonrandom classroom assignments—is an important source  of bias in VAM2.  To implement the  VAM3 falsification  test, I begin  by select­ ing the subsample with nonmissing third and fourth grade gains;  valid teacher  assignments in grades 3, 4,  and 5; and continuous  enrollment  at the  same school  in  all three grades.  I  exclude 26  schools where the three sets of indicators for teachers in grades 3,  4, and 5 (dropping one teacher in each grade from each school) are  collinear.  I  then  regress  both  the third  and  fourth  grade  gains  on  school  indicators  and  on  each  of  the  three  sets  of  teacher  indicators.26  Table V reports estimates for math gains, in columns (1) and  (2), and for  reading gains, in columns (4) and (5), The first panel  shows the standard deviations (adjusted for sampling error) of the  coefficients for  each  grade's teachers.  Gains in  each subject  and  in each grade are substantially correlated with classroom assign­ ments in all three grades. Although p­values are not shown, in all  twelve  cases the  hypothesis  of  zero  effects is  rejected. Columns  (3)  and  (6)  report  the  across­teacher  correlations  between  the  coefficients in  the models  for  third and  fourth grade  gains (i.e.,  and H^). The most important correlation is that for  between  fifth grade  teachers,  —.04 for  math and  —.06  for  reading. Recall  that strict exogeneity implies  that the fifth grade  teacher coeffi­ cients in the model for fourth grade gains should be proportional to  the corresponding coefficients in the model for third grade gains,  054  = (Ar4/AT3)n53, implying a  correlation of  ±1. The near­zero  correlations strongly suggest that a single ability factor is unable  to  account  for  the  apparent "effects"  of fifth  grade  teachers  on  gains in earlier grades.  Indeed,  these  correlations  are  direct  evidence  against  the  VAM3 identifying assumption of conditional strict exogeneity. The  lower panel of Table V  presents OMD estimates of  the restricted  model.27  For  math scores,  the  estimated  ratio  Ai^/Ars  is  0.14,  implying  that student  ability is  much  more  important  to  third  grade than to fourth grade gains. Thus, the constrained estimates  26.  It is not  essential  to the correlated  random effects  test that the fu]]  se­ quence  of  teacher  assignments  back  to  grade 1 be  observed,  but  the  test may  over­reject if  classroom  assignments in  grades 3­5 are correlated  with  those in  first  and second grade and if the latter have continuing effects on third and fourth  grade gains. Recall, however, that VAM3 assumes such lagged effects away.  27.  The OMD  analysis uses a  varianee­covariance matrix  W  that is robust  to arbitrary heteroscedasticity and within­student, between­grade clustering. See  the Online Appendix.  TEACHER QUALITY IN EDUCATIONAL PRODUCTION  201  imply negligible  coefficients for fifth  grade teachers in the equa­ tion for  fourth grade  gains and  do a  very  poor job of fitting  the  unconstrained estimate of  the standard deviation  of these coeffi­ cients, 0.099. The test statistic D is 2,136, and the overidentifying  restrictions are overwhelmingly  rejected.  In the  reading specifi­ cation, the  Ati/Ars ratio is close to one, and the restricted  model  allows meaningful coefficients on fifth grade teachers in both the  third and fourth grade gain equations, albeit much less variability  than is seen in the unconstrained  model. But the test statistic is  even  larger here, and  the restricted  model is  again rejected.  We  can  thus conclude  that fifth  grade teacher  assignments are  not  strictly exogenous  with respect  to either  math or  reading gains,  even conditional on  single­dimensional (subject­specific)  student  heterogeneity. The identifying assumption for VAM3 is thus  vio­ lated.  The  results  in  Tables  III,  IV,  and  V  indicate  that  all  three  of  the  VAMs  considered  here  rely  on  incorrect  exclusion  restrictions—teacher assignments  evidently depend  on  the past  learning  trajectory  even  after  controlling  for  student  ability  or  the prior year's test score. It is possible, however, that slight mod­ ifications of the VAMs could eliminate the endogeneity. I have ex­ plored several alternative specifications  to gauge the  robustness  of the results. I have reestimated VAM1 and VAM2 with controls  for student race, gender, free lunch status, fourth grade absences,  and fourth grade TV viewing; these have no effect on the tests. The  three VAMs also continue to fail falsification tests when I use the  original score scales or score percentiles in place of standardized­ by­grade scores, or when I use data from other cohorts. As a final  investigation, I  have extended the tests  to evaluate VAM  analy­ ses that use data from multiple cohorts of students to distinguish  between permanent and transitory components of a teacher's "ef­ fect." As discussed in the Online Appendix, the assumptions under  which this  can avoid the  biases identified here  do not  appear to  hold in the data.  VI.  How MUCH DOES THIS MATTER?  The  results  in  Section  V  indicate  that  the  identifying  as­ sumptions for all three VAMs  are violated in the North Carolina  data. However, if  classroom assignments nearly satisfied  the as­ sumptions underlying the VAMs, the  models might  yield  almost  unbiased estimates  of  teachers' causal  effects.  In  this section,  I  202  QUARTERLY JOURNAL OF ECONOMICS  use the degree of sorting on prior outcomes to quantify the magni­ tude of the biases resulting from nonrandom assignments. I focus  on  VAM1  and  VAM2,  as  the  lack  of  correlation  between  third  and fifth  grade gains  (Table II)  strongly suggests  that the addi­ tional complexity  and  strong maintained  assumptions of  VAM3  are unnecessary.  In general, classroom assignments may depend both on vari­ ables observed by the econometrician and on  unobserved factors.  The former  can in  principle be  incorporated into VAM  specifica­ tions.  Accordingly,  the first  part of  my  investigation  focuses  on  the role of observable characteristics that are omitted from VAM1  and VAM2. I compare VAMl and VAM2 to a richer specification,  VAM4,  that controls  for  teacher assignments in grades  3 and 4,  end­of­grade  scores  in  both  subjects in  both  grades, and  scores  from the tests  given at the beginning of  third grade. This  would  identify fifth  grade teachers' effects if assignments were  random  conditional on  the test  score and  teacher assignment history.  It  is thus more general than VAM2. It does not strictly nest VAMl,  however: Assignment of teachers based purely on student ability  (/Ltj) would satisfy the VAMl exclusion restriction but not that for  VAM4. If  assignments depend on  both ability and  lagged scores,  VAMl, VAM2, and VAM4 are all misspecified.  Table VI presents  the comparisons. The first  rows show  the  estimated standard deviations  of teachers' effects  obtained from  VAMl and  VAM2, as applied to the subset of students with com­ plete test  score histories  and valid  teacher assignments  in each  prior grade. The unadjusted estimates are somewhat higher than  those in Tables III and IV, as the smaller sample yields noisier es­ timates, but the sampling­adjusted estimates are quite similar to  those seen earlier. The next two rows of the table show estimates  from the richer specification.  Standard deviations  are somewhat  larger, but not dramatically so.  The final  two  rows  describe  the  bias in  the  simpler  VAMs  I  and  relative  to VAM4  (that is,  again show both the raw standard deviation of the point estimates  and an adjusted standard deviation that removes the portion due  to sampling error.  For VAMl,  the bias  has a standard deviation  over  one­third as  large as  that of  the VAM4  effects.  For  VAM2,  which already includes a subset of the controls in VAM4, the bias  is somewhat smaller. For  both VAMs, the bias is more important  in  estimates  of  teachers'  value  added  for  math  scores  than for  reading scores.  203  TEACHER QUALITY IN EDUCATIONAL PRODUCTION  TABLE VI  MAGNITUDE OF BIAS  IN VAM1 AND VAM2 RELATIVE TO A  RICHER SPECIFICATION  THAT CONTROLS FOR ALL PAST  OBSERVABLES  VAM2  VAM1  Math  Reading  Math  Reading  (1)  (2)  (3)  (4)  Standard deviation of fifth grade teachers' estimated effects from  traditional VAM  0.176  0.197  0.203  0.189  Unadjusted for sampling error  0.121  0.162  0.127  0.162  Adjusted for sampling error  VAM4)  ch specification ( ed effects from ri teachers' estimat SD of fifth grade  0.200  0.206  0.200  0.206  Unadjusted for sampling error  0.148  0.172  0.148  0.172  Adjusted for sampling error  SD of bias in traditional VAMs relative to the rich specification  0.106  0.097  0.130  0.118  Unadjusted for sampling error  0.028  0.037  0.054  0.060  Adjusted for sampling error  Notes. N  = 23,416. Sample is thai used in Table V, less observations with missing fifth grade scores and  those in schools  rendered unusable (i.e., only one  valid classroom or  coilinearity between third, fourth, and  fifth  grade classroom indicators) by this exclusion. "Rich" specification controls for classroom assignments in  grades 3 and 4 and for scores in math and reading in grades 2, 3, and 4. "Bias" is the difference between the  VAM1/VAM2 estimates and those from the rich specification. Unadjusted estimates summarize the estimated  coefficients. Adjustments for sampling error are described in Online Appendix B.  Of course, the exercise carried out here can only diagnose bias  in VAM1 and VAM2 from selection on observables—variables that  can easily  be included in  the VAM specification.  In a companion  paper (Kothstein 2009), I attempt to quantify the bias that is likely  to result from selection on unobservables. Following the intuition  of Altonji, Elder,  and Taber (2005) that  the weight of  observable  (to the econometrician) and unobservable  variables in classroom  assignments is likely to mirror their relative weights in predicting  achievement,  one  can  use  the degree  of  sorting  on  observables  to estimate  the importance  of  unobservables  and  therefore  the  magnitude of the bias in estimated teacher effects. Under varying  assumptions about the  amount of  information  that parents  and  principals have, I find that the bias from nonrandom assignments  is quite plausibly 75%  as large (in standard  deviation terms) as  the estimates of teachers' effects in VAM1, and perhaps half this  large inVAM2. 28  To  provide a  better sense of  the import of  nonrandom class­ room assignments for the value of VAMs in teacher compensation  28.  Kane and Staiger's (2008) comparison of experimental and nonexperimen­ tal value added estimates would be unlikely to detect biases of this magnitude.  204  QUARTERLY JOURNAL OF ECONOMICS  and retention decisions, I simulate true and estimated teacher ef­ fects with joint distributions  resembling those reported in Table  VI  and in  Rothstein  (2009).  For  each  of  several scenarios  char­ acterizing the  assignment of  students to  classrooms, I  generate  10,000 teachers' true effects and coefficients from VAMs 1, 2, and  4.29  I assume  that true effects and biases are  both normally dis­ tributed, and that the VAM coefficients are free of sampling error. I  then compute three statistics to summarize the relationship of the  VAM estimates  to teachers' true effects: the correlation  between  teachers' true effects  and  the  VAM  coefficients,  the  rank corre­ lation, and  the fraction  of  teachers  with  true  effects  in  the top  quintile who are indicated to be in the top quintile by the VAMs.  Results are presented in Table VII. Each panel corresponds to  a distinct assumption about the classroom assignment process. In  the first panel, I assume that selection is solely on the basis of the  observed  test  score  history.  Using  the  model  for  reading scores  from  Table  VE,  the  standard  deviation  of  teachers'  true  effects  is 0.148, and the standard deviations  of the  biases in VAM1 and  VAM2 are 0.054 and 0.028, respectively. Columns (4)­(6) show the  reliability of teacher quality under different metrics. True effects  and ranks  are very  highly correlated  with the effects  and ranks  indicated by VAMs 1 and 2. From 79% to 90% of teachers who are  in the top quintile of the actual quality distribution are judged to  be so by the simple VAMs.  But this analysis assumes, implausibly, that selection is solely  on  observables.  Panels  B­E  present  alternative  estimates  that  allow  variables  that are  not controlled  even  in VAM4  to  play  a  role in  classroom  assignments, as  in  Rothstein (2009).  In Panel  B, I  assume that classroom assignments depend both on the test  score  history  that is  reported in  my  data  and  on  a second,  un­ observed history (e.g.,  student grades) that provides an indepen­ dent, equally  noisy measure  of  the student's trajectory  through  grades  2­4.  Allowing  for  this  moderate  degree  of  selection­on­ unobservables  notably  degrades  the  performance  of  VAM1,  but  VAM2 and  VAM4 continue  to perform  reasonably well.  In Panel  C, I assume that there are two separate unobserved achievement  measures. Performance degrades still further; although the corre­ lations between  true effects and the VAM2 and VAM4 estimates  29.  It is  not  possible  to  use  the estimates from  Table  VI directly  because  I  wish to  abstract irom  the role of  sampling error. The  simulation is  described in  greater detail in the Online Appendix.  205  TEACHER QUALITY IN EDUCATIONAL PRODUCTION  TABLE VII  SIMULATIONS OF THE EFFECTS OF STUDENT SELECTION AND HETEROGENEOUS DECAY  ON TEACHER QUALITY  ESTIMATES  Data generating process  SD of  truth  SD of  bias  (2) as %  of(l)  (1)  (2)  (3)  Simulation: comparisons between true  effects and those indicated by VAM  Correlation  Rank  correlation  Reliability of  top quintile  ranking  (4)  (5)  (6)  Panel A: Selection is on observables  0.148  0.054  36%  .93  .93  0.79  0.148  0.028  19%  .98  .98  0.90  0.148  0  0%  1.00  1.00  1.00  Panel B: Selection is on history of two tests, one observed  84%  .75  VAM1  0.148  0.124  ,77  0.62  VAM2  0.148  0.049  33%  .94  0.82  .95  VAM4  0.148  0.028  19%  .98  .98  0.89  Panel C: Selection is on history of three tests, one observed  VAM1  0.148  0.137  92%  .74  .73  0.60  40%  .92  VAM2  0.148  0.060  .93  0.78  VAM4  0.148  0.041  28%  .96  .96  0.85  Panel D: Selection is on true and observed achievement history  VAM1  0.148  0.166  112%  .64  .63  0.52  VAM2  0.148  0.089  60%  .85  0.70  .86  VAM4  0.148  0.078  53%  .89  .88  0.73  Pane! E: Selection on unobservables is like selection on observables  VAM1  0.148  0.212  143%  .57  .56  0.49  VAM2  0.148  0.140  95%  .73  .71  0.59  VAM4  0.148  0.147  99%  .71  .70  0.58  Panel F: Selection conforms to VAM assumptions, but effects  of interest are those on the following year's score  VAM1  0.118  0.148  125%  .42  .40  0.38  .32  VAM2  0.110  0.147  133%  .33  0.34  VAM1  VAM2  VAM4  Notes. Estiraates in column U> are taken from the rich specification for reading in Table V] (Panda A­B)  and from columns (2) and (4) of Table VII! (Panel F). Column (2) is from 'Table VI, columns (2) and (4) in Panel  A, and is computed from the models reported in Table VIII in Panel F. In Panels B­E, estimates from Table  10 of Rothstein (2009) are used, with an adjustment fear the different test scale used  here. See the  Online  Appendix for details. ColumnB (4H6) are computed by drawing 10,000 teachers from normal distributions  with the standard deviations described in columns (1) and (2). Estimates of the correlation between teachers'  true effects and the bias in their estimated effects (—.33 &r VAM 1 and ­.43 for VAM2) are used in Panel  A. In Panels B­E, tins correlation is constrained to zero. In Panel F, the estimated correlation is used again;  tills  is —.38 for VAM1 and ­.43 for VAM2. "Reliability of top quintile" in column (6) is the fraction  of teachers  whose true effects are in the top quintile who are estimated to be in the top quintile by the indicated VAM.  remain large,  only  about  four­fifths  of  top­quintile  teachers  are  judged to be  so by the two VAMs.  Panel D allows even more unobserved information to be used  in classroom assignments: I assume that the principal knows the  206  QUARTERLY JOURNAL OF ECONOMICS  student's true  achievement  in  grades  2­4.  Now,  even  VAM4  is  correlated less  than .9  with teachers'  true effects, and  less than  three­fourths of true top­quintile teachers get top­quintile ratings  from any the VAMs. Finally, Panel E presents an extreme scenario  corresponding  to  Altonji,  Elder,  and  Taber's  (2005)  assumption  that selection  on  unobservables is like selection  on  observables.  This is not realistic, as principals cannot perfectly predict student  achievement, but it provides a useful bound for the degree of bias  that nonrandom classroom  assignments might  produce in VAM­ based  estimates. This  bound  is tight  enough  to be  informative:  Even in this worst case, the VAMs retain some signal, and VAM2  and VAM4  continue to classify  correctly over  half of  top­quintile  teachers.  It is difficult to know which of the scenarios is the most accu­ rate. Panel E likely assumes too much sorting on  unobservables,  whereas Panel A almost certainly assumes too little. The truth al­ most certainly lies in between, perhaps resembling the scenarios  depicted in Panels B and C. These suggest that VAMs that control  only for past test scores—typically the only available variables—  have  substantial  signal  but  nevertheless  introduce  important  misclassification  into  any  assessment  of  teacher  quality.  Only  60%­80%  of  the  highest  quality  teachers  will  receive  rewards  given on the basis of high VAM scores.  Moreover,  Table  VII  omits  three  major  sources  of  error  in  VAM­based  quality  measures  that  would  magnify  the  misclas­ sification  rates seen  there.  First,  I  have  suppressed  the  role  of  sampling error  that  would  inevitably arise  in  VAM­based  esti­ mates.  It is  well  documented  (Lockwood,  Louis,  and  McCaffrey  2002; McCaffrey  et al.  2009) that this  alone  produces high  mis­ classification rates. Second,  all of  the analyses in  this paper  are  based on comparisons of teachers within schools. As in most other  value added studies, I make no effort to measure across­school dif­ ferences in teacher quality.  But most  policy applications of value  added would require comparisons across as well as within schools.  Because students are not even approximately randomly assigned  to  schools,  these  comparisons  are  likely  to  be  less  informative  about causal effects than are the within­school comparisons  con­ sidered here.  Finally,  I  have  assumed  that teachers'  effects  on  their stu­ dents' end­of­grade scores  are the  sole outcome  of interest. This  may be incorrect.  In particular, if  teachers can allocate effort  be­ tween teaching to the test and raising students' long­run learning  TEACHER QUALITY IN EDUCATIONAL PRODUCTION  207  trajectories (e.g., by working to instill a love of reading), one would  like to reward the second rather than the first. This suggests that  the effects  that matter  may be  those  on students' long­run  out­ comes  rather  than  on  their end­of­grade  scores.  I  consider  this  issue in the next section.  VII.  SHORT­RUN VS.  LONG­RUN EFFECTS  Recall from columns  (5)~(6) of Tables III and  IV that fourth  grade teachers appear to have large effects on students' fifth grade  gains.  Given  the  results  for  fourth  grade  gains,  these "effects"  cannot be treated  as causal. But setting this issue aside, we can  use the lagged teacher coefficients to evaluate restrictions on time  pattern of  teachers' effects (that is, on  the relationship  between  Pgg  and  f3g,g+s  in the production  function (1)) that are universally  imposed in value added analyses.  When only  a single  grade's teacher  assignment is included,  VAM2  implicitly  assumes  that teachers'  effects  decay  at  a  uni­ form, geometric rate (fig^+s = figgl*  for A  e [0, 1]),  whereas VAM1  assumes zero  decay (X  = 0). It is not  clear that either restriction  31  is reasonable.30  Although several studies have estimated A., all   final  a form. As  have done so under the restriction that decay is uni investigation, I analyze the validity of this restriction by compar­ ing a  grade­g teacher's  initial effect  in grade g  with her  longer­ run effect  on  scores in  grade g  + 1 or g + 2,  without  restricting  the relationships among them.32  If in fact teachers' effects decay  uniformly,  the initial  and longer­run  effects should  be  perfectly  correlated (except for sampling error).  I begin by estimating VAM1 and VAM2 for third, fourth, and  fifth grade  scores  or  gains,  augmenting each  specification  with  controls for past teachers back to third grade. I then compute third  30.  Although a full discussion is beyond the scope of this paper, assumptions  about "decay"  are  closely  related to  issues of  test scaling  and content  coverage  (Martineau  2006;  Rothstein  2008;  Ballou  2009).  To  illustrate,  consider  a  third  grade teacher  who focuses on  addition and  subtraction. This will raise  her stu­ dents' third grade scores but  may do little for their performance on  a fifth  grade  multiplication test.  31.  See, for example, Sanders and Rivers (1996), Konstantopoulos (2007), and  Andrabi et al. (2009).  32.  For VAM1, the effect of being in classroom c in grade# on achievement in  In VAM2,  the presence of a lagged dependent  grade g + s is simply fig.g+t.c­  variable complicates the calculation of cumulative effects. If only the same­subject  score is controlled, the effect of  third grade teacher c  on fifth  grade achievement  is (/?33c* + PZAC) A. + fosc­  A similar but more complex expression characterizes the  effects  when  lagged  scores  in  both  math  and  reading  are controlled,  as in  my  estimates.  208  QUARTERLY JOURNAL OF ECONOMICS  TABLE VIII  PERSISTENCE OF TEACHER EFFECTS IN VAMS WITH LAGGED TEACHERS  VAM2  VAM1  Math  Reading  Math  Reading"  (1)  (2)  (3)  Cumulative effect of fourth grade teachers over two years  Standard deviation of fourth grade teacher effects, adjusted  0.184  0.150  0.188  On fourth grade scores  0.108  0.118  0.118  On fifth grade scores  Average persistence of fourth grade teacher's  0.269  0.325  0.320  immediate effect one year later  Correlation (effect on fourth grade,  .511  .413  .455  effect on fifth grade), adjusted  Cumulative effect of third grade teachers over three years  Standard deviation of third grade teacher efFects, adjusted  0.218  0.172  0.209  On third grade scores  0.136  0.126  0.120  On fourth grade scores  0.185  0.199  0.129  On fifth grade scores  Average persistence of third grade teacher's  0.335  0.394  0.277  immediate effect two years later  Correlation (effect on third grade,  .450  .341  .395  effect on fifth  grade), adjusted  (4)  0.140  0.110  0.262  .334  0.167  0.130  0.147  0.394  .447  Notes. N  — 23,415. Sample is identical  to that used in Table VI. Effects of fourth grade teachers on fifth  grade scores and of third grade teachers on fourth and fifth grade scores are cumulative effects. For VAM1,  the specification for gains in grade# includes controls for teachers in grades 3 through g, and the cumulative  effect  of  the grade h teacher  on  the grade  g  gain is  the sum  of  the effects  in  h, h + 1,..,, g. For  VAM2,  the specification is augmented  with controls for  math and reading scores in grade g ­ 1. The calculation of  cumulative effects  is described  in footnote 31. "Average  persistence" is the  coefficient from  a regression  of  effects on fifth grade scores on effects on fourth (Panel A) or third (Panel B) scores, and indicates the expected  effect on fifth grade scores for a teacher whose initial effect was+1. All standard deviations, correlations, and  persistence parameters are adjusted for the influence of sampling error, as described in Online Appendix B.  and fourth grade  teachers' cumulative effects over one,  two, and  (for third grade  teachers) three years. Table  VIII presents sum­ mary statistics for these cumulative effects. I show their standard  deviation; the implied  average persistence  of teachers' first­year  effects (computed  as  X  = cov(/?44,  ^45)/ varQ^)); and the correla­ tion between  the initial and cumulative effects. All statistics are  adjusted for  sampling error  in  the  ft  coefficients.  Three aspects  of the results  are of  note. First,  there is much  more variation in  fourth grade teachers' effects on fourth grade scores than in those  same teachers' effects on fifth grade scores. With uniform decay at  rate (1 ­ X), var(^i^3  miingg  Education  f/taxonomv/term/26)  Environment &  Conservation  (/taxonomv/term/27)  illii  felp  teac her s irnprdKe;. f«ier' g  CoverTennessee  f /f axonomv/ter m/42')  £conomic&  Community  Development  (/taxonomv/term/25)  '4^ sB'  m  Ellm,  Entertainment &  Music  (/taxonomv/term/52)  Finance &  Administration  f/taxononw/term/62)  Financial  Institutions  (/taxonomv/term/29)  First Ladv Hasiam  (/taxonomy/term/77)  Generai Services  (/taxonomv/term/SO)  Governor Hasiam  ey initiatives to  NASHVILLE ­ Tennessee Gov. Bill Hasiam today announced several k ducators across the  support Tennessee teachers in response to direct feedback from e  statewide meetings  state. The proposals reflect input that the governor received during ummit he co­hosted  with more than 150 educators and that came out of an education s er.  with Lt. Gov. Ron Ramsey and House Speaker Beth Harwell in Septemb The initiatives fail into four main categories:  achers improve  »  More information and feedback on state assessments to help te student achievement;  »  Full alignment of state academic standards and assessments;  local decision­making and address  ®  Adjustments to teache  , Vr;.  state assessment transition  1 a  o  m  G  (/taxonomv/term/76)  Health  //taxonomv/ierm/GO)  Human Services  (/taxonomy/term/31)  Intellectual &  Deveiopmental  Disabilities  iZtaxpAQmy/terqi/M  KidCentralTN  (/taxonomv/term/85)  Labor & Workforce  Development  (/taxonornv/term/32^  Mental Health &  Substance Abuse  Services  (/taxonornv/term/SS)  Revenue  (/taxonomy/term/36)  Safety & Homeland  Security  (/taxonomv/term/37)  TennCare  (/taxonomv/term/8)  TennCare Fraud  f/taxonomY/term/65)  Tennessee  Advisory  Commission on  Int^goyenmigrital  Relations  f/taxonomv/term/54}  Tennessee  Emergency  Management  lAggncy:  (/taxonomv/term/44)  Tennessee Student  Assistance  Corporation  (/taxonomv/term/59)  Tourist  Development  (/taxonomv/terrn/38)  Transportation  (/taxonoroy/term/39)  ration.  And improved teacher communication and collabo er the past four years than ever  "We've asked more from our teachers and students ov ins in academic achievement,"  before, and they are responding by making historic ga ress in Tennessee, and we want to  Haslam said. "Educators are vita! to continued prog d giving them the tools they need  make sure we're supporting them in meaningful ways an to lead their classrooms, schools and districts,"  ssments  More information and feedback on state asse atedly from educators is a need for  One of the issues the governor has heard about repe sment. Additional information and  more information related to the annual state asses f test questions from the 2014 state  feedback on state assessments will include a release o d science, as well as identification of  assessments in English language arts (ELA), math an orrectly or incorrectly.  questions that students most frequently answered c he state will:  For the new 2015 state assessments in ELA and math, t ation;  Release practice questions prior to the test administr ®  nd selection of test questions;  »  Involve more than 100 teachers in the review a ign of the assessment.  *  And provide training for all teachers on the des e annua) school and district reports  in addition, the Department of Education will provid st challenges.  that highlight areas of the greatest growth and greate Alignment of standards and assessment  heard from educators was that the  One of the most common frustrations the governor  ent achievement do not match the  questions being asked on annual assessments of stud om.  standards they are currently teaching in the classro een the expectations of the state's  To address concerns about the misalignment betw  are actually tested, Tennessee will  academic standards in ELA and math and how students l year that are based on Tennessee's  administer new assessments in the 2015­16 schoo rigorous standards for student learning.  will enhance the state's assessments by  The new tests, called Tennessee Ready (TNReady),  estions that must be solved without  including writing at ail grade levels as well as math qu t role in developing and reviewing  a calculator. Tennessee educators will play a significan tration of these assessments follows  test questions for the new assessments. The adminis this year requiring the state to  legislation adopted by the General Assembly earlier  conduct a procurement process for a new state test.  Adjustments to teacher evaluation  gislation in January to adjust and  Haslam also announced that he plans to propose le ies.  Educators have expressed  improve the state's teacher evaluation laws and polic Veterans Affairs  '  (/taxonomy/termMO)  Wildlife Resources  f/taxonomv/term/41)  Media Advisories  f/taxonomv/term/70^  Road Closures  (/taxQnonw/term/71)  Formula Rates  (/taxonomv/term/73)  istricts to make decisions on hiring,  concerns that state requirements will force school d performance on state  piacement and compensation based strictly on student  assessments.  The governor's proposal wouid:  er's evaluation so that the new  Adjust the weighting of student growth data in a teach ©  cent of the overall evaluation in the  state assessments in ELA and math will count 10 per r two (2017) and 35 percent in year  first year of administration (2016), 20 percent in yea  evaluation is comprised of student  three (2018). Currently 35 percent of an educator's achievement data based on student growth;   for teachers in non­tested grades  e  Lower the weight of student achievement growth and subjects from 25 percent to 15 percent;   the qualitative teacher  And make explicit local school district discretion in both ®  on of the evaluation as well as the  evaluation model that is used for the observation porti ions will play in personnel decisions  specific weight student achievement growth in evaluat made by the district.  tion  improved teacher communication and collabora iiaboration, Haslam will create a  in the area of improved teacher communication and co hers nominated by local school  Governor's Teacher Cabinet, which will consist of teac l meet quarterly with the governor  districts from across the state. The teacher cabinet wil rmation from the classroom,  and the education commissioner to share real­time info ne of communication to their  advise on policy considerations and provide a direct li schools and communities.  nference of Learning Forward, an  The governor unveiled these proposals at the annual co for student success.  association devoted to advancing professional learning  emic standards review process that  The announcement of these initiatives foliows an acad  ongoing discussions with educators  the governor presented last month and resulted from across the state and the education summit  axonomv/term/76)  Education (/taxonomv/term/26). Governor Haslam (/t www,tn.qov/directory/) j  Onlirie+Services) j  TN.qov Directory (http://  (http://www.tn,aov/openaov)  j  ttp://www,tnrecoverv.aov)  j  Open Government TN.aov Services (http://www.tn,aov/topics/ TNRecoverv.aov (h b­DoUcies/accessibiUtv.htmt)  ies/)  j  AccesslbiUty (http://www.tn.aov/we Web Policies (http://www.tn.aov/web­potic j  Survey (http://www.tn.aov/survevs/)  Help & Contact (http://www.tn.aov/help/)  Tennessee Department of Education  Official TVAAS  Teacher Report 2010  WATSON,  CYNTHIA  TCAP Science, Grade 7  Weakley County  Dresden Middle School  3­Year­Average Estimated Progress * 0.2  (Standard Error » 0.7)  3­Year­Average Effectiveness  Level = THREE  TVAAS Teacher Table  TVAAS Teacher Graph  14.5  ..,..^Yr­Ayg.  , 2 0 1 0 .   2009  2008  11.6 " 1 " '   4­.  "to*  5.6  LLi  i  o  a>   \   ­  ­ j   j.  2.9  A  ro  CO  $  CO  E  IS?  0.0  1.1  2.8  1.2  Level 1  '  2.26  Uve)5  (All metrics  except Jndex expressed «n state NCEs reflecting s base year of 2009)  How is this used to determine  an effectiveness level?  ...  :. \L  The ratio  of  the teacher's estimate to its standard error (shown  in the column  labeled  'Index') is used to determine the teacher's effectiveness level based on the rufes  shown below. The effectiveness level at the top of this report  is  based on a  multi­year  average, when available.  ­5.8  H  What is my teaeher  effectiveness level?  ­8.7  The teacher's effectiveness level Is THR*££,' average in effectiveness, because the  teacher's index  is equal to or greater than ­1 but iess than 1. The educational  outcome for the average student taught by  this Levef  3 teacher is that the student  made progress comparable to the state growth standard of  2009.  !  ­11.6  ­3.5  It Is an  Indicator of how much the teacher  influences his or her students' academic  progress, The associated standard error  is a measure of  the uncertainty around the  teacher's estimate..  ­­­­lii  i  ­ Teacher 2009  ­ Teacher 2008  What is a teacher  value­added estimate?  i  <35  Q>  iff  MM    LU  »  ­2.9 ­ s  co    :  4^  21  0.0  ­1.9  ­1.9  Teacher Progress Estimates and Standard Errors  Estimate  StdEir  Index  0.2  OX  8.7  Z)  State Growth Standard  State Average (3­Yr)  System Average (3­Yr)  (  >  Rutes for Effectiveness Level Determination  ­14.5  Teaetiar progress estimates and standard  errors are presented In the chart above. This  allows each teacher to compare (heir students'  progress with the state growth standard, state  average, and system average.    Legend  T  i  t  1  State Growth ISTandard  '  Slate Average (3­Yr)'  *  System Average (3­Yr)  Level Five,  Most Effective;  Teachers whose students are making substantially more  progress than the  state growth standard  (the teacher's index is 2 or  greater).  Level Four,  Above Average Effectiveness: Teachers whose students are making more  progress than  the state growth standard {the teacher's index is equal  to or greater    than 1,but less than 2).  Level three. Average  Effectiveness: Teachers whose students are making the same1  amount of  progress as the state growth  standard (the teacher's index is equal to­or  greater than ­1 bul teas  than 1).  Level Two, Approaching Average  Effectiveness: Teachers whose students are making  less progress than the state growth standard  (the teacher's index  is equai to or greater  .than­2but less than­1).  Level One. Least Effective: Teachers whose students are making substantially less  .  progress than  the state growth standard {the teacher's We* Is less than ­2).  Teacher  tabbies*  —tell;  ! 3­Yr '  l­Vr  *  '  1  1 St^&r  :  >Unft$ are in stite NCEs    Teacher estimates are from $AS®EVAAS<&>  multivariate, longitudinal analyses using all  avallabh (tats for »9ch student (up to 5 years).  Copyright ©2010 SAS Institute Inc., Gary, NC,  3­Year­Average State Distribution of Teachers  {TCAP Science, Grade 7)  Level Five. Most  Effective  89  Level Four, Above Average  Effectiveness  26  53  46  Level Three. Average Effectiveness  Level Two, Approaching Average Effectiveness  Level One, Least Effective  192  m  X  *  2  09  =1  TVMS 2014: Teacher Value Added  9/11/2014  Test: TCAP  Report: Teacher Value Added  Subject: Science  School: Dresden friddle School  Grade: 7th Grade  District: Weakley County  Teacher: CYNTHIA WATSON (251002)  Multl­Yr Trend: Level 2  Approaching Avorage Effoettveness; Moderate  evdence (hat the teacher's  students made less    progress than the state growth standard/state average  (the teacher's indexis equal to or greater than ­2 but  less than *1).  raigagafl  y.'i­ Multi­YrTrend  * i  ­.i.­ "  .    n  i ­t>  ­  ;  Bs&osani  ­ HcUi­V'  Level  —  .   r  '  M f      J  index  Index  l.nEVMS®mul8variate, longitudinal analyses using all available data for each  student (up to 5 years). The Mulfi­Year Trend Incorporates the most recent student data, and the previous years' growth  measure values used in thai trend may have changed from what was reported In previous years. The TN Department of  EducaBonhas requested, for consistency, She single­year growth measures In the chart and table above/below are the  same as those that have been reported  In pra\tous years.  Rules for EyiQUi^ncse. Lovel DolflrmUwviion  Leva! 5, Most Effective: Significant eudence thai the teacher's students made more progress than the state growth standard/state average (the teacher's Indexls  2 or greater).  Lov®  4, Above Average Effectiveness: Modetate evidence that the teacher's students made more progress than the state growth standard/state average (the  j  : toaehei's Indexis  equaltoorgreaierthanl butlessttian2).  Level 3, Average Effectiveness: Evidence that foe teacher's students made progress similar to the state growth standard/state average (the tee chef's indexls  equal to or greater than ­1 but less fran  1).  Level 2, Approaching Average Bfeetivettess; Moderate evidence that the teacher's students made less progress then the state growth standard/state average  (the teachei's Indexis equal to or greater foan ­2 but less than *1),  Level 1, Least Effective: Significant evidence that the teacher's  students made less progress than the stale growth standard/state average (the teachei's Indexis  less than ­2).  .EXHIBIT  EXHIBIT  A­fe­l:  I  5  https://t^as.sas.conVteacherVa!ueAddedBeta.html?ad=ECNXaloEOde^nhH&ab=eW&as=(&aj=e&M=124&4j=9617e&>S=8&>6=i3&x7=1&wO=7&ww=21730  1/1