A distribuição t de estudantes é uma distribuição de probabilidade que foi desenvolvida por William Sealy Gosset em 1908. Student é o pseudônimo que ele usou quando publicou o artigo que descreve a distribuição. Gosset trabalhava em uma cervejaria e estava interessado nos problemas de pequenas amostras, por exemplo, nas propriedades químicas da cevada. Nos problemas que ele analisou, o tamanho da amostra pode ser tão baixo quanto três. Uma versão da origem do pseudônimo é que o empregador de Gosset preferiu que o pessoal de Gosset usasse nomes de canetas ao publicar artigos científicos ao invés de seu nome verdadeiro, então ele usou o nome "Estudante" para esconder sua identidade. Outra versão é que a cervejaria não queria que seus concorrentes soubessem que estavam usando o teste t para testar a qualidade da matéria prima.
Devido ao pequeno tamanho da amostra, não é possível estimar o desvio padrão. Além disso, em muitos casos que Gosset encontrou, a distribuição de probabilidade das amostras não era conhecida.
Uma distribuição normal descreve uma população completa, as distribuições em t descrevem amostras retiradas de uma população completa; assim, a distribuição em t para cada tamanho de amostra é diferente, e quanto maior a amostra, mais a distribuição se assemelha a uma distribuição normal.
A distribuição t desempenha um papel em muitas análises estatísticas amplamente utilizadas, incluindo o teste t deStudent para avaliar a significância estatística da diferença entre dois meios de amostra, a construção de intervalos de confiança para a diferença entre dois meios populacionais, e na análise de regressão linear. A distribuição t do Estudante também surge na análise Bayesiana de dados de uma família normal.
Se retirarmos uma amostra de n observações de uma distribuição normal, então a distribuição t com ν = n-1 graus de liberdade pode ser definida como a distribuição da localização da média verdadeira, relativa à média amostral e dividida pelo desvio padrão amostral, após multiplicação pelo termo normalizador n {\sqrt {n}}}. . Desta forma, a distribuição t pode ser usada para estimar a probabilidade de que a verdadeira média esteja em um determinado intervalo.
A distribuição em t é simétrica e em forma de sino, como a distribuição normal, mas tem caudas mais pesadas, o que significa que é mais propensa a produzir valores que caem longe de sua média. Isto a torna útil para compreender o comportamento estatístico de certos tipos de proporções de quantidades aleatórias, nas quais a variação no denominador é amplificada e pode produzir valores periféricos quando o denominador da proporção cai perto de zero. A distribuição t do Estudante é um caso especial da distribuição hiperbólica generalizada.