Concours externe d'administrat·eur·rice de l'Insee — 2025

Épreuve de mathématiques

Le sujet est accessible ici au format PDF.

Les propositions de corrections présentées ci-dessous n'engagent que l'auteur de ce site.

Partie 1 — Analyse et algèbre

Problème

Notations.

• $ n $ désigne un entier naturel non nul.

• $ \mathbb{R}_n[X] $ désigne le $ \mathbb{R} $-espace vectoriel des polynômes à coefficients réels, de degré inférieur ou égal à $ n $.

• $ \mathcal{B} $ désigne la base canonique de $ \mathbb{R}_n[X] $.

• Un polynôme est dit unitaire si le coefficient de son monôme de plus haut degré est égal à $ 1 $.

• Si $ a $ et $ b $ sont deux entiers tels que $ a \leq b $, $ [a, b] $ désigne l'ensemble des entiers $ k $ tels que $ a \leq k \leq b $.

Préliminaire

Question de cours. Énoncer et démontrer la formule d'intégration par parties.
On énonce la formule d'intégration par parties.

Soient $ u, v $ deux fonctions de classe $ \mathcal{C}^1 $ sur $ [a, b] $. Alors : $$ \int_a^b u(t)v'(t)\,\mathrm{d}t = \bigl[u(t)v(t)\bigr]_a^b - \int_a^b u'(t)v(t)\,\mathrm{d}t $$
Pour la démontrer, on remarque que la fonction $ t \mapsto u(t)v(t) $ est de classe $ \mathcal{C}^1 $ sur $ [a, b] $ en tant que produit de fonctions de classe $ \mathcal{C}^1 $, et que sa dérivée vaut $ u'v + uv' $.

Par le théorème fondamental de l'analyse, on a alors : $$ \int_a^b \bigl(u'(t)v(t) + u(t)v'(t)\bigr)\,\mathrm{d}t = \bigl[u(t)v(t)\bigr]_a^b $$
On en déduit immédiatement le résultat en isolant $ \int_a^b u(t)v'(t)\,\mathrm{d}t $ par linéarité de l'intégrale.
Question de cours. Énoncer et démontrer la formule de Leibniz donnant la dérivée $ n $-ième d'un produit de deux fonctions $ n $ fois dérivables.
On énonce la formule de Leibniz.

Soient $ f, g $ deux fonctions $ n $ fois dérivables sur un intervalle $ I $. Alors : $$ (fg)^{(n)} = \sum_{j=0}^{n} \binom{n}{j} f^{(j)} g^{(n-j)} $$
On la démontre par récurrence sur $ n $.

Initialisation

Pour $ n = 0 $, on a $ (fg)^{(0)} = fg = \binom{0}{0}f^{(0)}g^{(0)} $, ce qui est bien conforme à la formule.

Hérédité

On suppose la formule vraie au rang $ n $. On dérive l'expression obtenue : $$ (fg)^{(n+1)} = \left(\sum_{j=0}^n \binom{n}{j} f^{(j)} g^{(n-j)}\right)' = \sum_{j=0}^n \binom{n}{j}\bigl(f^{(j+1)}g^{(n-j)} + f^{(j)}g^{(n-j+1)}\bigr) $$
En réindexant la première somme par le changement d'indice $ j \to j-1 $, puis en regroupant les termes à l'aide de la relation de Pascal $ \binom{n}{j-1} + \binom{n}{j} = \binom{n+1}{j} $, on retrouve bien la formule au rang $ n+1 $.

On en déduit par le principe de récurrence que la formule de Leibniz est valable pour tout $ n \in \mathbb{N} $.
Soit $ (a, b) \in \mathbb{R}^2 $ tel que $ a < b $. Soit $ k \in \mathbb{N}^* $. Soient $ f $ et $ g $ deux fonctions de classe $ \mathcal{C}^k $ sur $ [a, b] $. Montrer que : $$ \int_{a}^{b} f(t) g^{(k)}(t) \,\mathrm{d}t = \left[ \sum_{j=0}^{k-1} (-1)^{j} f^{(j)}(t) g^{(k-j-1)}(t) \right]_{a}^{b} + (-1)^{k} \int_{a}^{b} f^{(k)}(t) g(t) \,\mathrm{d}t $$
On démontre cette formule par récurrence sur $ k $.

Initialisation

Pour $ k = 1 $, la formule se réduit à : $$ \int_{a}^{b} f(t) g'(t) \,\mathrm{d}t = \left[ f(t) g(t) \right]_{a}^{b} - \int_{a}^{b} f'(t) g(t) \,\mathrm{d}t $$ C'est exactement la formule d'intégration par parties classique démontrée à la question précédente.

Hérédité

On suppose la formule vraie au rang $ k $. On l'applique en posant $ \tilde{g} = g' $, de sorte que $ \tilde{g}^{(k)} = g^{(k+1)} $ : $$ \int_a^b f(t)\, g^{(k+1)}(t)\,\mathrm{d}t = \left[\sum_{j=0}^{k-1}(-1)^j f^{(j)}(t)\,g^{(k-j)}(t)\right]_a^b + (-1)^k\int_a^b f^{(k)}(t)\,g'(t)\,\mathrm{d}t $$
Or $ \tilde{g}^{(k-j-1)} = g^{(k-j)} $. On effectue ensuite une intégration par parties supplémentaire sur le dernier terme : $$ (-1)^k\int_a^b f^{(k)}(t)\,g'(t)\,\mathrm{d}t = (-1)^k\bigl[f^{(k)}(t)\,g(t)\bigr]_a^b + (-1)^{k+1}\int_a^b f^{(k+1)}(t)\,g(t)\,\mathrm{d}t $$
En regroupant les termes entre crochets, on retrouve bien la formule au rang $ k + 1 $.

On conclut par le principe de récurrence que la formule est valable pour tout $ k \in \mathbb{N}^* $.

Partie I — Étude d’une application

On note $ \varphi $ l'application qui, à tout polynôme $ P $ de $ \mathbb{R}_n[X] $, associe le polynôme $ \varphi(P) = Q $ défini par : $$ Q(X) = (X - 1)P'(X) - XP''(X) $$

(a) Montrer que $ \varphi $ est un endomorphisme de $ \mathbb{R}_n[X] $.
On montre que $ \varphi $ est un endomorphisme de $ \mathbb{R}_n[X] $ en vérifiant la linéarité et la stabilité.

L'application $ \varphi $ est composée d'opérations linéaires (dérivation, multiplication par un polynôme fixé, somme), donc $ \varphi $ est linéaire.

Puis, si $ P \in \mathbb{R}_n[X] $ avec $ \deg P = d \leq n $, alors $ \deg P' \leq d - 1 $ et $ \deg P'' \leq d - 2 $. On en déduit que $ \deg\bigl((X-1)P'\bigr) \leq d $ et $ \deg(XP'') \leq d - 1 $. Ainsi $ \deg \varphi(P) \leq d \leq n $, ce qui montre que $ \varphi(P) \in \mathbb{R}_n[X] $.

On conclut que $ \varphi $ est bien un endomorphisme de $ \mathbb{R}_n[X] $.
(b) Écrire la matrice représentative de $ \varphi $ dans la base canonique de $ \mathbb{R}_n[X] $.
Calculons $ \varphi(X^d) $ pour $ d \in \{0, \ldots, n\} $. On a : $$ \varphi(X^d) = (X-1) \cdot dX^{d-1} - X \cdot d(d-1)X^{d-2} = dX^d - dX^{d-1} - d(d-1)X^{d-1} $$
En simplifiant, on obtient : $$ \varphi(X^d) = dX^d - d^2 X^{d-1} $$
En particulier, on a $ \varphi(1) = 0 $, $ \varphi(X) = X $, $ \varphi(X^2) = 2X^2 - 4X $, etc.

La matrice dans la base canonique $ \mathcal{B} = (1, X, \ldots, X^n) $ est donc triangulaire supérieure : $$ M = \begin{pmatrix} 0 & 0 & 0 & 0 & \cdots & 0\\ 0 & 1 & -4 & 0 & \cdots & 0\\ 0 & 0 & 2 & -9 & \cdots & 0\\ \vdots & & \ddots & \ddots & \ddots & \vdots\\ 0 & 0 & \cdots & 0 & n-1 & -n^2\\ 0 & 0 & \cdots & 0 & 0 & n \end{pmatrix} $$
On lit sur cette matrice que les coefficients diagonaux valent $ 0, 1, 2, \ldots, n $ et que le coefficient supradiagonal en position $ (d-1, d) $ vaut $ -d^2 $.
(c) Montrer que l'endomorphisme $ \varphi $ est diagonalisable. Déterminer ses valeurs propres et la dimension des sous-espaces propres associés.
La matrice $ M $ est triangulaire supérieure, donc ses valeurs propres sont les éléments diagonaux : $ 0, 1, 2, \ldots, n $. Ce sont $ n + 1 $ valeurs propres distinctes dans un espace de dimension $ n + 1 $.

Or, un endomorphisme d'un espace de dimension finie qui admet autant de valeurs propres distinctes que la dimension de l'espace est nécessairement diagonalisable.

On en déduit que $ \varphi $ est diagonalisable, avec pour valeurs propres $ \lambda_k = k $ pour $ k \in \{0, \ldots, n\} $, et chaque sous-espace propre est de dimension $ 1 $.

(a) Pour tout $ k $ élément de $ [0, n] $, justifier l'existence d'un unique polynôme unitaire, que l'on notera $ L_k $, tel que $ \varphi(L_k) = kL_k $. Déterminer le degré de ce polynôme $ L_k $.
Chaque sous-espace propre $ E_k = \ker(\varphi - k\,\mathrm{Id}) $ est de dimension $ 1 $ d'après la question précédente. Ainsi, il existe, à un scalaire multiplicatif près, un unique polynôme propre associé à la valeur propre $ k $. En imposant la condition d'unitarité (coefficient dominant égal à $ 1 $), ce polynôme est déterminé de façon unique. On le note $ L_k $.

De plus, d'après l'expression $ \varphi(X^d) = dX^d - d^2 X^{d-1} $, la relation $ \varphi(P) = kP $ impose que le coefficient dominant de $ P $ contribue au terme $ dX^d $ avec $ d = k $. On en déduit que $ \deg L_k = k $.
(b) Expliciter $ L_0 $.
On a $ \varphi(L_0) = 0 \cdot L_0 = 0 $ et $ L_0 $ est unitaire de degré $ 0 $, donc $ L_0 = 1 $.

Dans la suite de cette partie, $ k $ est un élément de $ [0, n] $.

On note $ L_k = \sum_{i=0}^{k} a_i X^i $, avec $ a_k = 1 $ et $ (a_0, \ldots, a_{k-1}) \in \mathbb{R}^k $.
(c) Soit $ k \in \mathbb{N}^* $. Soit $ i \in [0, k-1] $. Montrer que $ (k - i)a_i = -(i+1)^2 a_{i+1} $.
On écrit la relation $ \varphi(L_k) = kL_k $ en développant le membre de gauche : $$ \varphi(L_k) = \sum_{i=1}^k a_i \varphi(X^i) = \sum_{i=1}^k a_i \bigl(iX^i - i^2 X^{i-1}\bigr) $$
Le coefficient de $ X^i $ (pour $ 0 \leq i \leq k-1 $) dans $ \varphi(L_k) $ vaut alors : $$ i\,a_i - (i+1)^2 a_{i+1} $$
Par ailleurs, le coefficient de $ X^i $ dans $ kL_k $ est $ k\,a_i $. En identifiant les coefficients, on obtient : $$ i\,a_i - (i+1)^2 a_{i+1} = k\,a_i $$
On en déduit bien la relation demandée : $ (k - i)a_i = -(i+1)^2 a_{i+1} $.
(d) En déduire, pour tout $ i \in [0, k] $, l'expression de $ a_i $ en fonction de $ i $, de $ k $ et de $ \binom{k}{i} $.
De la relation $ (k - i)a_i = -(i+1)^2 a_{i+1} $, on tire : $$ a_i = \frac{-(i+1)^2}{k-i}\,a_{i+1} $$
En partant de $ a_k = 1 $ et en descendant par récurrence, on calcule les premiers termes : $$ a_{k-1} = \frac{-k^2}{1} \cdot 1 = -k^2, \quad a_{k-2} = \frac{-(k-1)^2}{2} \cdot (-k^2) = \frac{k^2(k-1)^2}{2} $$
En poursuivant la récurrence descendante, on obtient pour tout $ i \in [0, k] $ : $$ a_i = (-1)^{k-i}\,\binom{k}{i}\,\frac{k!}{i!} $$
On vérifie : pour $ i = k $, on a bien $ a_k = (-1)^0 \binom{k}{k}\frac{k!}{k!} = 1 $, et la relation de récurrence est satisfaite.

(a) Pour tout $ k \in \mathbb{N} $, on note $ f_k $ la fonction réelle définie par $ f_k : x \mapsto x^k e^{-x} $. Tracer la courbe représentative sur $ \mathbb{R} $ des fonctions $ f_0 $ et $ f_1 $.
Pour $ f_0(x) = e^{-x} $ : c'est une fonction strictement décroissante et convexe sur $ \mathbb{R} $, avec $ f_0(0) = 1 $, $ \lim_{x \to +\infty} f_0(x) = 0 $ et $ \lim_{x \to -\infty} f_0(x) = +\infty $.

Pour $ f_1(x) = xe^{-x} $ : on a $ f_1'(x) = (1-x)e^{-x} $, donc $ f_1 $ admet un maximum en $ x = 1 $ valant $ e^{-1} $. De plus, $ f_1(0) = 0 $, $ \lim_{x \to +\infty} f_1(x) = 0 $ et $ \lim_{x \to -\infty} f_1(x) = -\infty $.

Les courbes sont celles classiques de $ e^{-x} $ (exponentielle décroissante) et de $ xe^{-x} $ (cloche asymétrique passant par l'origine).
(b) Soit $ k \in \mathbb{N}^* $. Soit $ i \in [0, k-1] $. Calculer $ f_k^{(i)}(0) $.
Par la formule de Leibniz appliquée à $ f_k = x^k \cdot e^{-x} $, on a : $$ f_k^{(i)}(x) = \sum_{j=0}^{i} \binom{i}{j} (x^k)^{(j)} (e^{-x})^{(i-j)} $$
Or $ (x^k)^{(j)} = \frac{k!}{(k-j)!} x^{k-j} $ si $ j \leq k $, et $ 0 $ sinon.

En évaluant en $ x = 0 $, le terme $ x^{k-j} $ s'annule dès que $ k - j \geq 1 $, c'est-à-dire pour $ j \leq k - 1 $. Pour que ce terme ne s'annule pas, il faudrait $ j = k $, mais comme $ j \leq i < k $, ce cas n'apparaît pas dans la somme.

On en déduit que tous les termes de la somme s'annulent en $ 0 $, et donc que $ f_k^{(i)}(0) = 0 $ pour tout $ i \in \{0, \ldots, k-1\} $.
(c) Montrer que : $$ \forall k \in [0, n], \quad \forall x \in \mathbb{R}, \quad L_k(x) = (-1)^k e^x f_k^{(k)}(x) $$
Posons $ P(x) = (-1)^k e^x f_k^{(k)}(x) $. On applique la formule de Leibniz à $ f_k^{(k)}(x) = (x^k e^{-x})^{(k)} $ : $$ f_k^{(k)}(x) = \sum_{j=0}^k \binom{k}{j} \frac{k!}{(k-j)!} x^{k-j} \cdot (-1)^{k-j} e^{-x} $$
En multipliant par $ (-1)^k e^x $, on obtient : $$ P(x) = (-1)^k e^x \cdot e^{-x} \sum_{j=0}^k \binom{k}{j} \frac{k!}{(k-j)!} (-1)^{k-j} x^{k-j} = \sum_{j=0}^k (-1)^{-j} \binom{k}{j} \frac{k!}{(k-j)!} x^{k-j} $$
En posant le changement d'indice $ i = k - j $, on obtient : $$ P(x) = \sum_{i=0}^k (-1)^{k-i} \binom{k}{i} \frac{k!}{i!} x^i $$
On reconnaît exactement l'expression $ \sum_{i=0}^k a_i x^i = L_k(x) $ d'après la question I.2.d. On en déduit bien que $ L_k(x) = (-1)^k e^x f_k^{(k)}(x) $.

Partie II — Étude d’un produit scalaire sur ( \mathbb{R}_n[X] )

(a) Soit $ (P, Q) \in (\mathbb{R}_n[X])^2 $. Vérifier que l'intégrale $ \displaystyle\int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x $ est convergente.
Pour $ (P, Q) \in (\mathbb{R}_n[X])^2 $, le produit $ P(x)Q(x) $ est un polynôme de degré au plus $ 2n $. On a donc, pour $ x $ assez grand, $ |e^{-x}P(x)Q(x)| \leq C\,x^{2n}e^{-x} $ pour un certain $ C > 0 $.

Or, par les croissances comparées, l'intégrale $ \int_0^{+\infty} x^{2n} e^{-x}\,\mathrm{d}x = \Gamma(2n+1) = (2n)! < +\infty $ converge (c'est la fonction Gamma évaluée en $ 2n + 1 $).

On en déduit par comparaison que l'intégrale $ \int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x $ est bien convergente.
(b) Pour tout $ (P, Q) \in (\mathbb{R}_n[X])^2 $, on pose : $$ \Psi(P, Q) = \int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x $$ Montrer que $ \Psi $ définit un produit scalaire sur $ \mathbb{R}_n[X] $.

On notera désormais $ \langle P, Q \rangle = \Psi(P, Q) $ et $ \|P\| = \sqrt{\Psi(P, P)} $.
On montre que $ \Psi $ est un produit scalaire sur $ \mathbb{R}_n[X] $ en vérifiant les propriétés associées :

• la forme $ \Psi $ est bilinéaire par linéarité de l'intégrale

• la forme $ \Psi $ est symétrique car $ P(x)Q(x) = Q(x)P(x) $ pour tout $ x $

• la forme $ \Psi $ est positive car $ \forall P \in \mathbb{R}_n[X] $ : $$ \Psi(P, P) = \int_0^{+\infty} e^{-x} P(x)^2 \,\mathrm{d}x \geq 0 $$ car l'intégrande est positive.

• la forme $ \Psi $ est définie positive car si $ \Psi(P, P) = 0 $, alors $ e^{-x}P(x)^2 = 0 $ presque partout sur $ [0, +\infty[ $. Comme $ e^{-x} > 0 $ pour tout $ x $ et que $ P^2 $ est continue, on a nécessairement $ P(x) = 0 $ pour tout $ x \geq 0 $. Or un polynôme non nul de degré au plus $ n $ a au plus $ n $ racines, donc $ P = 0 $.

On en déduit que $ \Psi $ est bien un produit scalaire sur $ \mathbb{R}_n[X] $.

(a) Soit $ i \in [0, n] $. Soit $ k \in [1, n] $. Montrer que : $$ \forall x \in \mathbb{R}, \quad \int_0^{x} L_i(t) f_k^{(k)}(t) \,\mathrm{d}t = \sum_{j=0}^{k-1} (-1)^j L_i^{(j)}(x) f_k^{(k-j-1)}(x) + (-1)^k \int_0^{x} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$
On applique la formule d'intégration par parties itérée démontrée à la question préliminaire 3, sur le segment $ [0, x] $, avec les fonctions $ L_i $ (dans le rôle de $ f $) et $ f_k $ (dans le rôle de $ g $, de sorte que $ g^{(k)} = f_k^{(k)} $). Ces fonctions sont bien de classe $ \mathcal{C}^k $.

On obtient alors directement la formule annoncée, en notant que les termes entre crochets évalués en $ t = 0 $ s'annulent tous grâce au résultat de la question I.3.b qui nous donne $ f_k^{(j)}(0) = 0 $ pour tout $ j \in [0, k-1] $.
(b) Soit $ (i, k) \in [0, n]^2 $. Montrer que : $$ \int_0^{+\infty} L_i(t) L_k(t) e^{-t} \,\mathrm{d}t = \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$
D'après la question I.3.c, on a $ L_k(t)e^{-t} = (-1)^k f_k^{(k)}(t) $. On peut donc écrire : $$ \langle L_i, L_k \rangle = \int_0^{+\infty} L_i(t) \cdot (-1)^k f_k^{(k)}(t) \,\mathrm{d}t $$
En passant à la limite $ x \to +\infty $ dans la formule de la question II.2.a, les termes entre crochets s'annulent : en $ 0 $ par la question I.3.b (car $ f_k^{(j)}(0) = 0 $ pour $ j < k $), et en $ +\infty $ par les croissances comparées (car $ f_k^{(j)}(t) $ contient un facteur $ e^{-t} $ qui l'emporte sur tout polynôme).

On obtient ainsi : $$ \int_0^{+\infty} L_i(t) f_k^{(k)}(t) \,\mathrm{d}t = (-1)^k \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$
En multipliant par $ (-1)^k $, on en déduit : $$ \langle L_i, L_k \rangle = (-1)^{2k} \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t = \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$
(c) Soit $ (i, k) \in [0, n]^2 $ tels que $ i < k $. Calculer $ \langle L_i, L_k \rangle $.
Si $ i < k $, alors $ \deg L_i = i < k $, et par conséquent $ L_i^{(k)} = 0 $ puisqu'on dérive un polynôme de degré $ i $ au moins $ k > i $ fois.

D'après la question précédente, on a alors : $$ \langle L_i, L_k \rangle = \int_0^{+\infty} 0 \cdot f_k(t) \,\mathrm{d}t = 0 $$
Par symétrie du produit scalaire, on en déduit que $ \langle L_i, L_k \rangle = 0 $ dès que $ i \neq k $. Autrement dit, les polynômes $ L_0, L_1, \ldots, L_n $ sont deux à deux orthogonaux pour le produit scalaire $ \Psi $.
(d) Soit $ k \in [0, n] $. Déterminer la norme de $ L_k $.
Pour $ i = k $, on a $ L_k^{(k)} = k! $ car $ L_k $ est un polynôme unitaire de degré $ k $.

D'après la question II.2.b, on obtient : $$ \|L_k\|^2 = k! \int_0^{+\infty} t^k e^{-t} \,\mathrm{d}t = k! \cdot \Gamma(k+1) = k! \cdot k! = (k!)^2 $$
On en déduit que $ \|L_k\| = k! $.
(e) Déduire de ce qui précède une base orthonormale $ \mathcal{C} $ de $ \mathbb{R}_n[X] $.
La famille $ (L_0, L_1, \ldots, L_n) $ est constituée de $ n + 1 $ vecteurs propres associés à des valeurs propres distinctes de $ \varphi $, elle est donc libre. Comme elle est de cardinal $ n + 1 = \dim \mathbb{R}_n[X] $, c'est une base de $ \mathbb{R}_n[X] $. De plus, elle est orthogonale d'après la question II.2.c.

En normalisant chaque vecteur par sa norme, on obtient la base orthonormale : $$ \mathcal{C} = \left(\frac{L_0}{0!},\, \frac{L_1}{1!},\, \frac{L_2}{2!},\, \ldots,\, \frac{L_n}{n!}\right) = \left(L_0,\, L_1,\, \frac{L_2}{2},\, \ldots,\, \frac{L_n}{n!}\right) $$
On notera que les polynômes $ L_k $ sont connus sous le nom de polynômes de Laguerre.

Partie III — Étude des racines de ( L_n )

Soit $ n \in \mathbb{N}^* $. Si l'on note $ x_1, \ldots, x_p $ les racines positives, d'ordre de multiplicité impair, de $ L_n $, on pose : $$ R(X) = \prod_{j=1}^{p} (X - x_j) $$ Dans cette écriture, les réels $ x_j $ sont deux à deux distincts.

Si $ L_n $ n'a pas de racine d'ordre impair dans $ \mathbb{R}^+ $, on pose $ R(X) = 1 $.

(a) Énoncer le théorème des valeurs intermédiaires.
On énonce le théorème des valeurs intermédiaires.

Soit $ f : [a, b] \to \mathbb{R} $ une fonction continue. Pour tout réel $ \gamma $ compris entre $ f(a) $ et $ f(b) $, il existe $ c \in [a, b] $ tel que $ f(c) = \gamma $.
(b) Déterminer le signe de $ RL_n $ sur $ \mathbb{R}^+ $.
Par construction, les $ x_j $ sont exactement les racines de $ L_n $ dans $ \mathbb{R}^+ $ dont la multiplicité est impaire. En chacun de ces points $ x_j $, la fonction $ L_n $ change de signe, et $ R $ également (car $ x_j $ est racine simple de $ R $). Par conséquent, le produit $ RL_n $ ne change pas de signe en ces points.

Aux racines de $ L_n $ de multiplicité paire, $ L_n $ ne change pas de signe, et $ R $ non plus puisque ces points ne sont pas des racines de $ R $.

Ainsi, le produit $ RL_n $ garde un signe constant sur $ \mathbb{R}^+ $. Pour $ x $ très grand, on a $ L_n(x) \sim x^n > 0 $ et $ R(x) \sim x^p > 0 $, donc $ R(x)L_n(x) > 0 $.

On en déduit que $ RL_n \geq 0 $ sur $ \mathbb{R}^+ $.

(a) On suppose, dans cette question seulement, que $ p < n $. Calculer $ \langle R, L_n \rangle $.
Si $ p < n $, alors $ \deg R = p < n $, ce qui signifie que $ R \in \mathbb{R}_{n-1}[X] $. Le polynôme $ R $ se décompose donc sur la base $ (L_0, \ldots, L_{n-1}) $.

Or, d'après la question II.2.c, $ L_n $ est orthogonal à tous les $ L_i $ pour $ i < n $. Par linéarité du produit scalaire, on en déduit que : $$ \langle R, L_n \rangle = 0 $$
(b) Montrer que $ RL_n $ est le polynôme nul.
D'après la question précédente, on a $ \langle R, L_n \rangle = \int_0^{+\infty} e^{-t} R(t) L_n(t) \,\mathrm{d}t = 0 $.

Or, d'après la question III.1.b, on sait que $ R(t) L_n(t) \geq 0 $ sur $ \mathbb{R}^+ $. La fonction $ t \mapsto e^{-t} R(t) L_n(t) $ est donc continue et positive sur $ [0, +\infty[ $, avec $ e^{-t} > 0 $.

L'intégrale d'une fonction continue et positive qui est nulle implique que cette fonction est identiquement nulle sur $ [0, +\infty[ $. On en déduit que $ R(t)L_n(t) = 0 $ pour tout $ t \geq 0 $.

Comme le polynôme $ R \cdot L_n $ admet une infinité de racines (tout $ \mathbb{R}^+ $), c'est nécessairement le polynôme nul.

(a) Montrer que $ p = n $.
Raisonnons par l'absurde en supposant $ p < n $. Alors d'après la question III.2.b, $ RL_n = 0 $.

Or, l'anneau $ \mathbb{R}[X] $ est intègre, et $ R \neq 0 $ (au minimum $ R = 1 $ si $ p = 0 $, et sinon $ R $ est un produit de facteurs non nuls). On en déduit que $ L_n = 0 $, ce qui est absurde car $ L_n $ est un polynôme unitaire de degré $ n \geq 1 $.

On conclut donc que $ p = n $.
(b) En déduire le nombre de racines de $ L_n $ dans $ \mathbb{R}^+ $. Préciser l'ordre de multiplicité de ces racines.
D'après la question précédente, $ L_n $ possède $ p = n $ racines positives distinctes $ x_1, \ldots, x_n $, chacune de multiplicité impaire.

Comme $ \deg L_n = n $ et que la somme des multiplicités de toutes les racines est inférieure ou égale à $ n $, le fait d'avoir $ n $ racines distinctes impose que chaque racine est de multiplicité exactement $ 1 $.

On en conclut que $ L_n $ possède exactement $ n $ racines réelles strictement positives, toutes simples.

Exercice

Dans cet exercice, on note :

• $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $ l'ensemble des fonctions définies sur $ \mathbb{R} $, à valeurs dans $ \mathbb{R} $.

• $ \mathcal{C}^0(\mathbb{R}, \mathbb{R}) $ l'ensemble des fonctions de $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $ continues sur $ \mathbb{R} $.

• $ \mathcal{D}^1(\mathbb{R}, \mathbb{R}) $ l'ensemble des fonctions de $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $ dérivables sur $ \mathbb{R} $.

Partie I

Soit $ f $ un élément de $ \mathcal{D}^1(\mathbb{R}, \mathbb{R}) $. Soient $ a $ et $ b $ deux réels tels que $ a < b $ et $ f'(a) < f'(b) $.

On suppose que $ f'(a) < 0 < f'(b) $.

(a) Montrer que $ f $ possède un minimum en un point $ c \in \,]a, b[ $.
La fonction $ f $ est continue sur le segment $ [a, b] $ (car elle est dérivable), donc par le théorème des valeurs extrêmes, elle y atteint son minimum en un point $ c \in [a, b] $.

Montrons que $ c \neq a $. Comme $ f'(a) < 0 $, la fonction $ f $ est strictement décroissante au voisinage de $ a $ à droite, d'où $ f(a + h) < f(a) $ pour $ h > 0 $ assez petit. Ainsi $ a $ ne peut pas être un point de minimum.

De même, montrons que $ c \neq b $. Comme $ f'(b) > 0 $, la fonction $ f $ est strictement croissante au voisinage de $ b $ à gauche, d'où $ f(b - h) < f(b) $ pour $ h > 0 $ assez petit. Ainsi $ b $ ne peut pas être un point de minimum.

On conclut que $ c \in \,]a, b[ $.
(b) Calculer $ f'(c) $.
Comme $ c $ est un point de minimum de $ f $ dans l'ouvert $ ]a, b[ $, et que $ f $ est dérivable en $ c $, la condition nécessaire d'extremum intérieur donne directement $ f'(c) = 0 $.
Soit $ y \in \mathbb{R} $ tel que $ f'(a) < y < f'(b) $. Montrer qu'il existe $ d \in \,]a, b[ $ tel que $ y = f'(d) $.
On pose $ g(x) = f(x) - yx $. Alors $ g $ est dérivable sur $ \mathbb{R} $, avec $ g'(x) = f'(x) - y $. On vérifie que : $$ g'(a) = f'(a) - y < 0 \quad \text{et} \quad g'(b) = f'(b) - y > 0 $$
D'après les questions I.1.a et I.1.b appliquées à $ g $, la fonction $ g $ atteint son minimum en un point $ d \in \,]a, b[ $ et $ g'(d) = 0 $, c'est-à-dire $ f'(d) = y $.

On reconnaît ici le théorème de Darboux (ou théorème des valeurs intermédiaires pour les dérivées) : toute fonction dérivée vérifie la propriété des valeurs intermédiaires, même si elle n'est pas nécessairement continue.

Partie II

On pose $ \mathcal{H} = \{f' \mid f \in \mathcal{D}^1(\mathbb{R}, \mathbb{R})\} $.

L'ensemble $ \mathcal{H} $ est-il un sous-espace vectoriel de $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $ ? Justifier.
On montre que $ \mathcal{H} $ est un sous-espace vectoriel de $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $ en vérifiant les conditions classiques :

• la fonction nulle est dans $ \mathcal{H} $ car elle est la dérivée de la fonction constante nulle

• si $ f', g' \in \mathcal{H} $ et $ \lambda, \mu \in \mathbb{R} $, alors $ \lambda f' + \mu g' = (\lambda f + \mu g)' \in \mathcal{H} $ par linéarité de la dérivation

On en déduit que $ \mathcal{H} $ est bien un sous-espace vectoriel de $ \mathcal{F}(\mathbb{R}, \mathbb{R}) $.
Soit $ f $ un élément de $ \mathcal{H} $. Soit $ \lambda $ un réel. On pose $ g : x \mapsto f(\lambda x) $. A-t-on $ g \in \mathcal{H} $ ? Justifier.
Comme $ f \in \mathcal{H} $, il existe $ F $ dérivable telle que $ F' = f $.

Si $ \lambda \neq 0 $, on pose $ G(x) = \frac{1}{\lambda}F(\lambda x) $. Alors $ G'(x) = F'(\lambda x) = f(\lambda x) = g(x) $, ce qui montre que $ g = G' \in \mathcal{H} $.

Si $ \lambda = 0 $, alors $ g(x) = f(0) $ est une fonction constante. Or toute fonction constante est la dérivée d'une fonction affine, donc $ g \in \mathcal{H} $.

On conclut que dans tous les cas, $ g \in \mathcal{H} $.
Soit $ f : \mathbb{R} \to \mathbb{R} $ définie par $ f(x) = 1 $ si $ x > 0 $, $ f(x) = -1 $ si $ x < 0 $, $ f(0) = 0 $. Déterminer $ f(\mathbb{R}) $. La fonction $ f $ appartient-elle à $ \mathcal{H} $ ?
On a $ f(\mathbb{R}) = \{-1, 0, 1\} $.

La fonction $ f $ n'appartient pas à $ \mathcal{H} $. En effet, par le théorème de Darboux démontré en Partie I, toute dérivée vérifie la propriété des valeurs intermédiaires. Or $ f(0) = 0 $ et $ f(1) = 1 $, mais $ f $ ne prend pas la valeur $ 1/2 $ sur $ [0, 1] $ (car $ f $ vaut $ 0 $ en $ 0 $ et $ 1 $ sur $ ]0, 1] $).

On en déduit que $ f $ ne satisfait pas la propriété des valeurs intermédiaires, et donc $ f \notin \mathcal{H} $.
Soit $ f : \mathbb{R} \to \mathbb{R} $ définie par $ f(x) = \arctan(x) $ si $ x \geq 0 $ et $ f(x) = \frac{\pi}{2} + \arctan(x) $ sinon. Déterminer $ f\!\left(\left[-\frac{\sqrt{3}}{3}, \frac{\sqrt{3}}{3}\right]\right) $. La fonction $ f $ appartient-elle à $ \mathcal{H} $ ?
On calcule les valeurs aux bornes : $$ f\!\left(-\frac{\sqrt{3}}{3}\right) = \frac{\pi}{2} + \arctan\!\left(-\frac{\sqrt{3}}{3}\right) = \frac{\pi}{2} - \frac{\pi}{6} = \frac{\pi}{3} $$ $$ f\!\left(\frac{\sqrt{3}}{3}\right) = \arctan\!\left(\frac{\sqrt{3}}{3}\right) = \frac{\pi}{6} $$
De plus, on remarque que $ \lim_{x \to 0^-} f(x) = \frac{\pi}{2} $ et $ f(0) = 0 $, ce qui montre que $ f $ est discontinue en $ 0 $.

Sur $ [-\frac{\sqrt{3}}{3}, 0[ $, la fonction $ f $ est continue et croissante, allant de $ \frac{\pi}{3} $ vers $ \frac{\pi}{2} $ (non atteint). Sur $ [0, \frac{\sqrt{3}}{3}] $, on a $ f = \arctan $ qui va de $ 0 $ à $ \frac{\pi}{6} $. On en déduit que : $$ f\!\left(\left[-\frac{\sqrt{3}}{3}, \frac{\sqrt{3}}{3}\right]\right) = \left[0, \frac{\pi}{6}\right] \cup \left[\frac{\pi}{3}, \frac{\pi}{2}\right[ $$
La fonction $ f $ n'appartient pas à $ \mathcal{H} $ car elle n'est pas continue en $ 0 $, et ne vérifie donc pas la propriété des valeurs intermédiaires sur tout intervalle contenant $ 0 $ : par exemple, elle ne prend aucune valeur dans $ ]\frac{\pi}{6}, \frac{\pi}{3}[ $ entre $ -\frac{\sqrt{3}}{3} $ et $ \frac{\sqrt{3}}{3} $.
On pose $ \varphi(x) = x^2 \sin(1/x) $ si $ x \neq 0 $ et $ \varphi(0) = 0 $.

(a) Montrer que $ \varphi $ est continue sur $ \mathbb{R} $.
Pour $ x \neq 0 $, la fonction $ \varphi $ est continue en tant que composée de fonctions continues.

En $ 0 $, on a $ |\varphi(x)| = |x^2 \sin(1/x)| \leq x^2 \to 0 = \varphi(0) $ quand $ x \to 0 $. Par le théorème d'encadrement, on en déduit que $ \varphi $ est continue en $ 0 $.

On conclut que $ \varphi $ est continue sur $ \mathbb{R} $.
(b) Montrer que $ \varphi $ est dérivable sur $ \mathbb{R} $. On donnera l'expression de $ \varphi' $ sur $ \mathbb{R} $.
Pour $ x \neq 0 $, on a par les règles de dérivation classiques : $$ \varphi'(x) = 2x\sin(1/x) - \cos(1/x) $$
En $ 0 $, on calcule le taux d'accroissement : $$ \frac{\varphi(h) - \varphi(0)}{h} = h\sin(1/h) \to 0 \quad \text{quand } h \to 0 $$ par le théorème d'encadrement. On en déduit que $ \varphi'(0) = 0 $.

Ainsi, $ \varphi $ est dérivable sur $ \mathbb{R} $ avec : $$ \varphi'(x) = \begin{cases} 2x\sin(1/x) - \cos(1/x) & \text{si } x \neq 0, \\ 0 & \text{si } x = 0. \end{cases} $$
(c) La fonction $ \varphi $ est-elle de classe $ \mathcal{C}^1 $ sur $ \mathbb{R} $ ? Justifier.
La fonction $ \varphi $ n'est pas de classe $ \mathcal{C}^1 $ sur $ \mathbb{R} $. En effet, le terme $ \cos(1/x) $ n'admet pas de limite en $ 0 $ (il oscille entre $ -1 $ et $ 1 $). La dérivée $ \varphi' $ n'est donc pas continue en $ 0 $, ce qui empêche $ \varphi $ d'être de classe $ \mathcal{C}^1 $ sur $ \mathbb{R} $.
A-t-on l'égalité des ensembles $ \mathcal{C}^0(\mathbb{R}, \mathbb{R}) $ et $ \mathcal{H} $ ? Justifier.
Les deux ensembles ne sont pas égaux.

D'une part, on a $ \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \subset \mathcal{H} $ : en effet, toute fonction continue $ f $ admet une primitive $ F $ par le théorème fondamental de l'analyse, et donc $ f = F' \in \mathcal{H} $.

D'autre part, on a $ \mathcal{H} \not\subset \mathcal{C}^0(\mathbb{R}, \mathbb{R}) $ : la fonction $ \varphi' $ de la question II.5 est dans $ \mathcal{H} $ (puisque c'est la dérivée de $ \varphi $), mais elle n'est pas continue en $ 0 $ (question II.5.c).

On en déduit que l'inclusion est stricte : $ \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \subsetneq \mathcal{H} $.
Soit $ n \in \mathbb{N}^* $. À l'aide de $ \varphi $, construire une application $ \Phi $ de $ \mathbb{R} $ dans $ \mathbb{R} $, dérivable sur $ \mathbb{R} $, telle que $ \Phi' $ est continue sur $ \mathbb{R} \setminus [\![ 0, n ]\!] $ et discontinue en tout élément de $ [\![ 0, n ]\!] $.
Pour chaque $ k \in [\![ 0, n ]\!] $, on pose $ \varphi_k(x) = \varphi(x - k) $, c'est-à-dire : $$ \varphi_k(x) = \begin{cases} (x-k)^2 \sin\!\left(\frac{1}{x-k}\right) & \text{si } x \neq k, \\ 0 & \text{si } x = k. \end{cases} $$
Par translation de $ \varphi $, chaque $ \varphi_k $ est dérivable sur $ \mathbb{R} $, avec $ \varphi_k' $ continue sur $ \mathbb{R} \setminus \{k\} $ et discontinue en $ k $.

On pose alors : $$ \Phi = \sum_{k=0}^n \varphi_k $$
La fonction $ \Phi $ est dérivable sur $ \mathbb{R} $ en tant que somme finie de fonctions dérivables, et $ \Phi' = \sum_{k=0}^n \varphi_k' $.

En un point $ m \in [\![ 0, n ]\!] $, le terme $ \varphi_m' $ est discontinu en $ m $ tandis que tous les autres $ \varphi_k' $ (pour $ k \neq m $) sont continus en $ m $. La somme $ \Phi' $ est donc discontinue en $ m $.

Sur $ \mathbb{R} \setminus [\![ 0, n ]\!] $, tous les $ \varphi_k' $ sont continus, donc $ \Phi' $ est continue.

On conclut que $ \Phi $ répond bien au problème posé.

Partie 2 — Probabilités et statistiques

Notations.

$ \mathbb{E}[X] $ et $ \mathbb{V}(X) $ représentent respectivement l'espérance et la variance d'une variable aléatoire réelle $ X $, lorsque ces quantités existent. $ \mathrm{cov}(X, Y) $ est la covariance des variables aléatoires $ X $ et $ Y $.

Exercice 1

Dans tout cet exercice, $ n $ est un entier naturel non nul. Toutes les variables aléatoires sont définies sur un même espace probabilisé $ (\Omega, \mathcal{F}, \mathbb{P}) $.

$ \log_2 $ représente le logarithme de base $ 2 $ et est défini, pour tout $ x > 0 $, par : $$ \log_2(x) = \frac{\ln x}{\ln 2} $$ On considère une variable aléatoire discrète $ X $ à support dans $ \mathbb{N} $. Le cardinal de $ X(\Omega) $ peut être fini ou non. On définit l'entropie de $ X $, lorsqu'elle existe, par la formule : $$ H(X) = - \sum_{x \in X(\Omega)} \mathbb{P}[X = x] \log_2 \mathbb{P}[X = x] $$ où $ \log_2(x) = \frac{\ln x}{\ln 2} $ pour tout $ x > 0 $.

Démontrer que pour tout $ x > 0 $, $ \ln x \leq x - 1 $ et préciser les cas d'égalité.
Soit $ h(x) = x - 1 - \ln x $ pour $ x > 0 $. On a $ h'(x) = 1 - \frac{1}{x} $, qui s'annule si et seulement si $ x = 1 $.

De plus, $ h''(x) = \frac{1}{x^2} > 0 $ pour tout $ x > 0 $, donc $ h $ est strictement convexe et $ x = 1 $ est un minimum global avec $ h(1) = 0 $.

On en déduit que $ h(x) \geq 0 $ pour tout $ x > 0 $, c'est-à-dire $ \ln x \leq x - 1 $, avec égalité si et seulement si $ x = 1 $.
Soit $ \phi $ la fonction définie sur $ [0, 1] $ par $ \phi(x) = -x\log_2(x) $ si $ x > 0 $ et $ \phi(0) = 0 $. Effectuer l'étude de cette fonction en précisant sa monotonie et ses extrémas. Démontrer que $ \phi $ est concave, puis donner l'allure de sa courbe représentative.
La fonction $ \phi $ est continue sur $ [0, 1] $ par prolongement en $ 0 $, car $ x\ln x \to 0 $ quand $ x \to 0^+ $. Sur $ ]0, 1] $, on calcule : $$ \phi'(x) = -\frac{1}{\ln 2}(\ln x + 1), \quad \phi''(x) = -\frac{1}{x \ln 2} < 0 $$
La dérivée $ \phi'(x) = 0 $ si et seulement si $ x = e^{-1} $. Ainsi $ \phi $ est croissante sur $ [0, 1/e] $ et décroissante sur $ [1/e, 1] $, avec un maximum en $ x = 1/e $ valant $ \phi(1/e) = \frac{1}{e \ln 2} $.

On note par ailleurs que $ \phi(0) = 0 $ et $ \phi(1) = 0 $.

Comme $ \phi'' < 0 $ sur $ ]0, 1] $, la fonction $ \phi $ est concave sur $ [0, 1] $. Sa courbe représentative est une cloche asymétrique entre $ 0 $ et $ 1 $, atteignant son sommet en $ x = 1/e $.

Dans les questions 3 à 10, on suppose $ X(\Omega) $ et $ Y(\Omega) $ de cardinaux finis.

Démontrer que, quel que soit $ X $, $ H(X) \geq 0 $. À quelle condition sur $ X $ a-t-on $ H(X) = 0 $ ?
Pour tout $ x \in X(\Omega) $, on a $ 0 < \mathbb{P}[X = x] \leq 1 $, ce qui entraîne $ \log_2 \mathbb{P}[X = x] \leq 0 $. Chaque terme de la somme définissant $ H(X) $ est donc de la forme $ -\mathbb{P}[X = x]\log_2 \mathbb{P}[X = x] = \phi(\mathbb{P}[X = x]) \geq 0 $.

On en déduit que $ H(X) \geq 0 $.

L'entropie $ H(X) = 0 $ si et seulement si $ \phi(\mathbb{P}[X = x]) = 0 $ pour tout $ x \in X(\Omega) $, c'est-à-dire si $ \mathbb{P}[X = x] \in \{0, 1\} $ pour tout $ x $. Cela signifie que $ X $ est presque sûrement constante.
(a) Soit $ X $ une variable aléatoire de Bernoulli de paramètre $ p \in \,]0, 1[ $. Calculer $ H(X) $.
On a $ \mathbb{P}[X = 1] = p $ et $ \mathbb{P}[X = 0] = 1-p $. Par définition de l'entropie : $$ H(X) = -p\log_2 p - (1-p)\log_2(1-p) $$
(b) $ H(X) $ est une fonction de $ p $ que l'on notera $ h $. Effectuer l'étude de $ h $.
On a $ h(p) = -p\log_2 p - (1-p)\log_2(1-p) $. Sa dérivée vaut : $$ h'(p) = -\frac{1}{\ln 2}\bigl(\ln p - \ln(1-p)\bigr) $$
La dérivée $ h'(p) = 0 $ si et seulement si $ p = 1/2 $. De plus : $$ h''(p) = -\frac{1}{\ln 2}\left(\frac{1}{p} + \frac{1}{1-p}\right) < 0 $$
On en déduit que $ h $ est strictement concave sur $ ]0, 1[ $ et que le maximum est atteint en $ p = 1/2 $. On a $ h(0^+) = h(1^-) = 0 $ et $ h(1/2) = 1 $.
(c) En quelle valeur $ h $ atteint-elle son maximum ? Interpréter le résultat.
D'après l'étude précédente, $ h $ atteint son maximum en $ p = 1/2 $, avec $ h(1/2) = \log_2 2 = 1 $ bit.

L'interprétation est la suivante : l'entropie est maximale quand $ p = 1/2 $, c'est-à-dire dans le cas de plus grande incertitude, lorsque les deux issues sont équiprobables.
Déterminer $ H(X) $ lorsque $ X $ est une variable aléatoire de loi uniforme sur $ X(\Omega) = \{1, \ldots, n\} $.
On a $ \mathbb{P}[X = k] = 1/n $ pour $ k \in \{1, \ldots, n\} $. Par définition de l'entropie : $$ H(X) = -\sum_{k=1}^n \frac{1}{n}\log_2 \frac{1}{n} = -\log_2 \frac{1}{n} = \log_2 n $$
À l'aide de la question 1, démontrer l'inégalité de Gibbs : si $ (p_1, \ldots, p_n) $ et $ (q_1, \ldots, q_n) $ sont des lois de probabilités à support dans $ \{1, \ldots, n\} $, alors : $$ \sum_{k=1}^{n} p_k \log_2(q_k / p_k) \leq 0 $$
D'après la question 1, on a $ \ln x \leq x - 1 $ pour tout $ x > 0 $, d'où $ \log_2 x \leq \frac{x - 1}{\ln 2} $ pour tout $ x > 0 $.

En appliquant cette inégalité avec $ x = q_k/p_k $ pour chaque $ k $, on obtient : $$ \sum_{k=1}^n p_k \log_2 \frac{q_k}{p_k} \leq \frac{1}{\ln 2}\sum_{k=1}^n p_k \left(\frac{q_k}{p_k} - 1\right) = \frac{1}{\ln 2}\left(\sum_{k=1}^n q_k - \sum_{k=1}^n p_k\right) = \frac{1 - 1}{\ln 2} = 0 $$
On en déduit bien l'inégalité de Gibbs.
Démontrer que pour toute variable aléatoire $ X $ sur $ \{1, \ldots, n\} $, $ H(X) \leq \log_2 n $. Interpréter ce résultat.
On applique l'inégalité de Gibbs avec $ p_k = \mathbb{P}[X = k] $ et $ q_k = 1/n $ pour tout $ k $ : $$ \sum_k p_k \log_2 \frac{q_k}{p_k} \leq 0 \quad \Rightarrow \quad \sum_k p_k \log_2 \frac{1}{n} + \sum_k p_k \log_2 \frac{1}{p_k} \leq 0 $$
Soit $ -\log_2 n + H(X) \leq 0 $, d'où $ H(X) \leq \log_2 n $.

Ce résultat signifie que l'entropie est maximale pour la loi uniforme : c'est la distribution de plus grande incertitude parmi toutes les lois à support dans $ \{1, \ldots, n\} $.
L'entropie conjointe est définie par : $$ H(X, Y) = - \sum_{(x, y)} \mathbb{P}[X = x, Y = y] \log_2 \mathbb{P}[X = x, Y = y] $$ Si $ X $ et $ Y $ sont indépendantes, démontrer que $ H(X, Y) = H(X) + H(Y) $.
Si $ X $ et $ Y $ sont indépendantes, alors $ \mathbb{P}[X = x, Y = y] = \mathbb{P}[X = x] \cdot \mathbb{P}[Y = y] $, d'où : $$ \log_2 \mathbb{P}[X = x, Y = y] = \log_2 \mathbb{P}[X = x] + \log_2 \mathbb{P}[Y = y] $$
En substituant dans la définition de l'entropie conjointe, on obtient : $$ \begin{aligned} H(X, Y) &= -\sum_{x, y} \mathbb{P}[X = x]\mathbb{P}[Y = y]\bigl(\log_2 \mathbb{P}[X = x] + \log_2 \mathbb{P}[Y = y]\bigr) \\ &= -\sum_x \mathbb{P}[X = x]\log_2 \mathbb{P}[X = x] \underbrace{\sum_y \mathbb{P}[Y = y]}_{= 1} \\ & \quad - \underbrace{\sum_x \mathbb{P}[X = x]}_{= 1} \sum_y \mathbb{P}[Y = y]\log_2 \mathbb{P}[Y = y] \\ &= H(X) + H(Y) \end{aligned} $$
On conclut que lorsque $ X $ et $ Y $ sont indépendantes, l'entropie conjointe est la somme des entropies marginales.

On définit l'entropie conditionnelle de $ Y $ sachant $ X $ par : $$ H(Y|X) = - \sum_{(x, y)} \mathbb{P}[X = x, Y = y] \log_2 \mathbb{P}[Y = y | X = x] $$
(a) Démontrer que $ H(X, Y) = H(Y|X) + H(X) = H(X|Y) + H(Y) $.
On part de la formule des probabilités conditionnelles $ \mathbb{P}[X = x, Y = y] = \mathbb{P}[Y = y | X = x] \cdot \mathbb{P}[X = x] $, d'où : $$ \log_2 \mathbb{P}[X = x, Y = y] = \log_2 \mathbb{P}[Y = y | X = x] + \log_2 \mathbb{P}[X = x] $$
En multipliant par $ -\mathbb{P}[X = x, Y = y] $ et en sommant sur tous les couples $ (x, y) $, on obtient : $$ \begin{aligned} H(X, Y) &= H(Y|X) + \sum_x \left(-\log_2 \mathbb{P}[X = x]\right) \underbrace{\sum_y \mathbb{P}[X = x, Y = y]}_{= \mathbb{P}[X = x]} \\ &= H(Y|X) + H(X) \end{aligned} $$
Par symétrie des rôles de $ X $ et $ Y $, on obtient de la même façon $ H(X, Y) = H(X|Y) + H(Y) $.
(b) Démontrer que $ H(X) + H(Y) \leq 2H(X, Y) $.
D'après la question 9.a, on a $ H(X) = H(X, Y) - H(Y|X) $. Or $ H(Y|X) \geq 0 $ car chaque terme de la somme définissant $ H(Y|X) $ est positif ou nul (par le même argument que la question 3). On en déduit que $ H(X) \leq H(X, Y) $.

De même, $ H(Y) = H(X, Y) - H(X|Y) \leq H(X, Y) $.

En additionnant ces deux inégalités, on obtient $ H(X) + H(Y) \leq 2H(X, Y) $.
(c) En utilisant la concavité de $ \phi $, démontrer que $ H(X) \geq H(X|Y) $. En déduire que $ H(Y) \geq H(Y|X) $.
On réécrit l'entropie conditionnelle en intervertissant les sommations : $$ H(X|Y) = \sum_y \mathbb{P}[Y = y] \sum_x \phi\bigl(\mathbb{P}[X = x | Y = y]\bigr) $$
Par concavité de $ \phi $ (démontrée à la question 2), on applique l'inégalité de Jensen sous sa forme discrète. Pour chaque $ x $ fixé : $$ \sum_y \mathbb{P}[Y = y]\,\phi\bigl(\mathbb{P}[X = x | Y = y]\bigr) \leq \phi\!\left(\sum_y \mathbb{P}[Y = y]\,\mathbb{P}[X = x | Y = y]\right) = \phi\bigl(\mathbb{P}[X = x]\bigr) $$ la dernière égalité provenant de la formule des probabilités totales.

En sommant sur $ x $, on obtient $ H(X|Y) \leq \sum_x \phi(\mathbb{P}[X = x]) = H(X) $.

Par symétrie des rôles de $ X $ et $ Y $, on en déduit de même que $ H(Y|X) \leq H(Y) $.
(d) Démontrer que $ H(X, Y) \leq H(X) + H(Y) $.
D'après la question 9.a, on a $ H(X, Y) = H(Y|X) + H(X) $. Or, d'après la question 9.c, on sait que $ H(Y|X) \leq H(Y) $.

On en déduit directement que $ H(X, Y) \leq H(X) + H(Y) $.

(a) Pour toute fonction $ f $ définie sur $ X(\Omega) $, démontrer que $ H(f(X)|X) = 0 $.
Sachant $ X = x $, la valeur $ f(X) = f(x) $ est déterministe. On a donc $ \mathbb{P}[f(X) = f(x) | X = x] = 1 $, et par conséquent $ \log_2 1 = 0 $.

Il s'ensuit que chaque terme de la somme définissant $ H(f(X)|X) $ est nul, d'où $ H(f(X)|X) = 0 $.
(b) Démontrer que $ H(X) \geq H(f(X)) $.
Par la règle de chaîne (question 9.a) appliquée au couple $ (f(X), X) $, on a : $$ H(f(X), X) = H(X|f(X)) + H(f(X)) $$
D'autre part, en appliquant la même règle dans l'autre sens : $$ H(f(X), X) = H(f(X)|X) + H(X) = 0 + H(X) = H(X) $$ la dernière égalité provenant de la question 10.a, puisque $ f(X) $ est entièrement déterminé par $ X $.

On en déduit que $ H(X) = H(X|f(X)) + H(f(X)) \geq H(f(X)) $, car $ H(X|f(X)) \geq 0 $.

Ce résultat signifie que toute transformation de $ X $ ne peut qu'en réduire l'entropie (ou la laisser inchangée) : on ne peut pas créer d'information en appliquant une fonction déterministe.

On suppose maintenant $ X(\Omega) $ de cardinal infini. On admet que si $ \mathbb{E}[X] < \infty $ alors $ H(X) $ existe. On admet également que l'inégalité de Gibbs s'étend au cas où $ X(\Omega) $ est dénombrable, sous réserve de convergence de la somme.

(a) Calculer l'entropie d'une variable aléatoire $ G $ de loi géométrique de paramètre $ p \in \,]0, 1[ $, en justifiant son existence.
Soit $ G \sim \mathcal{G}(p) $, avec $ \mathbb{P}[G = k] = p(1-p)^{k-1} $ pour $ k \geq 1 $. On justifie l'existence de l'entropie par le fait que $ \mathbb{E}[G] = 1/p < \infty $, ce qui assure la convergence de la série définissant $ H(G) $.

On calcule alors : $$ \begin{aligned} H(G) &= -\sum_{k=1}^{\infty} p(1-p)^{k-1}\bigl(\log_2 p + (k-1)\log_2(1-p)\bigr) \\ &= -\log_2 p - \log_2(1-p) \sum_{k=1}^{\infty} (k-1)p(1-p)^{k-1} \end{aligned} $$
Or la somme $ \sum_{k=1}^{\infty} (k-1)p(1-p)^{k-1} = \mathbb{E}[G] - 1 = \frac{1-p}{p} $. On en déduit : $$ H(G) = -\log_2 p - \frac{1-p}{p}\log_2(1-p) $$
(b) Montrer que pour toute variable aléatoire $ X $ discrète telle que $ \mathbb{E}[X] \leq \mathbb{E}[G] $, on a $ H(X) \leq H(G) $.
Posons $ p_k = \mathbb{P}[X = k] $ et $ q_k = p(1-p)^{k-1} $ (loi géométrique). Par l'inégalité de Gibbs (étendue au cas d'un support infini dénombrable) : $$ \sum_k p_k \log_2 \frac{q_k}{p_k} \leq 0 $$
On en déduit : $$ \begin{aligned} H(X) = -\sum_k p_k \log_2 p_k &\leq -\sum_k p_k \log_2 q_k \\ &= -\sum_k p_k \bigl(\log_2 p + (k-1)\log_2(1-p)\bigr) \\ &= -\log_2 p - (\mathbb{E}[X] - 1)\log_2(1-p) \end{aligned} $$
Comme $ \log_2(1-p) < 0 $ (car $ 0 < p < 1 $) et $ \mathbb{E}[X] \leq 1/p = \mathbb{E}[G] $, on a $ (\mathbb{E}[X] - 1) \leq (1/p - 1) $ et donc : $$ H(X) \leq -\log_2 p - \left(\frac{1}{p} - 1\right)\log_2(1-p) = H(G) $$
On conclut que parmi toutes les lois discrètes d'espérance donnée, la loi géométrique maximise l'entropie.

On considère maintenant que $ X(\Omega) $ est un intervalle de $ \mathbb{R} $ et $ X $ une variable aléatoire à densité continue $ f $ sur $ X(\Omega) $. On définit l'entropie différentielle de $ X $, sous réserve d'existence, par la formule : $$ H(X) = - \int_{-\infty}^{+\infty} f(x) \ln(f(x)) \,\mathrm{d}x $$
(a) Calculer l'entropie différentielle d'une loi uniforme sur $ [a, b] $.
Si $ X \sim \mathcal{U}([a, b]) $, alors $ f(x) = \frac{1}{b-a} $ sur $ [a, b] $ et $ 0 $ ailleurs. On calcule : $$ H(X) = -\int_a^b \frac{1}{b-a}\ln\frac{1}{b-a}\,\mathrm{d}x = -\ln\frac{1}{b-a} = \ln(b-a) $$
(b) Calculer l'entropie différentielle d'une variable aléatoire suivant une loi normale $ \mathcal{N}(m, \sigma^2) $.
Soit $ \psi(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}} $ la densité de la loi $ \mathcal{N}(m, \sigma^2) $. On a : $$ \ln\psi(x) = -\ln(\sigma\sqrt{2\pi}) - \frac{(x-m)^2}{2\sigma^2} $$
On en déduit : $$ \begin{aligned} H(X) &= -\int_{-\infty}^{+\infty}\psi(x)\ln\psi(x)\,\mathrm{d}x \\ &= \ln(\sigma\sqrt{2\pi}) + \frac{1}{2\sigma^2}\mathbb{E}[(X-m)^2] = \ln(\sigma\sqrt{2\pi}) + \frac{1}{2} \end{aligned} $$
On peut réécrire ce résultat sous la forme : $$ H(X) = \frac{1}{2}\ln(2\pi e \sigma^2) $$

(a) Soit $ X \sim \mathcal{N}(0, \sigma^2) $ de densité $ \psi $ et $ Y $ centrée de variance $ \sigma^2 $ de densité $ f $. Démontrer que : $$ H(Y) = \int_{-\infty}^{+\infty} f(x) \ln \frac{\psi(x)}{f(x)} \,\mathrm{d}x - \int_{-\infty}^{+\infty} f(x) \ln \psi(x) \,\mathrm{d}x $$
On utilise la décomposition $ \ln\frac{\psi(x)}{f(x)} = \ln\psi(x) - \ln f(x) $, d'où : $$ \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x = \int f(x)\ln\psi(x)\,\mathrm{d}x - \int f(x)\ln f(x)\,\mathrm{d}x = \int f(x)\ln\psi(x)\,\mathrm{d}x + H(Y) $$
En réarrangeant, on obtient directement : $$ H(Y) = \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x - \int f(x)\ln\psi(x)\,\mathrm{d}x $$
(b) En déduire que $ H(Y) \leq H(X) $. Interpréter ce résultat.
Par l'inégalité $ \ln u \leq u - 1 $ démontrée à la question 1, on a : $$ \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x \leq \int f(x)\left(\frac{\psi(x)}{f(x)} - 1\right)\mathrm{d}x = \int\psi(x)\,\mathrm{d}x - \int f(x)\,\mathrm{d}x = 1 - 1 = 0 $$
On en déduit que $ H(Y) \leq -\int f(x)\ln\psi(x)\,\mathrm{d}x $.

Or, comme $ Y $ est centrée de variance $ \sigma^2 $, on peut calculer : $$ -\int f(x)\ln\psi(x)\,\mathrm{d}x = \ln(\sigma\sqrt{2\pi}) + \frac{\mathbb{E}[Y^2]}{2\sigma^2} = \ln(\sigma\sqrt{2\pi}) + \frac{1}{2} = H(X) $$
On conclut que $ H(Y) \leq H(X) $.

Ce résultat signifie que parmi toutes les lois de variance donnée $ \sigma^2 $, la loi normale est celle qui maximise l'entropie différentielle. C'est un résultat fondamental en théorie de l'information.

Exercice 2

Soient $ \theta \geq 0 $, $ \beta > 0 $ et $ f $ la densité définie par : $$ f(x) = \frac{1}{\beta} e^{-(x - \theta)/\beta}\,\mathbf{1}_{x \geq \theta} $$
Soit $ (X_1, \ldots, X_n) $ un $ n $-uplet de v.a.r. mutuellement indépendantes et identiquement distribuées de densité $ f $.

Vérifier que $ f $ est une densité d'une loi de probabilité.
On vérifie que $ f \geq 0 $ (ce qui est clair par construction) et que l'intégrale vaut $ 1 $ : $$ \int_\theta^{+\infty}\frac{1}{\beta}e^{-(x-\theta)/\beta}\,\mathrm{d}x = \left[-e^{-(x-\theta)/\beta}\right]_\theta^{+\infty} = 0 - (-1) = 1 $$
On en déduit que $ f $ est bien une densité de probabilité. Il s'agit d'une loi exponentielle translatée : on peut écrire $ X_i = \theta + \beta E_i $ où $ E_i \sim \mathcal{E}(1) $.
Calculer $ \mathbb{E}[X_1] $ et $ \mathbb{V}(X_1) $ en justifiant leur existence.
En posant le changement de variable $ u = (x - \theta)/\beta $, on se ramène à $ U \sim \mathcal{E}(1) $ dont on sait que $ \mathbb{E}[U] = 1 $ et $ \mathbb{E}[U^2] = 2 $. L'existence des moments est garantie par la convergence de $ \int u^2 e^{-u}\,\mathrm{d}u $.

On calcule alors : $$ \mathbb{E}[X_1] = \int_0^{+\infty}(\theta + \beta u)e^{-u}\,\mathrm{d}u = \theta + \beta $$ $$ \mathbb{E}[X_1^2] = \int_0^{+\infty}(\theta + \beta u)^2 e^{-u}\,\mathrm{d}u = \theta^2 + 2\theta\beta + 2\beta^2 $$
Par la formule de König-Huygens : $$ \mathbb{V}(X_1) = \mathbb{E}[X_1^2] - (\mathbb{E}[X_1])^2 = \theta^2 + 2\theta\beta + 2\beta^2 - (\theta + \beta)^2 = \beta^2 $$
On pose $ Y_n = \min(X_1, X_2, \ldots, X_n) $. Déterminer une densité de $ Y_n $. Calculer son espérance et sa variance.
On détermine d'abord la fonction de survie de $ Y_n $. Pour $ y \geq \theta $, par indépendance des $ X_i $ : $$ \mathbb{P}[Y_n > y] = \prod_{i=1}^n \mathbb{P}[X_i > y] = \left(e^{-(y-\theta)/\beta}\right)^n = e^{-n(y-\theta)/\beta} $$
On reconnaît que $ Y_n $ suit une loi exponentielle translatée de paramètres $ (\theta, \beta/n) $, de densité : $$ f_{Y_n}(y) = \frac{n}{\beta}e^{-n(y-\theta)/\beta}\,\mathbf{1}_{y \geq \theta} $$
Par identification avec les résultats de la question 2 (en remplaçant $ \beta $ par $ \beta/n $), on en déduit : $$ \mathbb{E}[Y_n] = \theta + \frac{\beta}{n}, \qquad \mathbb{V}(Y_n) = \frac{\beta^2}{n^2} $$
$ Y_n $ est-il un estimateur sans biais de $ \theta $ ? Asymptotiquement sans biais ?
On a $ \mathbb{E}[Y_n] = \theta + \frac{\beta}{n} \neq \theta $, donc $ Y_n $ est un estimateur biaisé de $ \theta $, avec un biais valant $ \frac{\beta}{n} > 0 $.

Cependant, comme $ \mathbb{E}[Y_n] \xrightarrow[n \to \infty]{} \theta $, l'estimateur $ Y_n $ est asymptotiquement sans biais.
(a) Déduire des questions précédentes l'erreur quadratique moyenne $ \mathbb{E}\left[(Y_n - \theta)^2\right] $.
On utilise la décomposition classique de l'erreur quadratique moyenne en variance plus biais au carré : $$ \mathbb{E}[(Y_n - \theta)^2] = \mathbb{V}(Y_n) + \bigl(\mathbb{E}[Y_n] - \theta\bigr)^2 = \frac{\beta^2}{n^2} + \frac{\beta^2}{n^2} = \frac{2\beta^2}{n^2} $$
(b) La suite $ (Y_n)_n $ converge-t-elle dans $ L^2 $ ? En probabilité ?
On a $ \mathbb{E}[(Y_n - \theta)^2] = \frac{2\beta^2}{n^2} \to 0 $ quand $ n \to +\infty $. On en déduit que $ Y_n $ converge vers $ \theta $ dans $ L^2 $.

Or la convergence dans $ L^2 $ implique la convergence en probabilité. On conclut donc que $ Y_n \xrightarrow[n \to +\infty]{\mathbb{P}} \theta $.
(a) On pose $ S_n = \sum_{i=1}^{n} X_i $ et $ Z_n = \frac{1}{n}S_n - Y_n $. Calculer $ \mathbb{E}[Z_n] $.
Par linéarité de l'espérance, on a : $$ \mathbb{E}[Z_n] = \frac{\mathbb{E}[S_n]}{n} - \mathbb{E}[Y_n] = (\theta + \beta) - \left(\theta + \frac{\beta}{n}\right) = \beta\left(1 - \frac{1}{n}\right) = \frac{(n-1)\beta}{n} $$
(b) $ Z_n $ est-il un estimateur sans biais de $ \beta $ ? Asymptotiquement sans biais ?
On a $ \mathbb{E}[Z_n] = \frac{(n-1)\beta}{n} \neq \beta $, donc $ Z_n $ est un estimateur biaisé de $ \beta $.

Cependant, comme $ \mathbb{E}[Z_n] \xrightarrow[n \to \infty]{} \beta $, l'estimateur $ Z_n $ est asymptotiquement sans biais.
(a) Calculer $ \mathbb{V}(Z_n) $ en fonction de $ \mathrm{cov}(S_n, Y_n) $.
En notant $ \bar{X}_n = S_n/n $, on a $ Z_n = \bar{X}_n - Y_n $. Par la formule de la variance d'une différence : $$ \mathbb{V}(Z_n) = \mathbb{V}(\bar{X}_n) + \mathbb{V}(Y_n) - 2\,\mathrm{cov}(\bar{X}_n, Y_n) $$
Or $ \mathbb{V}(\bar{X}_n) = \frac{\mathbb{V}(X_1)}{n} = \frac{\beta^2}{n} $ et $ \mathrm{cov}(\bar{X}_n, Y_n) = \frac{1}{n}\mathrm{cov}(S_n, Y_n) $. On en déduit : $$ \mathbb{V}(Z_n) = \frac{\beta^2}{n} + \frac{\beta^2}{n^2} - \frac{2}{n}\mathrm{cov}(S_n, Y_n) $$
(b) Montrer que $ \mathbb{V}(Z_n) $ tend vers zéro quand $ n $ tend vers l'infini.
Par l'inégalité de Cauchy-Schwarz appliquée à la covariance : $$ |\mathrm{cov}(S_n, Y_n)| \leq \sqrt{\mathbb{V}(S_n)\,\mathbb{V}(Y_n)} = \sqrt{n\beta^2 \cdot \frac{\beta^2}{n^2}} = \frac{\beta^2}{\sqrt{n}} $$
On en déduit que $ \left|\frac{2}{n}\mathrm{cov}(S_n, Y_n)\right| \leq \frac{2\beta^2}{n\sqrt{n}} \to 0 $ quand $ n \to +\infty $.

Par conséquent, chaque terme de l'expression de $ \mathbb{V}(Z_n) $ tend vers zéro, et on conclut que $ \mathbb{V}(Z_n) \to 0 $.
(c) La suite $ (Z_n)_n $ converge-t-elle dans $ L^2 $ ? En probabilité ?
On calcule l'erreur quadratique moyenne : $$ \mathbb{E}[(Z_n - \beta)^2] = \mathbb{V}(Z_n) + (\mathbb{E}[Z_n] - \beta)^2 = \mathbb{V}(Z_n) + \frac{\beta^2}{n^2} \to 0 $$
On en déduit que $ Z_n $ converge vers $ \beta $ dans $ L^2 $, et par conséquent en probabilité.
(a) Démontrer que le couple $ (\widehat{\theta}_n, \widehat{\beta}_n) $ donné par : $$ \widehat{\theta}_n = \frac{1}{n-1}\left(nY_n - \frac{S_n}{n}\right), \qquad \widehat{\beta}_n = \frac{1}{n-1}\left(S_n - nY_n\right) $$ est un estimateur sans biais du couple $ (\theta, \beta) $.
Calculons les espérances de chaque composante. Par linéarité de l'espérance : $$ \begin{aligned} \mathbb{E}[\widehat{\theta}_n] &= \frac{1}{n-1}\left(n\,\mathbb{E}[Y_n] - \frac{\mathbb{E}[S_n]}{n}\right) = \frac{1}{n-1}\left(n\!\left(\theta + \frac{\beta}{n}\right) - (\theta + \beta)\right) = \frac{(n-1)\theta}{n-1} = \theta \end{aligned} $$ $$ \begin{aligned} \mathbb{E}[\widehat{\beta}_n] &= \frac{1}{n-1}\left(\mathbb{E}[S_n] - n\,\mathbb{E}[Y_n]\right) = \frac{1}{n-1}\left(n(\theta + \beta) - n\theta - \beta\right) = \frac{(n-1)\beta}{n-1} = \beta \end{aligned} $$
On en déduit que $ (\widehat{\theta}_n, \widehat{\beta}_n) $ est bien un estimateur sans biais de $ (\theta, \beta) $.
(b) Calculer la variance de $ \widehat{\theta}_n $ et celle de $ \widehat{\beta}_n $.
On remarque que $ \widehat{\beta}_n = \frac{n}{n-1}Z_n $ et $ \widehat{\theta}_n = Y_n - \frac{Z_n}{n-1} $.

On utilise le fait que $ \mathrm{cov}(S_n, Y_n) = \sum_{i=1}^n \mathrm{cov}(X_i, Y_n) $. Par symétrie des $ X_i $, chaque terme $ \mathrm{cov}(X_i, Y_n) $ est identique. Un calcul donne $ \mathrm{cov}(S_n, Y_n) = \frac{\beta^2}{n} $, d'où $ \mathrm{cov}(\bar{X}_n, Y_n) = \frac{\beta^2}{n^2} $.

On en déduit : $$ \mathbb{V}(Z_n) = \frac{\beta^2}{n} + \frac{\beta^2}{n^2} - \frac{2\beta^2}{n^2} = \frac{(n-1)\beta^2}{n^2} $$
Pour $ \widehat{\beta}_n $, on a alors : $$ \mathbb{V}(\widehat{\beta}_n) = \frac{n^2}{(n-1)^2} \cdot \frac{(n-1)\beta^2}{n^2} = \frac{\beta^2}{n-1} $$
Pour $ \widehat{\theta}_n = Y_n - \frac{1}{n-1}Z_n $, on applique la formule de la variance : $$ \mathbb{V}(\widehat{\theta}_n) = \mathbb{V}(Y_n) + \frac{1}{(n-1)^2}\mathbb{V}(Z_n) - \frac{2}{n-1}\mathrm{cov}(Y_n, Z_n) $$
Après calcul, on obtient : $$ \mathbb{V}(\widehat{\theta}_n) = \frac{(2n-1)\beta^2}{n^2(n-1)} $$

Démontrer que $ \frac{\sqrt{n}}{\beta}\left(\frac{S_n}{n} - (\theta + \beta)\right) $ converge en loi vers une variable aléatoire dont on précisera la loi.
Les $ X_i $ sont i.i.d. d'espérance $ \theta + \beta $ et de variance $ \beta^2 $. Par le théorème central limite, on a : $$ \frac{\sqrt{n}}{\beta}\left(\frac{S_n}{n} - (\theta + \beta)\right) = \frac{\bar{X}_n - \mathbb{E}[X_1]}{\sqrt{\mathbb{V}(X_1)/n}} \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $$
On en déduit que cette quantité converge en loi vers une variable aléatoire de loi normale centrée réduite $ \mathcal{N}(0, 1) $.
Soit $ T_n = \frac{\sqrt{n}}{\beta}(Y_n - \theta) $. Déterminer une densité de $ T_n $ et étudier la convergence en probabilité de $ T_n $.
On sait que $ Y_n - \theta $ suit une loi exponentielle de paramètre $ \beta/n $, de densité $ \frac{n}{\beta}e^{-nt/\beta} $ pour $ t \geq 0 $.

Par le changement de variable $ T_n = \frac{\sqrt{n}}{\beta}(Y_n - \theta) $, on obtient par la formule du transfert la densité de $ T_n $ : $$ f_{T_n}(t) = \sqrt{n}\,e^{-\sqrt{n}\,t}\,\mathbf{1}_{t \geq 0} $$
On reconnaît une loi exponentielle de paramètre $ \sqrt{n} $.

On en déduit que $ \mathbb{E}[T_n] = \frac{1}{\sqrt{n}} \to 0 $ et $ \mathbb{V}(T_n) = \frac{1}{n} \to 0 $. Par l'inégalité de Bienaymé-Tchebychev, on conclut que $ T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 $.
Lemme admis. Si $ (U_n) $ converge en loi vers $ U $ et $ (V_n) $ converge vers $ 0 $ en probabilité, alors $ (U_n + V_n) $ converge en loi vers $ U $.

Démontrer que $ \frac{\sqrt{n}}{\beta}(Z_n - \beta) $ converge en loi vers une variable aléatoire dont on précisera la loi.
On écrit : $$ \frac{\sqrt{n}}{\beta}(Z_n - \beta) = \frac{\sqrt{n}}{\beta}\!\left(\bar{X}_n - Y_n - \beta\right) = \underbrace{\frac{\sqrt{n}}{\beta}\!\left(\bar{X}_n - (\theta + \beta)\right)}_{=:\,U_n} - \underbrace{\frac{\sqrt{n}}{\beta}(Y_n - \theta)}_{=:\,T_n} $$
D'après la question 9, on sait que $ U_n \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $.

D'après la question 10, on sait que $ T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 $.

Par le lemme admis (lemme de Slutsky) avec $ V_n = -T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 $, on a : $$ U_n + V_n = U_n - T_n \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $$
On en conclut que $ \dfrac{\sqrt{n}}{\beta}(Z_n - \beta) \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $.