Concours externe d'administrat·eur·rice de l'Insee — 2025

Épreuve de mathématiques


Le sujet est accessible ici au format PDF.

Les propositions de corrections présentées ci-dessous n'engagent que l'auteur de ce site.


Partie 1 — Analyse et algèbre

Problème

Notations.

•   \( n \) désigne un entier naturel non nul.

•   \( \mathbb{R}_n[X] \) désigne le \( \mathbb{R} \)-espace vectoriel des polynômes à coefficients réels, de degré inférieur ou égal à \( n \).

•   \( \mathcal{B} \) désigne la base canonique de \( \mathbb{R}_n[X] \).

•   Un polynôme est dit unitaire si le coefficient de son monôme de plus haut degré est égal à \( 1 \).

•   Si \( a \) et \( b \) sont deux entiers tels que \( a \leq b \), \( [a, b] \) désigne l'ensemble des entiers \( k \) tels que \( a \leq k \leq b \).

Préliminaire

  1. Question de cours. Énoncer et démontrer la formule d'intégration par parties.

    On énonce la formule d'intégration par parties.

    Soient \( u, v \) deux fonctions de classe \( \mathcal{C}^1 \) sur \( [a, b] \). Alors : $$ \int_a^b u(t)v'(t)\,\mathrm{d}t = \bigl[u(t)v(t)\bigr]_a^b - \int_a^b u'(t)v(t)\,\mathrm{d}t $$
    Pour la démontrer, on remarque que la fonction \( t \mapsto u(t)v(t) \) est de classe \( \mathcal{C}^1 \) sur \( [a, b] \) en tant que produit de fonctions de classe \( \mathcal{C}^1 \), et que sa dérivée vaut \( u'v + uv' \).

    Par le théorème fondamental de l'analyse, on a alors : $$ \int_a^b \bigl(u'(t)v(t) + u(t)v'(t)\bigr)\,\mathrm{d}t = \bigl[u(t)v(t)\bigr]_a^b $$
    On en déduit immédiatement le résultat en isolant \( \int_a^b u(t)v'(t)\,\mathrm{d}t \) par linéarité de l'intégrale.

  2. Question de cours. Énoncer et démontrer la formule de Leibniz donnant la dérivée \( n \)-ième d'un produit de deux fonctions \( n \) fois dérivables.

    On énonce la formule de Leibniz.

    Soient \( f, g \) deux fonctions \( n \) fois dérivables sur un intervalle \( I \). Alors : $$ (fg)^{(n)} = \sum_{j=0}^{n} \binom{n}{j} f^{(j)} g^{(n-j)} $$
    On la démontre par récurrence sur \( n \).

    Initialisation

    Pour \( n = 0 \), on a \( (fg)^{(0)} = fg = \binom{0}{0}f^{(0)}g^{(0)} \), ce qui est bien conforme à la formule.

    Hérédité

    On suppose la formule vraie au rang \( n \). On dérive l'expression obtenue : $$ (fg)^{(n+1)} = \left(\sum_{j=0}^n \binom{n}{j} f^{(j)} g^{(n-j)}\right)' = \sum_{j=0}^n \binom{n}{j}\bigl(f^{(j+1)}g^{(n-j)} + f^{(j)}g^{(n-j+1)}\bigr) $$
    En réindexant la première somme par le changement d'indice \( j \to j-1 \), puis en regroupant les termes à l'aide de la relation de Pascal \( \binom{n}{j-1} + \binom{n}{j} = \binom{n+1}{j} \), on retrouve bien la formule au rang \( n+1 \).

    On en déduit par le principe de récurrence que la formule de Leibniz est valable pour tout \( n \in \mathbb{N} \).

  3. Soit \( (a, b) \in \mathbb{R}^2 \) tel que \( a < b \). Soit \( k \in \mathbb{N}^* \). Soient \( f \) et \( g \) deux fonctions de classe \( \mathcal{C}^k \) sur \( [a, b] \). Montrer que : $$ \int_{a}^{b} f(t) g^{(k)}(t) \,\mathrm{d}t = \left[ \sum_{j=0}^{k-1} (-1)^{j} f^{(j)}(t) g^{(k-j-1)}(t) \right]_{a}^{b} + (-1)^{k} \int_{a}^{b} f^{(k)}(t) g(t) \,\mathrm{d}t $$

    On démontre cette formule par récurrence sur \( k \).

    Initialisation

    Pour \( k = 1 \), la formule se réduit à : $$ \int_{a}^{b} f(t) g'(t) \,\mathrm{d}t = \left[ f(t) g(t) \right]_{a}^{b} - \int_{a}^{b} f'(t) g(t) \,\mathrm{d}t $$ C'est exactement la formule d'intégration par parties classique démontrée à la question précédente.

    Hérédité

    On suppose la formule vraie au rang \( k \). On l'applique en posant \( \tilde{g} = g' \), de sorte que \( \tilde{g}^{(k)} = g^{(k+1)} \) : $$ \int_a^b f(t)\, g^{(k+1)}(t)\,\mathrm{d}t = \left[\sum_{j=0}^{k-1}(-1)^j f^{(j)}(t)\,g^{(k-j)}(t)\right]_a^b + (-1)^k\int_a^b f^{(k)}(t)\,g'(t)\,\mathrm{d}t $$
    Or \( \tilde{g}^{(k-j-1)} = g^{(k-j)} \). On effectue ensuite une intégration par parties supplémentaire sur le dernier terme : $$ (-1)^k\int_a^b f^{(k)}(t)\,g'(t)\,\mathrm{d}t = (-1)^k\bigl[f^{(k)}(t)\,g(t)\bigr]_a^b + (-1)^{k+1}\int_a^b f^{(k+1)}(t)\,g(t)\,\mathrm{d}t $$
    En regroupant les termes entre crochets, on retrouve bien la formule au rang \( k + 1 \).

    On conclut par le principe de récurrence que la formule est valable pour tout \( k \in \mathbb{N}^* \).

Partie I — Étude d’une application

On note \( \varphi \) l'application qui, à tout polynôme \( P \) de \( \mathbb{R}_n[X] \), associe le polynôme \( \varphi(P) = Q \) défini par : $$ Q(X) = (X - 1)P'(X) - XP''(X) $$

  1. (a) Montrer que \( \varphi \) est un endomorphisme de \( \mathbb{R}_n[X] \).

    On montre que \( \varphi \) est un endomorphisme de \( \mathbb{R}_n[X] \) en vérifiant la linéarité et la stabilité.

    L'application \( \varphi \) est composée d'opérations linéaires (dérivation, multiplication par un polynôme fixé, somme), donc \( \varphi \) est linéaire.

    Puis, si \( P \in \mathbb{R}_n[X] \) avec \( \deg P = d \leq n \), alors \( \deg P' \leq d - 1 \) et \( \deg P'' \leq d - 2 \). On en déduit que \( \deg\bigl((X-1)P'\bigr) \leq d \) et \( \deg(XP'') \leq d - 1 \). Ainsi \( \deg \varphi(P) \leq d \leq n \), ce qui montre que \( \varphi(P) \in \mathbb{R}_n[X] \).

    On conclut que \( \varphi \) est bien un endomorphisme de \( \mathbb{R}_n[X] \).

    (b) Écrire la matrice représentative de \( \varphi \) dans la base canonique de \( \mathbb{R}_n[X] \).

    Calculons \( \varphi(X^d) \) pour \( d \in \{0, \ldots, n\} \). On a : $$ \varphi(X^d) = (X-1) \cdot dX^{d-1} - X \cdot d(d-1)X^{d-2} = dX^d - dX^{d-1} - d(d-1)X^{d-1} $$
    En simplifiant, on obtient : $$ \varphi(X^d) = dX^d - d^2 X^{d-1} $$
    En particulier, on a \( \varphi(1) = 0 \), \( \varphi(X) = X \), \( \varphi(X^2) = 2X^2 - 4X \), etc.

    La matrice dans la base canonique \( \mathcal{B} = (1, X, \ldots, X^n) \) est donc triangulaire supérieure : $$ M = \begin{pmatrix} 0 & 0 & 0 & 0 & \cdots & 0\\ 0 & 1 & -4 & 0 & \cdots & 0\\ 0 & 0 & 2 & -9 & \cdots & 0\\ \vdots & & \ddots & \ddots & \ddots & \vdots\\ 0 & 0 & \cdots & 0 & n-1 & -n^2\\ 0 & 0 & \cdots & 0 & 0 & n \end{pmatrix} $$
    On lit sur cette matrice que les coefficients diagonaux valent \( 0, 1, 2, \ldots, n \) et que le coefficient supradiagonal en position \( (d-1, d) \) vaut \( -d^2 \).

    (c) Montrer que l'endomorphisme \( \varphi \) est diagonalisable. Déterminer ses valeurs propres et la dimension des sous-espaces propres associés.

    La matrice \( M \) est triangulaire supérieure, donc ses valeurs propres sont les éléments diagonaux : \( 0, 1, 2, \ldots, n \). Ce sont \( n + 1 \) valeurs propres distinctes dans un espace de dimension \( n + 1 \).

    Or, un endomorphisme d'un espace de dimension finie qui admet autant de valeurs propres distinctes que la dimension de l'espace est nécessairement diagonalisable.

    On en déduit que \( \varphi \) est diagonalisable, avec pour valeurs propres \( \lambda_k = k \) pour \( k \in \{0, \ldots, n\} \), et chaque sous-espace propre est de dimension \( 1 \).

  1. (a) Pour tout \( k \) élément de \( [0, n] \), justifier l'existence d'un unique polynôme unitaire, que l'on notera \( L_k \), tel que \( \varphi(L_k) = kL_k \). Déterminer le degré de ce polynôme \( L_k \).

    Chaque sous-espace propre \( E_k = \ker(\varphi - k\,\mathrm{Id}) \) est de dimension \( 1 \) d'après la question précédente. Ainsi, il existe, à un scalaire multiplicatif près, un unique polynôme propre associé à la valeur propre \( k \). En imposant la condition d'unitarité (coefficient dominant égal à \( 1 \)), ce polynôme est déterminé de façon unique. On le note \( L_k \).

    De plus, d'après l'expression \( \varphi(X^d) = dX^d - d^2 X^{d-1} \), la relation \( \varphi(P) = kP \) impose que le coefficient dominant de \( P \) contribue au terme \( dX^d \) avec \( d = k \). On en déduit que \( \deg L_k = k \).

    (b) Expliciter \( L_0 \).

    On a \( \varphi(L_0) = 0 \cdot L_0 = 0 \) et \( L_0 \) est unitaire de degré \( 0 \), donc \( L_0 = 1 \).

    Dans la suite de cette partie, \( k \) est un élément de \( [0, n] \).

    On note \( L_k = \sum_{i=0}^{k} a_i X^i \), avec \( a_k = 1 \) et \( (a_0, \ldots, a_{k-1}) \in \mathbb{R}^k \).

    (c) Soit \( k \in \mathbb{N}^* \). Soit \( i \in [0, k-1] \). Montrer que \( (k - i)a_i = -(i+1)^2 a_{i+1} \).

    On écrit la relation \( \varphi(L_k) = kL_k \) en développant le membre de gauche : $$ \varphi(L_k) = \sum_{i=1}^k a_i \varphi(X^i) = \sum_{i=1}^k a_i \bigl(iX^i - i^2 X^{i-1}\bigr) $$
    Le coefficient de \( X^i \) (pour \( 0 \leq i \leq k-1 \)) dans \( \varphi(L_k) \) vaut alors : $$ i\,a_i - (i+1)^2 a_{i+1} $$
    Par ailleurs, le coefficient de \( X^i \) dans \( kL_k \) est \( k\,a_i \). En identifiant les coefficients, on obtient : $$ i\,a_i - (i+1)^2 a_{i+1} = k\,a_i $$
    On en déduit bien la relation demandée : \( (k - i)a_i = -(i+1)^2 a_{i+1} \).

    (d) En déduire, pour tout \( i \in [0, k] \), l'expression de \( a_i \) en fonction de \( i \), de \( k \) et de \( \binom{k}{i} \).

    De la relation \( (k - i)a_i = -(i+1)^2 a_{i+1} \), on tire : $$ a_i = \frac{-(i+1)^2}{k-i}\,a_{i+1} $$
    En partant de \( a_k = 1 \) et en descendant par récurrence, on calcule les premiers termes : $$ a_{k-1} = \frac{-k^2}{1} \cdot 1 = -k^2, \quad a_{k-2} = \frac{-(k-1)^2}{2} \cdot (-k^2) = \frac{k^2(k-1)^2}{2} $$
    En poursuivant la récurrence descendante, on obtient pour tout \( i \in [0, k] \) : $$ a_i = (-1)^{k-i}\,\binom{k}{i}\,\frac{k!}{i!} $$
    On vérifie : pour \( i = k \), on a bien \( a_k = (-1)^0 \binom{k}{k}\frac{k!}{k!} = 1 \), et la relation de récurrence est satisfaite.

  1. (a) Pour tout \( k \in \mathbb{N} \), on note \( f_k \) la fonction réelle définie par \( f_k : x \mapsto x^k e^{-x} \). Tracer la courbe représentative sur \( \mathbb{R} \) des fonctions \( f_0 \) et \( f_1 \).

    Pour \( f_0(x) = e^{-x} \) : c'est une fonction strictement décroissante et convexe sur \( \mathbb{R} \), avec \( f_0(0) = 1 \), \( \lim_{x \to +\infty} f_0(x) = 0 \) et \( \lim_{x \to -\infty} f_0(x) = +\infty \).

    Pour \( f_1(x) = xe^{-x} \) : on a \( f_1'(x) = (1-x)e^{-x} \), donc \( f_1 \) admet un maximum en \( x = 1 \) valant \( e^{-1} \). De plus, \( f_1(0) = 0 \), \( \lim_{x \to +\infty} f_1(x) = 0 \) et \( \lim_{x \to -\infty} f_1(x) = -\infty \).

    Les courbes sont celles classiques de \( e^{-x} \) (exponentielle décroissante) et de \( xe^{-x} \) (cloche asymétrique passant par l'origine).

    (b) Soit \( k \in \mathbb{N}^* \). Soit \( i \in [0, k-1] \). Calculer \( f_k^{(i)}(0) \).

    Par la formule de Leibniz appliquée à \( f_k = x^k \cdot e^{-x} \), on a : $$ f_k^{(i)}(x) = \sum_{j=0}^{i} \binom{i}{j} (x^k)^{(j)} (e^{-x})^{(i-j)} $$
    Or \( (x^k)^{(j)} = \frac{k!}{(k-j)!} x^{k-j} \) si \( j \leq k \), et \( 0 \) sinon.

    En évaluant en \( x = 0 \), le terme \( x^{k-j} \) s'annule dès que \( k - j \geq 1 \), c'est-à-dire pour \( j \leq k - 1 \). Pour que ce terme ne s'annule pas, il faudrait \( j = k \), mais comme \( j \leq i < k \), ce cas n'apparaît pas dans la somme.

    On en déduit que tous les termes de la somme s'annulent en \( 0 \), et donc que \( f_k^{(i)}(0) = 0 \) pour tout \( i \in \{0, \ldots, k-1\} \).

    (c) Montrer que : $$ \forall k \in [0, n], \quad \forall x \in \mathbb{R}, \quad L_k(x) = (-1)^k e^x f_k^{(k)}(x) $$

    Posons \( P(x) = (-1)^k e^x f_k^{(k)}(x) \). On applique la formule de Leibniz à \( f_k^{(k)}(x) = (x^k e^{-x})^{(k)} \) : $$ f_k^{(k)}(x) = \sum_{j=0}^k \binom{k}{j} \frac{k!}{(k-j)!} x^{k-j} \cdot (-1)^{k-j} e^{-x} $$
    En multipliant par \( (-1)^k e^x \), on obtient : $$ P(x) = (-1)^k e^x \cdot e^{-x} \sum_{j=0}^k \binom{k}{j} \frac{k!}{(k-j)!} (-1)^{k-j} x^{k-j} = \sum_{j=0}^k (-1)^{-j} \binom{k}{j} \frac{k!}{(k-j)!} x^{k-j} $$
    En posant le changement d'indice \( i = k - j \), on obtient : $$ P(x) = \sum_{i=0}^k (-1)^{k-i} \binom{k}{i} \frac{k!}{i!} x^i $$
    On reconnaît exactement l'expression \( \sum_{i=0}^k a_i x^i = L_k(x) \) d'après la question I.2.d. On en déduit bien que \( L_k(x) = (-1)^k e^x f_k^{(k)}(x) \).

Partie II — Étude d’un produit scalaire sur ( \mathbb{R}_n[X] )

  1. (a) Soit \( (P, Q) \in (\mathbb{R}_n[X])^2 \). Vérifier que l'intégrale \( \displaystyle\int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x \) est convergente.

    Pour \( (P, Q) \in (\mathbb{R}_n[X])^2 \), le produit \( P(x)Q(x) \) est un polynôme de degré au plus \( 2n \). On a donc, pour \( x \) assez grand, \( |e^{-x}P(x)Q(x)| \leq C\,x^{2n}e^{-x} \) pour un certain \( C > 0 \).

    Or, par les croissances comparées, l'intégrale \( \int_0^{+\infty} x^{2n} e^{-x}\,\mathrm{d}x = \Gamma(2n+1) = (2n)! < +\infty \) converge (c'est la fonction Gamma évaluée en \( 2n + 1 \)).

    On en déduit par comparaison que l'intégrale \( \int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x \) est bien convergente.

    (b) Pour tout \( (P, Q) \in (\mathbb{R}_n[X])^2 \), on pose : $$ \Psi(P, Q) = \int_0^{+\infty} e^{-x} P(x) Q(x) \,\mathrm{d}x $$ Montrer que \( \Psi \) définit un produit scalaire sur \( \mathbb{R}_n[X] \).

    On notera désormais \( \langle P, Q \rangle = \Psi(P, Q) \) et \( \|P\| = \sqrt{\Psi(P, P)} \).

    On montre que \( \Psi \) est un produit scalaire sur \( \mathbb{R}_n[X] \) en vérifiant les propriétés associées :

    •   la forme \( \Psi \) est bilinéaire par linéarité de l'intégrale

    •   la forme \( \Psi \) est symétrique car \( P(x)Q(x) = Q(x)P(x) \) pour tout \( x \)

    •   la forme \( \Psi \) est positive car \( \forall P \in \mathbb{R}_n[X] \) : $$ \Psi(P, P) = \int_0^{+\infty} e^{-x} P(x)^2 \,\mathrm{d}x \geq 0 $$ car l'intégrande est positive.

    •   la forme \( \Psi \) est définie positive car si \( \Psi(P, P) = 0 \), alors \( e^{-x}P(x)^2 = 0 \) presque partout sur \( [0, +\infty[ \). Comme \( e^{-x} > 0 \) pour tout \( x \) et que \( P^2 \) est continue, on a nécessairement \( P(x) = 0 \) pour tout \( x \geq 0 \). Or un polynôme non nul de degré au plus \( n \) a au plus \( n \) racines, donc \( P = 0 \).

    On en déduit que \( \Psi \) est bien un produit scalaire sur \( \mathbb{R}_n[X] \).

  1. (a) Soit \( i \in [0, n] \). Soit \( k \in [1, n] \). Montrer que : $$ \forall x \in \mathbb{R}, \quad \int_0^{x} L_i(t) f_k^{(k)}(t) \,\mathrm{d}t = \sum_{j=0}^{k-1} (-1)^j L_i^{(j)}(x) f_k^{(k-j-1)}(x) + (-1)^k \int_0^{x} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$

    On applique la formule d'intégration par parties itérée démontrée à la question préliminaire 3, sur le segment \( [0, x] \), avec les fonctions \( L_i \) (dans le rôle de \( f \)) et \( f_k \) (dans le rôle de \( g \), de sorte que \( g^{(k)} = f_k^{(k)} \)). Ces fonctions sont bien de classe \( \mathcal{C}^k \).

    On obtient alors directement la formule annoncée, en notant que les termes entre crochets évalués en \( t = 0 \) s'annulent tous grâce au résultat de la question I.3.b qui nous donne \( f_k^{(j)}(0) = 0 \) pour tout \( j \in [0, k-1] \).

    (b) Soit \( (i, k) \in [0, n]^2 \). Montrer que : $$ \int_0^{+\infty} L_i(t) L_k(t) e^{-t} \,\mathrm{d}t = \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$

    D'après la question I.3.c, on a \( L_k(t)e^{-t} = (-1)^k f_k^{(k)}(t) \). On peut donc écrire : $$ \langle L_i, L_k \rangle = \int_0^{+\infty} L_i(t) \cdot (-1)^k f_k^{(k)}(t) \,\mathrm{d}t $$
    En passant à la limite \( x \to +\infty \) dans la formule de la question II.2.a, les termes entre crochets s'annulent : en \( 0 \) par la question I.3.b (car \( f_k^{(j)}(0) = 0 \) pour \( j < k \)), et en \( +\infty \) par les croissances comparées (car \( f_k^{(j)}(t) \) contient un facteur \( e^{-t} \) qui l'emporte sur tout polynôme).

    On obtient ainsi : $$ \int_0^{+\infty} L_i(t) f_k^{(k)}(t) \,\mathrm{d}t = (-1)^k \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$
    En multipliant par \( (-1)^k \), on en déduit : $$ \langle L_i, L_k \rangle = (-1)^{2k} \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t = \int_0^{+\infty} L_i^{(k)}(t) f_k(t) \,\mathrm{d}t $$

    (c) Soit \( (i, k) \in [0, n]^2 \) tels que \( i < k \). Calculer \( \langle L_i, L_k \rangle \).

    Si \( i < k \), alors \( \deg L_i = i < k \), et par conséquent \( L_i^{(k)} = 0 \) puisqu'on dérive un polynôme de degré \( i \) au moins \( k > i \) fois.

    D'après la question précédente, on a alors : $$ \langle L_i, L_k \rangle = \int_0^{+\infty} 0 \cdot f_k(t) \,\mathrm{d}t = 0 $$
    Par symétrie du produit scalaire, on en déduit que \( \langle L_i, L_k \rangle = 0 \) dès que \( i \neq k \). Autrement dit, les polynômes \( L_0, L_1, \ldots, L_n \) sont deux à deux orthogonaux pour le produit scalaire \( \Psi \).

    (d) Soit \( k \in [0, n] \). Déterminer la norme de \( L_k \).

    Pour \( i = k \), on a \( L_k^{(k)} = k! \) car \( L_k \) est un polynôme unitaire de degré \( k \).

    D'après la question II.2.b, on obtient : $$ \|L_k\|^2 = k! \int_0^{+\infty} t^k e^{-t} \,\mathrm{d}t = k! \cdot \Gamma(k+1) = k! \cdot k! = (k!)^2 $$
    On en déduit que \( \|L_k\| = k! \).

    (e) Déduire de ce qui précède une base orthonormale \( \mathcal{C} \) de \( \mathbb{R}_n[X] \).

    La famille \( (L_0, L_1, \ldots, L_n) \) est constituée de \( n + 1 \) vecteurs propres associés à des valeurs propres distinctes de \( \varphi \), elle est donc libre. Comme elle est de cardinal \( n + 1 = \dim \mathbb{R}_n[X] \), c'est une base de \( \mathbb{R}_n[X] \). De plus, elle est orthogonale d'après la question II.2.c.

    En normalisant chaque vecteur par sa norme, on obtient la base orthonormale : $$ \mathcal{C} = \left(\frac{L_0}{0!},\, \frac{L_1}{1!},\, \frac{L_2}{2!},\, \ldots,\, \frac{L_n}{n!}\right) = \left(L_0,\, L_1,\, \frac{L_2}{2},\, \ldots,\, \frac{L_n}{n!}\right) $$
    On notera que les polynômes \( L_k \) sont connus sous le nom de polynômes de Laguerre.

Partie III — Étude des racines de ( L_n )

Soit \( n \in \mathbb{N}^* \). Si l'on note \( x_1, \ldots, x_p \) les racines positives, d'ordre de multiplicité impair, de \( L_n \), on pose : $$ R(X) = \prod_{j=1}^{p} (X - x_j) $$ Dans cette écriture, les réels \( x_j \) sont deux à deux distincts.

Si \( L_n \) n'a pas de racine d'ordre impair dans \( \mathbb{R}^+ \), on pose \( R(X) = 1 \).

  1. (a) Énoncer le théorème des valeurs intermédiaires.

    On énonce le théorème des valeurs intermédiaires.

    Soit \( f : [a, b] \to \mathbb{R} \) une fonction continue. Pour tout réel \( \gamma \) compris entre \( f(a) \) et \( f(b) \), il existe \( c \in [a, b] \) tel que \( f(c) = \gamma \).

    (b) Déterminer le signe de \( RL_n \) sur \( \mathbb{R}^+ \).

    Par construction, les \( x_j \) sont exactement les racines de \( L_n \) dans \( \mathbb{R}^+ \) dont la multiplicité est impaire. En chacun de ces points \( x_j \), la fonction \( L_n \) change de signe, et \( R \) également (car \( x_j \) est racine simple de \( R \)). Par conséquent, le produit \( RL_n \) ne change pas de signe en ces points.

    Aux racines de \( L_n \) de multiplicité paire, \( L_n \) ne change pas de signe, et \( R \) non plus puisque ces points ne sont pas des racines de \( R \).

    Ainsi, le produit \( RL_n \) garde un signe constant sur \( \mathbb{R}^+ \). Pour \( x \) très grand, on a \( L_n(x) \sim x^n > 0 \) et \( R(x) \sim x^p > 0 \), donc \( R(x)L_n(x) > 0 \).

    On en déduit que \( RL_n \geq 0 \) sur \( \mathbb{R}^+ \).

  1. (a) On suppose, dans cette question seulement, que \( p < n \). Calculer \( \langle R, L_n \rangle \).

    Si \( p < n \), alors \( \deg R = p < n \), ce qui signifie que \( R \in \mathbb{R}_{n-1}[X] \). Le polynôme \( R \) se décompose donc sur la base \( (L_0, \ldots, L_{n-1}) \).

    Or, d'après la question II.2.c, \( L_n \) est orthogonal à tous les \( L_i \) pour \( i < n \). Par linéarité du produit scalaire, on en déduit que : $$ \langle R, L_n \rangle = 0 $$

    (b) Montrer que \( RL_n \) est le polynôme nul.

    D'après la question précédente, on a \( \langle R, L_n \rangle = \int_0^{+\infty} e^{-t} R(t) L_n(t) \,\mathrm{d}t = 0 \).

    Or, d'après la question III.1.b, on sait que \( R(t) L_n(t) \geq 0 \) sur \( \mathbb{R}^+ \). La fonction \( t \mapsto e^{-t} R(t) L_n(t) \) est donc continue et positive sur \( [0, +\infty[ \), avec \( e^{-t} > 0 \).

    L'intégrale d'une fonction continue et positive qui est nulle implique que cette fonction est identiquement nulle sur \( [0, +\infty[ \). On en déduit que \( R(t)L_n(t) = 0 \) pour tout \( t \geq 0 \).

    Comme le polynôme \( R \cdot L_n \) admet une infinité de racines (tout \( \mathbb{R}^+ \)), c'est nécessairement le polynôme nul.

  1. (a) Montrer que \( p = n \).

    Raisonnons par l'absurde en supposant \( p < n \). Alors d'après la question III.2.b, \( RL_n = 0 \).

    Or, l'anneau \( \mathbb{R}[X] \) est intègre, et \( R \neq 0 \) (au minimum \( R = 1 \) si \( p = 0 \), et sinon \( R \) est un produit de facteurs non nuls). On en déduit que \( L_n = 0 \), ce qui est absurde car \( L_n \) est un polynôme unitaire de degré \( n \geq 1 \).

    On conclut donc que \( p = n \).

    (b) En déduire le nombre de racines de \( L_n \) dans \( \mathbb{R}^+ \). Préciser l'ordre de multiplicité de ces racines.

    D'après la question précédente, \( L_n \) possède \( p = n \) racines positives distinctes \( x_1, \ldots, x_n \), chacune de multiplicité impaire.

    Comme \( \deg L_n = n \) et que la somme des multiplicités de toutes les racines est inférieure ou égale à \( n \), le fait d'avoir \( n \) racines distinctes impose que chaque racine est de multiplicité exactement \( 1 \).

    On en conclut que \( L_n \) possède exactement \( n \) racines réelles strictement positives, toutes simples.

Exercice

Dans cet exercice, on note :

•   \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \) l'ensemble des fonctions définies sur \( \mathbb{R} \), à valeurs dans \( \mathbb{R} \).

•   \( \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \) l'ensemble des fonctions de \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \) continues sur \( \mathbb{R} \).

•   \( \mathcal{D}^1(\mathbb{R}, \mathbb{R}) \) l'ensemble des fonctions de \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \) dérivables sur \( \mathbb{R} \).

Partie I

Soit \( f \) un élément de \( \mathcal{D}^1(\mathbb{R}, \mathbb{R}) \). Soient \( a \) et \( b \) deux réels tels que \( a < b \) et \( f'(a) < f'(b) \).

  1. On suppose que \( f'(a) < 0 < f'(b) \).

    (a) Montrer que \( f \) possède un minimum en un point \( c \in \,]a, b[ \).

    La fonction \( f \) est continue sur le segment \( [a, b] \) (car elle est dérivable), donc par le théorème des valeurs extrêmes, elle y atteint son minimum en un point \( c \in [a, b] \).

    Montrons que \( c \neq a \). Comme \( f'(a) < 0 \), la fonction \( f \) est strictement décroissante au voisinage de \( a \) à droite, d'où \( f(a + h) < f(a) \) pour \( h > 0 \) assez petit. Ainsi \( a \) ne peut pas être un point de minimum.

    De même, montrons que \( c \neq b \). Comme \( f'(b) > 0 \), la fonction \( f \) est strictement croissante au voisinage de \( b \) à gauche, d'où \( f(b - h) < f(b) \) pour \( h > 0 \) assez petit. Ainsi \( b \) ne peut pas être un point de minimum.

    On conclut que \( c \in \,]a, b[ \).

    (b) Calculer \( f'(c) \).

    Comme \( c \) est un point de minimum de \( f \) dans l'ouvert \( ]a, b[ \), et que \( f \) est dérivable en \( c \), la condition nécessaire d'extremum intérieur donne directement \( f'(c) = 0 \).

  2. Soit \( y \in \mathbb{R} \) tel que \( f'(a) < y < f'(b) \). Montrer qu'il existe \( d \in \,]a, b[ \) tel que \( y = f'(d) \).

    On pose \( g(x) = f(x) - yx \). Alors \( g \) est dérivable sur \( \mathbb{R} \), avec \( g'(x) = f'(x) - y \). On vérifie que : $$ g'(a) = f'(a) - y < 0 \quad \text{et} \quad g'(b) = f'(b) - y > 0 $$
    D'après les questions I.1.a et I.1.b appliquées à \( g \), la fonction \( g \) atteint son minimum en un point \( d \in \,]a, b[ \) et \( g'(d) = 0 \), c'est-à-dire \( f'(d) = y \).

    On reconnaît ici le théorème de Darboux (ou théorème des valeurs intermédiaires pour les dérivées) : toute fonction dérivée vérifie la propriété des valeurs intermédiaires, même si elle n'est pas nécessairement continue.

Partie II

On pose \( \mathcal{H} = \{f' \mid f \in \mathcal{D}^1(\mathbb{R}, \mathbb{R})\} \).

  1. L'ensemble \( \mathcal{H} \) est-il un sous-espace vectoriel de \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \) ? Justifier.

    On montre que \( \mathcal{H} \) est un sous-espace vectoriel de \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \) en vérifiant les conditions classiques :

    •   la fonction nulle est dans \( \mathcal{H} \) car elle est la dérivée de la fonction constante nulle

    •   si \( f', g' \in \mathcal{H} \) et \( \lambda, \mu \in \mathbb{R} \), alors \( \lambda f' + \mu g' = (\lambda f + \mu g)' \in \mathcal{H} \) par linéarité de la dérivation

    On en déduit que \( \mathcal{H} \) est bien un sous-espace vectoriel de \( \mathcal{F}(\mathbb{R}, \mathbb{R}) \).

  2. Soit \( f \) un élément de \( \mathcal{H} \). Soit \( \lambda \) un réel. On pose \( g : x \mapsto f(\lambda x) \). A-t-on \( g \in \mathcal{H} \) ? Justifier.

    Comme \( f \in \mathcal{H} \), il existe \( F \) dérivable telle que \( F' = f \).

    Si \( \lambda \neq 0 \), on pose \( G(x) = \frac{1}{\lambda}F(\lambda x) \). Alors \( G'(x) = F'(\lambda x) = f(\lambda x) = g(x) \), ce qui montre que \( g = G' \in \mathcal{H} \).

    Si \( \lambda = 0 \), alors \( g(x) = f(0) \) est une fonction constante. Or toute fonction constante est la dérivée d'une fonction affine, donc \( g \in \mathcal{H} \).

    On conclut que dans tous les cas, \( g \in \mathcal{H} \).

  3. Soit \( f : \mathbb{R} \to \mathbb{R} \) définie par \( f(x) = 1 \) si \( x > 0 \), \( f(x) = -1 \) si \( x < 0 \), \( f(0) = 0 \). Déterminer \( f(\mathbb{R}) \). La fonction \( f \) appartient-elle à \( \mathcal{H} \) ?

    On a \( f(\mathbb{R}) = \{-1, 0, 1\} \).

    La fonction \( f \) n'appartient pas à \( \mathcal{H} \). En effet, par le théorème de Darboux démontré en Partie I, toute dérivée vérifie la propriété des valeurs intermédiaires. Or \( f(0) = 0 \) et \( f(1) = 1 \), mais \( f \) ne prend pas la valeur \( 1/2 \) sur \( [0, 1] \) (car \( f \) vaut \( 0 \) en \( 0 \) et \( 1 \) sur \( ]0, 1] \)).

    On en déduit que \( f \) ne satisfait pas la propriété des valeurs intermédiaires, et donc \( f \notin \mathcal{H} \).

  4. Soit \( f : \mathbb{R} \to \mathbb{R} \) définie par \( f(x) = \arctan(x) \) si \( x \geq 0 \) et \( f(x) = \frac{\pi}{2} + \arctan(x) \) sinon. Déterminer \( f\!\left(\left[-\frac{\sqrt{3}}{3}, \frac{\sqrt{3}}{3}\right]\right) \). La fonction \( f \) appartient-elle à \( \mathcal{H} \) ?

    On calcule les valeurs aux bornes : $$ f\!\left(-\frac{\sqrt{3}}{3}\right) = \frac{\pi}{2} + \arctan\!\left(-\frac{\sqrt{3}}{3}\right) = \frac{\pi}{2} - \frac{\pi}{6} = \frac{\pi}{3} $$ $$ f\!\left(\frac{\sqrt{3}}{3}\right) = \arctan\!\left(\frac{\sqrt{3}}{3}\right) = \frac{\pi}{6} $$
    De plus, on remarque que \( \lim_{x \to 0^-} f(x) = \frac{\pi}{2} \) et \( f(0) = 0 \), ce qui montre que \( f \) est discontinue en \( 0 \).

    Sur \( [-\frac{\sqrt{3}}{3}, 0[ \), la fonction \( f \) est continue et croissante, allant de \( \frac{\pi}{3} \) vers \( \frac{\pi}{2} \) (non atteint). Sur \( [0, \frac{\sqrt{3}}{3}] \), on a \( f = \arctan \) qui va de \( 0 \) à \( \frac{\pi}{6} \). On en déduit que : $$ f\!\left(\left[-\frac{\sqrt{3}}{3}, \frac{\sqrt{3}}{3}\right]\right) = \left[0, \frac{\pi}{6}\right] \cup \left[\frac{\pi}{3}, \frac{\pi}{2}\right[ $$
    La fonction \( f \) n'appartient pas à \( \mathcal{H} \) car elle n'est pas continue en \( 0 \), et ne vérifie donc pas la propriété des valeurs intermédiaires sur tout intervalle contenant \( 0 \) : par exemple, elle ne prend aucune valeur dans \( ]\frac{\pi}{6}, \frac{\pi}{3}[ \) entre \( -\frac{\sqrt{3}}{3} \) et \( \frac{\sqrt{3}}{3} \).

  5. On pose \( \varphi(x) = x^2 \sin(1/x) \) si \( x \neq 0 \) et \( \varphi(0) = 0 \).

    (a) Montrer que \( \varphi \) est continue sur \( \mathbb{R} \).

    Pour \( x \neq 0 \), la fonction \( \varphi \) est continue en tant que composée de fonctions continues.

    En \( 0 \), on a \( |\varphi(x)| = |x^2 \sin(1/x)| \leq x^2 \to 0 = \varphi(0) \) quand \( x \to 0 \). Par le théorème d'encadrement, on en déduit que \( \varphi \) est continue en \( 0 \).

    On conclut que \( \varphi \) est continue sur \( \mathbb{R} \).

    (b) Montrer que \( \varphi \) est dérivable sur \( \mathbb{R} \). On donnera l'expression de \( \varphi' \) sur \( \mathbb{R} \).

    Pour \( x \neq 0 \), on a par les règles de dérivation classiques : $$ \varphi'(x) = 2x\sin(1/x) - \cos(1/x) $$
    En \( 0 \), on calcule le taux d'accroissement : $$ \frac{\varphi(h) - \varphi(0)}{h} = h\sin(1/h) \to 0 \quad \text{quand } h \to 0 $$ par le théorème d'encadrement. On en déduit que \( \varphi'(0) = 0 \).

    Ainsi, \( \varphi \) est dérivable sur \( \mathbb{R} \) avec : $$ \varphi'(x) = \begin{cases} 2x\sin(1/x) - \cos(1/x) & \text{si } x \neq 0, \\ 0 & \text{si } x = 0. \end{cases} $$

    (c) La fonction \( \varphi \) est-elle de classe \( \mathcal{C}^1 \) sur \( \mathbb{R} \) ? Justifier.

    La fonction \( \varphi \) n'est pas de classe \( \mathcal{C}^1 \) sur \( \mathbb{R} \). En effet, le terme \( \cos(1/x) \) n'admet pas de limite en \( 0 \) (il oscille entre \( -1 \) et \( 1 \)). La dérivée \( \varphi' \) n'est donc pas continue en \( 0 \), ce qui empêche \( \varphi \) d'être de classe \( \mathcal{C}^1 \) sur \( \mathbb{R} \).

  6. A-t-on l'égalité des ensembles \( \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \) et \( \mathcal{H} \) ? Justifier.

    Les deux ensembles ne sont pas égaux.

    D'une part, on a \( \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \subset \mathcal{H} \) : en effet, toute fonction continue \( f \) admet une primitive \( F \) par le théorème fondamental de l'analyse, et donc \( f = F' \in \mathcal{H} \).

    D'autre part, on a \( \mathcal{H} \not\subset \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \) : la fonction \( \varphi' \) de la question II.5 est dans \( \mathcal{H} \) (puisque c'est la dérivée de \( \varphi \)), mais elle n'est pas continue en \( 0 \) (question II.5.c).

    On en déduit que l'inclusion est stricte : \( \mathcal{C}^0(\mathbb{R}, \mathbb{R}) \subsetneq \mathcal{H} \).

  7. Soit \( n \in \mathbb{N}^* \). À l'aide de \( \varphi \), construire une application \( \Phi \) de \( \mathbb{R} \) dans \( \mathbb{R} \), dérivable sur \( \mathbb{R} \), telle que \( \Phi' \) est continue sur \( \mathbb{R} \setminus [\![ 0, n ]\!] \) et discontinue en tout élément de \( [\![ 0, n ]\!] \).

    Pour chaque \( k \in [\![ 0, n ]\!] \), on pose \( \varphi_k(x) = \varphi(x - k) \), c'est-à-dire : $$ \varphi_k(x) = \begin{cases} (x-k)^2 \sin\!\left(\frac{1}{x-k}\right) & \text{si } x \neq k, \\ 0 & \text{si } x = k. \end{cases} $$
    Par translation de \( \varphi \), chaque \( \varphi_k \) est dérivable sur \( \mathbb{R} \), avec \( \varphi_k' \) continue sur \( \mathbb{R} \setminus \{k\} \) et discontinue en \( k \).

    On pose alors : $$ \Phi = \sum_{k=0}^n \varphi_k $$
    La fonction \( \Phi \) est dérivable sur \( \mathbb{R} \) en tant que somme finie de fonctions dérivables, et \( \Phi' = \sum_{k=0}^n \varphi_k' \).

    En un point \( m \in [\![ 0, n ]\!] \), le terme \( \varphi_m' \) est discontinu en \( m \) tandis que tous les autres \( \varphi_k' \) (pour \( k \neq m \)) sont continus en \( m \). La somme \( \Phi' \) est donc discontinue en \( m \).

    Sur \( \mathbb{R} \setminus [\![ 0, n ]\!] \), tous les \( \varphi_k' \) sont continus, donc \( \Phi' \) est continue.

    On conclut que \( \Phi \) répond bien au problème posé.


Partie 2 — Probabilités et statistiques

Notations.

\( \mathbb{E}[X] \) et \( \mathbb{V}(X) \) représentent respectivement l'espérance et la variance d'une variable aléatoire réelle \( X \), lorsque ces quantités existent. \( \mathrm{cov}(X, Y) \) est la covariance des variables aléatoires \( X \) et \( Y \).

Exercice 1

Dans tout cet exercice, \( n \) est un entier naturel non nul. Toutes les variables aléatoires sont définies sur un même espace probabilisé \( (\Omega, \mathcal{F}, \mathbb{P}) \).

\( \log_2 \) représente le logarithme de base \( 2 \) et est défini, pour tout \( x > 0 \), par : $$ \log_2(x) = \frac{\ln x}{\ln 2} $$ On considère une variable aléatoire discrète \( X \) à support dans \( \mathbb{N} \). Le cardinal de \( X(\Omega) \) peut être fini ou non. On définit l'entropie de \( X \), lorsqu'elle existe, par la formule : $$ H(X) = - \sum_{x \in X(\Omega)} \mathbb{P}[X = x] \log_2 \mathbb{P}[X = x] $$ où \( \log_2(x) = \frac{\ln x}{\ln 2} \) pour tout \( x > 0 \).

  1. Démontrer que pour tout \( x > 0 \), \( \ln x \leq x - 1 \) et préciser les cas d'égalité.

    Soit \( h(x) = x - 1 - \ln x \) pour \( x > 0 \). On a \( h'(x) = 1 - \frac{1}{x} \), qui s'annule si et seulement si \( x = 1 \).

    De plus, \( h''(x) = \frac{1}{x^2} > 0 \) pour tout \( x > 0 \), donc \( h \) est strictement convexe et \( x = 1 \) est un minimum global avec \( h(1) = 0 \).

    On en déduit que \( h(x) \geq 0 \) pour tout \( x > 0 \), c'est-à-dire \( \ln x \leq x - 1 \), avec égalité si et seulement si \( x = 1 \).

  2. Soit \( \phi \) la fonction définie sur \( [0, 1] \) par \( \phi(x) = -x\log_2(x) \) si \( x > 0 \) et \( \phi(0) = 0 \). Effectuer l'étude de cette fonction en précisant sa monotonie et ses extrémas. Démontrer que \( \phi \) est concave, puis donner l'allure de sa courbe représentative.

    La fonction \( \phi \) est continue sur \( [0, 1] \) par prolongement en \( 0 \), car \( x\ln x \to 0 \) quand \( x \to 0^+ \). Sur \( ]0, 1] \), on calcule : $$ \phi'(x) = -\frac{1}{\ln 2}(\ln x + 1), \quad \phi''(x) = -\frac{1}{x \ln 2} < 0 $$
    La dérivée \( \phi'(x) = 0 \) si et seulement si \( x = e^{-1} \). Ainsi \( \phi \) est croissante sur \( [0, 1/e] \) et décroissante sur \( [1/e, 1] \), avec un maximum en \( x = 1/e \) valant \( \phi(1/e) = \frac{1}{e \ln 2} \).

    On note par ailleurs que \( \phi(0) = 0 \) et \( \phi(1) = 0 \).

    Comme \( \phi'' < 0 \) sur \( ]0, 1] \), la fonction \( \phi \) est concave sur \( [0, 1] \). Sa courbe représentative est une cloche asymétrique entre \( 0 \) et \( 1 \), atteignant son sommet en \( x = 1/e \).

Dans les questions 3 à 10, on suppose \( X(\Omega) \) et \( Y(\Omega) \) de cardinaux finis.

  1. Démontrer que, quel que soit \( X \), \( H(X) \geq 0 \). À quelle condition sur \( X \) a-t-on \( H(X) = 0 \) ?

    Pour tout \( x \in X(\Omega) \), on a \( 0 < \mathbb{P}[X = x] \leq 1 \), ce qui entraîne \( \log_2 \mathbb{P}[X = x] \leq 0 \). Chaque terme de la somme définissant \( H(X) \) est donc de la forme \( -\mathbb{P}[X = x]\log_2 \mathbb{P}[X = x] = \phi(\mathbb{P}[X = x]) \geq 0 \).

    On en déduit que \( H(X) \geq 0 \).

    L'entropie \( H(X) = 0 \) si et seulement si \( \phi(\mathbb{P}[X = x]) = 0 \) pour tout \( x \in X(\Omega) \), c'est-à-dire si \( \mathbb{P}[X = x] \in \{0, 1\} \) pour tout \( x \). Cela signifie que \( X \) est presque sûrement constante.

  2. (a) Soit \( X \) une variable aléatoire de Bernoulli de paramètre \( p \in \,]0, 1[ \). Calculer \( H(X) \).

    On a \( \mathbb{P}[X = 1] = p \) et \( \mathbb{P}[X = 0] = 1-p \). Par définition de l'entropie : $$ H(X) = -p\log_2 p - (1-p)\log_2(1-p) $$

    (b) \( H(X) \) est une fonction de \( p \) que l'on notera \( h \). Effectuer l'étude de \( h \).

    On a \( h(p) = -p\log_2 p - (1-p)\log_2(1-p) \). Sa dérivée vaut : $$ h'(p) = -\frac{1}{\ln 2}\bigl(\ln p - \ln(1-p)\bigr) $$
    La dérivée \( h'(p) = 0 \) si et seulement si \( p = 1/2 \). De plus : $$ h''(p) = -\frac{1}{\ln 2}\left(\frac{1}{p} + \frac{1}{1-p}\right) < 0 $$
    On en déduit que \( h \) est strictement concave sur \( ]0, 1[ \) et que le maximum est atteint en \( p = 1/2 \). On a \( h(0^+) = h(1^-) = 0 \) et \( h(1/2) = 1 \).

    (c) En quelle valeur \( h \) atteint-elle son maximum ? Interpréter le résultat.

    D'après l'étude précédente, \( h \) atteint son maximum en \( p = 1/2 \), avec \( h(1/2) = \log_2 2 = 1 \) bit.

    L'interprétation est la suivante : l'entropie est maximale quand \( p = 1/2 \), c'est-à-dire dans le cas de plus grande incertitude, lorsque les deux issues sont équiprobables.

  3. Déterminer \( H(X) \) lorsque \( X \) est une variable aléatoire de loi uniforme sur \( X(\Omega) = \{1, \ldots, n\} \).

    On a \( \mathbb{P}[X = k] = 1/n \) pour \( k \in \{1, \ldots, n\} \). Par définition de l'entropie : $$ H(X) = -\sum_{k=1}^n \frac{1}{n}\log_2 \frac{1}{n} = -\log_2 \frac{1}{n} = \log_2 n $$

  4. À l'aide de la question 1, démontrer l'inégalité de Gibbs : si \( (p_1, \ldots, p_n) \) et \( (q_1, \ldots, q_n) \) sont des lois de probabilités à support dans \( \{1, \ldots, n\} \), alors : $$ \sum_{k=1}^{n} p_k \log_2(q_k / p_k) \leq 0 $$

    D'après la question 1, on a \( \ln x \leq x - 1 \) pour tout \( x > 0 \), d'où \( \log_2 x \leq \frac{x - 1}{\ln 2} \) pour tout \( x > 0 \).

    En appliquant cette inégalité avec \( x = q_k/p_k \) pour chaque \( k \), on obtient : $$ \sum_{k=1}^n p_k \log_2 \frac{q_k}{p_k} \leq \frac{1}{\ln 2}\sum_{k=1}^n p_k \left(\frac{q_k}{p_k} - 1\right) = \frac{1}{\ln 2}\left(\sum_{k=1}^n q_k - \sum_{k=1}^n p_k\right) = \frac{1 - 1}{\ln 2} = 0 $$
    On en déduit bien l'inégalité de Gibbs.

  5. Démontrer que pour toute variable aléatoire \( X \) sur \( \{1, \ldots, n\} \), \( H(X) \leq \log_2 n \). Interpréter ce résultat.

    On applique l'inégalité de Gibbs avec \( p_k = \mathbb{P}[X = k] \) et \( q_k = 1/n \) pour tout \( k \) : $$ \sum_k p_k \log_2 \frac{q_k}{p_k} \leq 0 \quad \Rightarrow \quad \sum_k p_k \log_2 \frac{1}{n} + \sum_k p_k \log_2 \frac{1}{p_k} \leq 0 $$
    Soit \( -\log_2 n + H(X) \leq 0 \), d'où \( H(X) \leq \log_2 n \).

    Ce résultat signifie que l'entropie est maximale pour la loi uniforme : c'est la distribution de plus grande incertitude parmi toutes les lois à support dans \( \{1, \ldots, n\} \).

  6. L'entropie conjointe est définie par : $$ H(X, Y) = - \sum_{(x, y)} \mathbb{P}[X = x, Y = y] \log_2 \mathbb{P}[X = x, Y = y] $$ Si \( X \) et \( Y \) sont indépendantes, démontrer que \( H(X, Y) = H(X) + H(Y) \).

    Si \( X \) et \( Y \) sont indépendantes, alors \( \mathbb{P}[X = x, Y = y] = \mathbb{P}[X = x] \cdot \mathbb{P}[Y = y] \), d'où : $$ \log_2 \mathbb{P}[X = x, Y = y] = \log_2 \mathbb{P}[X = x] + \log_2 \mathbb{P}[Y = y] $$
    En substituant dans la définition de l'entropie conjointe, on obtient : $$ \begin{aligned} H(X, Y) &= -\sum_{x, y} \mathbb{P}[X = x]\mathbb{P}[Y = y]\bigl(\log_2 \mathbb{P}[X = x] + \log_2 \mathbb{P}[Y = y]\bigr) \\ &= -\sum_x \mathbb{P}[X = x]\log_2 \mathbb{P}[X = x] \underbrace{\sum_y \mathbb{P}[Y = y]}_{= 1} \\ & \quad - \underbrace{\sum_x \mathbb{P}[X = x]}_{= 1} \sum_y \mathbb{P}[Y = y]\log_2 \mathbb{P}[Y = y] \\ &= H(X) + H(Y) \end{aligned} $$
    On conclut que lorsque \( X \) et \( Y \) sont indépendantes, l'entropie conjointe est la somme des entropies marginales.

  1. On définit l'entropie conditionnelle de \( Y \) sachant \( X \) par : $$ H(Y|X) = - \sum_{(x, y)} \mathbb{P}[X = x, Y = y] \log_2 \mathbb{P}[Y = y | X = x] $$
    (a) Démontrer que \( H(X, Y) = H(Y|X) + H(X) = H(X|Y) + H(Y) \).

    On part de la formule des probabilités conditionnelles \( \mathbb{P}[X = x, Y = y] = \mathbb{P}[Y = y | X = x] \cdot \mathbb{P}[X = x] \), d'où : $$ \log_2 \mathbb{P}[X = x, Y = y] = \log_2 \mathbb{P}[Y = y | X = x] + \log_2 \mathbb{P}[X = x] $$
    En multipliant par \( -\mathbb{P}[X = x, Y = y] \) et en sommant sur tous les couples \( (x, y) \), on obtient : $$ \begin{aligned} H(X, Y) &= H(Y|X) + \sum_x \left(-\log_2 \mathbb{P}[X = x]\right) \underbrace{\sum_y \mathbb{P}[X = x, Y = y]}_{= \mathbb{P}[X = x]} \\ &= H(Y|X) + H(X) \end{aligned} $$
    Par symétrie des rôles de \( X \) et \( Y \), on obtient de la même façon \( H(X, Y) = H(X|Y) + H(Y) \).

    (b) Démontrer que \( H(X) + H(Y) \leq 2H(X, Y) \).

    D'après la question 9.a, on a \( H(X) = H(X, Y) - H(Y|X) \). Or \( H(Y|X) \geq 0 \) car chaque terme de la somme définissant \( H(Y|X) \) est positif ou nul (par le même argument que la question 3). On en déduit que \( H(X) \leq H(X, Y) \).

    De même, \( H(Y) = H(X, Y) - H(X|Y) \leq H(X, Y) \).

    En additionnant ces deux inégalités, on obtient \( H(X) + H(Y) \leq 2H(X, Y) \).

    (c) En utilisant la concavité de \( \phi \), démontrer que \( H(X) \geq H(X|Y) \). En déduire que \( H(Y) \geq H(Y|X) \).

    On réécrit l'entropie conditionnelle en intervertissant les sommations : $$ H(X|Y) = \sum_y \mathbb{P}[Y = y] \sum_x \phi\bigl(\mathbb{P}[X = x | Y = y]\bigr) $$
    Par concavité de \( \phi \) (démontrée à la question 2), on applique l'inégalité de Jensen sous sa forme discrète. Pour chaque \( x \) fixé : $$ \sum_y \mathbb{P}[Y = y]\,\phi\bigl(\mathbb{P}[X = x | Y = y]\bigr) \leq \phi\!\left(\sum_y \mathbb{P}[Y = y]\,\mathbb{P}[X = x | Y = y]\right) = \phi\bigl(\mathbb{P}[X = x]\bigr) $$ la dernière égalité provenant de la formule des probabilités totales.

    En sommant sur \( x \), on obtient \( H(X|Y) \leq \sum_x \phi(\mathbb{P}[X = x]) = H(X) \).

    Par symétrie des rôles de \( X \) et \( Y \), on en déduit de même que \( H(Y|X) \leq H(Y) \).

    (d) Démontrer que \( H(X, Y) \leq H(X) + H(Y) \).

    D'après la question 9.a, on a \( H(X, Y) = H(Y|X) + H(X) \). Or, d'après la question 9.c, on sait que \( H(Y|X) \leq H(Y) \).

    On en déduit directement que \( H(X, Y) \leq H(X) + H(Y) \).

  1. (a) Pour toute fonction \( f \) définie sur \( X(\Omega) \), démontrer que \( H(f(X)|X) = 0 \).

    Sachant \( X = x \), la valeur \( f(X) = f(x) \) est déterministe. On a donc \( \mathbb{P}[f(X) = f(x) | X = x] = 1 \), et par conséquent \( \log_2 1 = 0 \).

    Il s'ensuit que chaque terme de la somme définissant \( H(f(X)|X) \) est nul, d'où \( H(f(X)|X) = 0 \).

    (b) Démontrer que \( H(X) \geq H(f(X)) \).

    Par la règle de chaîne (question 9.a) appliquée au couple \( (f(X), X) \), on a : $$ H(f(X), X) = H(X|f(X)) + H(f(X)) $$
    D'autre part, en appliquant la même règle dans l'autre sens : $$ H(f(X), X) = H(f(X)|X) + H(X) = 0 + H(X) = H(X) $$ la dernière égalité provenant de la question 10.a, puisque \( f(X) \) est entièrement déterminé par \( X \).

    On en déduit que \( H(X) = H(X|f(X)) + H(f(X)) \geq H(f(X)) \), car \( H(X|f(X)) \geq 0 \).

    Ce résultat signifie que toute transformation de \( X \) ne peut qu'en réduire l'entropie (ou la laisser inchangée) : on ne peut pas créer d'information en appliquant une fonction déterministe.

On suppose maintenant \( X(\Omega) \) de cardinal infini. On admet que si \( \mathbb{E}[X] < \infty \) alors \( H(X) \) existe. On admet également que l'inégalité de Gibbs s'étend au cas où \( X(\Omega) \) est dénombrable, sous réserve de convergence de la somme.

  1. (a) Calculer l'entropie d'une variable aléatoire \( G \) de loi géométrique de paramètre \( p \in \,]0, 1[ \), en justifiant son existence.

    Soit \( G \sim \mathcal{G}(p) \), avec \( \mathbb{P}[G = k] = p(1-p)^{k-1} \) pour \( k \geq 1 \). On justifie l'existence de l'entropie par le fait que \( \mathbb{E}[G] = 1/p < \infty \), ce qui assure la convergence de la série définissant \( H(G) \).

    On calcule alors : $$ \begin{aligned} H(G) &= -\sum_{k=1}^{\infty} p(1-p)^{k-1}\bigl(\log_2 p + (k-1)\log_2(1-p)\bigr) \\ &= -\log_2 p - \log_2(1-p) \sum_{k=1}^{\infty} (k-1)p(1-p)^{k-1} \end{aligned} $$
    Or la somme \( \sum_{k=1}^{\infty} (k-1)p(1-p)^{k-1} = \mathbb{E}[G] - 1 = \frac{1-p}{p} \). On en déduit : $$ H(G) = -\log_2 p - \frac{1-p}{p}\log_2(1-p) $$

    (b) Montrer que pour toute variable aléatoire \( X \) discrète telle que \( \mathbb{E}[X] \leq \mathbb{E}[G] \), on a \( H(X) \leq H(G) \).

    Posons \( p_k = \mathbb{P}[X = k] \) et \( q_k = p(1-p)^{k-1} \) (loi géométrique). Par l'inégalité de Gibbs (étendue au cas d'un support infini dénombrable) : $$ \sum_k p_k \log_2 \frac{q_k}{p_k} \leq 0 $$
    On en déduit : $$ \begin{aligned} H(X) = -\sum_k p_k \log_2 p_k &\leq -\sum_k p_k \log_2 q_k \\ &= -\sum_k p_k \bigl(\log_2 p + (k-1)\log_2(1-p)\bigr) \\ &= -\log_2 p - (\mathbb{E}[X] - 1)\log_2(1-p) \end{aligned} $$
    Comme \( \log_2(1-p) < 0 \) (car \( 0 < p < 1 \)) et \( \mathbb{E}[X] \leq 1/p = \mathbb{E}[G] \), on a \( (\mathbb{E}[X] - 1) \leq (1/p - 1) \) et donc : $$ H(X) \leq -\log_2 p - \left(\frac{1}{p} - 1\right)\log_2(1-p) = H(G) $$
    On conclut que parmi toutes les lois discrètes d'espérance donnée, la loi géométrique maximise l'entropie.

  1. On considère maintenant que \( X(\Omega) \) est un intervalle de \( \mathbb{R} \) et \( X \) une variable aléatoire à densité continue \( f \) sur \( X(\Omega) \). On définit l'entropie différentielle de \( X \), sous réserve d'existence, par la formule : $$ H(X) = - \int_{-\infty}^{+\infty} f(x) \ln(f(x)) \,\mathrm{d}x $$
    (a) Calculer l'entropie différentielle d'une loi uniforme sur \( [a, b] \).

    Si \( X \sim \mathcal{U}([a, b]) \), alors \( f(x) = \frac{1}{b-a} \) sur \( [a, b] \) et \( 0 \) ailleurs. On calcule : $$ H(X) = -\int_a^b \frac{1}{b-a}\ln\frac{1}{b-a}\,\mathrm{d}x = -\ln\frac{1}{b-a} = \ln(b-a) $$

    (b) Calculer l'entropie différentielle d'une variable aléatoire suivant une loi normale \( \mathcal{N}(m, \sigma^2) \).

    Soit \( \psi(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-m)^2}{2\sigma^2}} \) la densité de la loi \( \mathcal{N}(m, \sigma^2) \). On a : $$ \ln\psi(x) = -\ln(\sigma\sqrt{2\pi}) - \frac{(x-m)^2}{2\sigma^2} $$
    On en déduit : $$ \begin{aligned} H(X) &= -\int_{-\infty}^{+\infty}\psi(x)\ln\psi(x)\,\mathrm{d}x \\ &= \ln(\sigma\sqrt{2\pi}) + \frac{1}{2\sigma^2}\mathbb{E}[(X-m)^2] = \ln(\sigma\sqrt{2\pi}) + \frac{1}{2} \end{aligned} $$
    On peut réécrire ce résultat sous la forme : $$ H(X) = \frac{1}{2}\ln(2\pi e \sigma^2) $$

  1. (a) Soit \( X \sim \mathcal{N}(0, \sigma^2) \) de densité \( \psi \) et \( Y \) centrée de variance \( \sigma^2 \) de densité \( f \). Démontrer que : $$ H(Y) = \int_{-\infty}^{+\infty} f(x) \ln \frac{\psi(x)}{f(x)} \,\mathrm{d}x - \int_{-\infty}^{+\infty} f(x) \ln \psi(x) \,\mathrm{d}x $$

    On utilise la décomposition \( \ln\frac{\psi(x)}{f(x)} = \ln\psi(x) - \ln f(x) \), d'où : $$ \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x = \int f(x)\ln\psi(x)\,\mathrm{d}x - \int f(x)\ln f(x)\,\mathrm{d}x = \int f(x)\ln\psi(x)\,\mathrm{d}x + H(Y) $$
    En réarrangeant, on obtient directement : $$ H(Y) = \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x - \int f(x)\ln\psi(x)\,\mathrm{d}x $$

    (b) En déduire que \( H(Y) \leq H(X) \). Interpréter ce résultat.

    Par l'inégalité \( \ln u \leq u - 1 \) démontrée à la question 1, on a : $$ \int f(x)\ln\frac{\psi(x)}{f(x)}\,\mathrm{d}x \leq \int f(x)\left(\frac{\psi(x)}{f(x)} - 1\right)\mathrm{d}x = \int\psi(x)\,\mathrm{d}x - \int f(x)\,\mathrm{d}x = 1 - 1 = 0 $$
    On en déduit que \( H(Y) \leq -\int f(x)\ln\psi(x)\,\mathrm{d}x \).

    Or, comme \( Y \) est centrée de variance \( \sigma^2 \), on peut calculer : $$ -\int f(x)\ln\psi(x)\,\mathrm{d}x = \ln(\sigma\sqrt{2\pi}) + \frac{\mathbb{E}[Y^2]}{2\sigma^2} = \ln(\sigma\sqrt{2\pi}) + \frac{1}{2} = H(X) $$
    On conclut que \( H(Y) \leq H(X) \).

    Ce résultat signifie que parmi toutes les lois de variance donnée \( \sigma^2 \), la loi normale est celle qui maximise l'entropie différentielle. C'est un résultat fondamental en théorie de l'information.

Exercice 2

Soient \( \theta \geq 0 \), \( \beta > 0 \) et \( f \) la densité définie par : $$ f(x) = \frac{1}{\beta} e^{-(x - \theta)/\beta}\,\mathbf{1}_{x \geq \theta} $$
Soit \( (X_1, \ldots, X_n) \) un \( n \)-uplet de v.a.r. mutuellement indépendantes et identiquement distribuées de densité \( f \).

  1. Vérifier que \( f \) est une densité d'une loi de probabilité.

    On vérifie que \( f \geq 0 \) (ce qui est clair par construction) et que l'intégrale vaut \( 1 \) : $$ \int_\theta^{+\infty}\frac{1}{\beta}e^{-(x-\theta)/\beta}\,\mathrm{d}x = \left[-e^{-(x-\theta)/\beta}\right]_\theta^{+\infty} = 0 - (-1) = 1 $$
    On en déduit que \( f \) est bien une densité de probabilité. Il s'agit d'une loi exponentielle translatée : on peut écrire \( X_i = \theta + \beta E_i \) où \( E_i \sim \mathcal{E}(1) \).

  2. Calculer \( \mathbb{E}[X_1] \) et \( \mathbb{V}(X_1) \) en justifiant leur existence.

    En posant le changement de variable \( u = (x - \theta)/\beta \), on se ramène à \( U \sim \mathcal{E}(1) \) dont on sait que \( \mathbb{E}[U] = 1 \) et \( \mathbb{E}[U^2] = 2 \). L'existence des moments est garantie par la convergence de \( \int u^2 e^{-u}\,\mathrm{d}u \).

    On calcule alors : $$ \mathbb{E}[X_1] = \int_0^{+\infty}(\theta + \beta u)e^{-u}\,\mathrm{d}u = \theta + \beta $$ $$ \mathbb{E}[X_1^2] = \int_0^{+\infty}(\theta + \beta u)^2 e^{-u}\,\mathrm{d}u = \theta^2 + 2\theta\beta + 2\beta^2 $$
    Par la formule de König-Huygens : $$ \mathbb{V}(X_1) = \mathbb{E}[X_1^2] - (\mathbb{E}[X_1])^2 = \theta^2 + 2\theta\beta + 2\beta^2 - (\theta + \beta)^2 = \beta^2 $$

  3. On pose \( Y_n = \min(X_1, X_2, \ldots, X_n) \). Déterminer une densité de \( Y_n \). Calculer son espérance et sa variance.

    On détermine d'abord la fonction de survie de \( Y_n \). Pour \( y \geq \theta \), par indépendance des \( X_i \) : $$ \mathbb{P}[Y_n > y] = \prod_{i=1}^n \mathbb{P}[X_i > y] = \left(e^{-(y-\theta)/\beta}\right)^n = e^{-n(y-\theta)/\beta} $$
    On reconnaît que \( Y_n \) suit une loi exponentielle translatée de paramètres \( (\theta, \beta/n) \), de densité : $$ f_{Y_n}(y) = \frac{n}{\beta}e^{-n(y-\theta)/\beta}\,\mathbf{1}_{y \geq \theta} $$
    Par identification avec les résultats de la question 2 (en remplaçant \( \beta \) par \( \beta/n \)), on en déduit : $$ \mathbb{E}[Y_n] = \theta + \frac{\beta}{n}, \qquad \mathbb{V}(Y_n) = \frac{\beta^2}{n^2} $$

  4. \( Y_n \) est-il un estimateur sans biais de \( \theta \) ? Asymptotiquement sans biais ?

    On a \( \mathbb{E}[Y_n] = \theta + \frac{\beta}{n} \neq \theta \), donc \( Y_n \) est un estimateur biaisé de \( \theta \), avec un biais valant \( \frac{\beta}{n} > 0 \).

    Cependant, comme \( \mathbb{E}[Y_n] \xrightarrow[n \to \infty]{} \theta \), l'estimateur \( Y_n \) est asymptotiquement sans biais.

  5. (a) Déduire des questions précédentes l'erreur quadratique moyenne \( \mathbb{E}\left[(Y_n - \theta)^2\right] \).

    On utilise la décomposition classique de l'erreur quadratique moyenne en variance plus biais au carré : $$ \mathbb{E}[(Y_n - \theta)^2] = \mathbb{V}(Y_n) + \bigl(\mathbb{E}[Y_n] - \theta\bigr)^2 = \frac{\beta^2}{n^2} + \frac{\beta^2}{n^2} = \frac{2\beta^2}{n^2} $$

    (b) La suite \( (Y_n)_n \) converge-t-elle dans \( L^2 \) ? En probabilité ?

    On a \( \mathbb{E}[(Y_n - \theta)^2] = \frac{2\beta^2}{n^2} \to 0 \) quand \( n \to +\infty \). On en déduit que \( Y_n \) converge vers \( \theta \) dans \( L^2 \).

    Or la convergence dans \( L^2 \) implique la convergence en probabilité. On conclut donc que \( Y_n \xrightarrow[n \to +\infty]{\mathbb{P}} \theta \).

  6. (a) On pose \( S_n = \sum_{i=1}^{n} X_i \) et \( Z_n = \frac{1}{n}S_n - Y_n \). Calculer \( \mathbb{E}[Z_n] \).

    Par linéarité de l'espérance, on a : $$ \mathbb{E}[Z_n] = \frac{\mathbb{E}[S_n]}{n} - \mathbb{E}[Y_n] = (\theta + \beta) - \left(\theta + \frac{\beta}{n}\right) = \beta\left(1 - \frac{1}{n}\right) = \frac{(n-1)\beta}{n} $$

    (b) \( Z_n \) est-il un estimateur sans biais de \( \beta \) ? Asymptotiquement sans biais ?

    On a \( \mathbb{E}[Z_n] = \frac{(n-1)\beta}{n} \neq \beta \), donc \( Z_n \) est un estimateur biaisé de \( \beta \).

    Cependant, comme \( \mathbb{E}[Z_n] \xrightarrow[n \to \infty]{} \beta \), l'estimateur \( Z_n \) est asymptotiquement sans biais.

  7. (a) Calculer \( \mathbb{V}(Z_n) \) en fonction de \( \mathrm{cov}(S_n, Y_n) \).

    En notant \( \bar{X}_n = S_n/n \), on a \( Z_n = \bar{X}_n - Y_n \). Par la formule de la variance d'une différence : $$ \mathbb{V}(Z_n) = \mathbb{V}(\bar{X}_n) + \mathbb{V}(Y_n) - 2\,\mathrm{cov}(\bar{X}_n, Y_n) $$
    Or \( \mathbb{V}(\bar{X}_n) = \frac{\mathbb{V}(X_1)}{n} = \frac{\beta^2}{n} \) et \( \mathrm{cov}(\bar{X}_n, Y_n) = \frac{1}{n}\mathrm{cov}(S_n, Y_n) \). On en déduit : $$ \mathbb{V}(Z_n) = \frac{\beta^2}{n} + \frac{\beta^2}{n^2} - \frac{2}{n}\mathrm{cov}(S_n, Y_n) $$

    (b) Montrer que \( \mathbb{V}(Z_n) \) tend vers zéro quand \( n \) tend vers l'infini.

    Par l'inégalité de Cauchy-Schwarz appliquée à la covariance : $$ |\mathrm{cov}(S_n, Y_n)| \leq \sqrt{\mathbb{V}(S_n)\,\mathbb{V}(Y_n)} = \sqrt{n\beta^2 \cdot \frac{\beta^2}{n^2}} = \frac{\beta^2}{\sqrt{n}} $$
    On en déduit que \( \left|\frac{2}{n}\mathrm{cov}(S_n, Y_n)\right| \leq \frac{2\beta^2}{n\sqrt{n}} \to 0 \) quand \( n \to +\infty \).

    Par conséquent, chaque terme de l'expression de \( \mathbb{V}(Z_n) \) tend vers zéro, et on conclut que \( \mathbb{V}(Z_n) \to 0 \).

    (c) La suite \( (Z_n)_n \) converge-t-elle dans \( L^2 \) ? En probabilité ?

    On calcule l'erreur quadratique moyenne : $$ \mathbb{E}[(Z_n - \beta)^2] = \mathbb{V}(Z_n) + (\mathbb{E}[Z_n] - \beta)^2 = \mathbb{V}(Z_n) + \frac{\beta^2}{n^2} \to 0 $$
    On en déduit que \( Z_n \) converge vers \( \beta \) dans \( L^2 \), et par conséquent en probabilité.

  8. (a) Démontrer que le couple \( (\widehat{\theta}_n, \widehat{\beta}_n) \) donné par : $$ \widehat{\theta}_n = \frac{1}{n-1}\left(nY_n - \frac{S_n}{n}\right), \qquad \widehat{\beta}_n = \frac{1}{n-1}\left(S_n - nY_n\right) $$ est un estimateur sans biais du couple \( (\theta, \beta) \).

    Calculons les espérances de chaque composante. Par linéarité de l'espérance : $$ \begin{aligned} \mathbb{E}[\widehat{\theta}_n] &= \frac{1}{n-1}\left(n\,\mathbb{E}[Y_n] - \frac{\mathbb{E}[S_n]}{n}\right) = \frac{1}{n-1}\left(n\!\left(\theta + \frac{\beta}{n}\right) - (\theta + \beta)\right) = \frac{(n-1)\theta}{n-1} = \theta \end{aligned} $$ $$ \begin{aligned} \mathbb{E}[\widehat{\beta}_n] &= \frac{1}{n-1}\left(\mathbb{E}[S_n] - n\,\mathbb{E}[Y_n]\right) = \frac{1}{n-1}\left(n(\theta + \beta) - n\theta - \beta\right) = \frac{(n-1)\beta}{n-1} = \beta \end{aligned} $$
    On en déduit que \( (\widehat{\theta}_n, \widehat{\beta}_n) \) est bien un estimateur sans biais de \( (\theta, \beta) \).

    (b) Calculer la variance de \( \widehat{\theta}_n \) et celle de \( \widehat{\beta}_n \).

    On remarque que \( \widehat{\beta}_n = \frac{n}{n-1}Z_n \) et \( \widehat{\theta}_n = Y_n - \frac{Z_n}{n-1} \).

    On utilise le fait que \( \mathrm{cov}(S_n, Y_n) = \sum_{i=1}^n \mathrm{cov}(X_i, Y_n) \). Par symétrie des \( X_i \), chaque terme \( \mathrm{cov}(X_i, Y_n) \) est identique. Un calcul donne \( \mathrm{cov}(S_n, Y_n) = \frac{\beta^2}{n} \), d'où \( \mathrm{cov}(\bar{X}_n, Y_n) = \frac{\beta^2}{n^2} \).

    On en déduit : $$ \mathbb{V}(Z_n) = \frac{\beta^2}{n} + \frac{\beta^2}{n^2} - \frac{2\beta^2}{n^2} = \frac{(n-1)\beta^2}{n^2} $$
    Pour \( \widehat{\beta}_n \), on a alors : $$ \mathbb{V}(\widehat{\beta}_n) = \frac{n^2}{(n-1)^2} \cdot \frac{(n-1)\beta^2}{n^2} = \frac{\beta^2}{n-1} $$
    Pour \( \widehat{\theta}_n = Y_n - \frac{1}{n-1}Z_n \), on applique la formule de la variance : $$ \mathbb{V}(\widehat{\theta}_n) = \mathbb{V}(Y_n) + \frac{1}{(n-1)^2}\mathbb{V}(Z_n) - \frac{2}{n-1}\mathrm{cov}(Y_n, Z_n) $$
    Après calcul, on obtient : $$ \mathbb{V}(\widehat{\theta}_n) = \frac{(2n-1)\beta^2}{n^2(n-1)} $$

  1. Démontrer que \( \frac{\sqrt{n}}{\beta}\left(\frac{S_n}{n} - (\theta + \beta)\right) \) converge en loi vers une variable aléatoire dont on précisera la loi.

    Les \( X_i \) sont i.i.d. d'espérance \( \theta + \beta \) et de variance \( \beta^2 \). Par le théorème central limite, on a : $$ \frac{\sqrt{n}}{\beta}\left(\frac{S_n}{n} - (\theta + \beta)\right) = \frac{\bar{X}_n - \mathbb{E}[X_1]}{\sqrt{\mathbb{V}(X_1)/n}} \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $$
    On en déduit que cette quantité converge en loi vers une variable aléatoire de loi normale centrée réduite \( \mathcal{N}(0, 1) \).

  2. Soit \( T_n = \frac{\sqrt{n}}{\beta}(Y_n - \theta) \). Déterminer une densité de \( T_n \) et étudier la convergence en probabilité de \( T_n \).

    On sait que \( Y_n - \theta \) suit une loi exponentielle de paramètre \( \beta/n \), de densité \( \frac{n}{\beta}e^{-nt/\beta} \) pour \( t \geq 0 \).

    Par le changement de variable \( T_n = \frac{\sqrt{n}}{\beta}(Y_n - \theta) \), on obtient par la formule du transfert la densité de \( T_n \) : $$ f_{T_n}(t) = \sqrt{n}\,e^{-\sqrt{n}\,t}\,\mathbf{1}_{t \geq 0} $$
    On reconnaît une loi exponentielle de paramètre \( \sqrt{n} \).

    On en déduit que \( \mathbb{E}[T_n] = \frac{1}{\sqrt{n}} \to 0 \) et \( \mathbb{V}(T_n) = \frac{1}{n} \to 0 \). Par l'inégalité de Bienaymé-Tchebychev, on conclut que \( T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 \).

  3. Lemme admis. Si \( (U_n) \) converge en loi vers \( U \) et \( (V_n) \) converge vers \( 0 \) en probabilité, alors \( (U_n + V_n) \) converge en loi vers \( U \).

    Démontrer que \( \frac{\sqrt{n}}{\beta}(Z_n - \beta) \) converge en loi vers une variable aléatoire dont on précisera la loi.

    On écrit : $$ \frac{\sqrt{n}}{\beta}(Z_n - \beta) = \frac{\sqrt{n}}{\beta}\!\left(\bar{X}_n - Y_n - \beta\right) = \underbrace{\frac{\sqrt{n}}{\beta}\!\left(\bar{X}_n - (\theta + \beta)\right)}_{=:\,U_n} - \underbrace{\frac{\sqrt{n}}{\beta}(Y_n - \theta)}_{=:\,T_n} $$
    D'après la question 9, on sait que \( U_n \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) \).

    D'après la question 10, on sait que \( T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 \).

    Par le lemme admis (lemme de Slutsky) avec \( V_n = -T_n \xrightarrow[n \to +\infty]{\mathbb{P}} 0 \), on a : $$ U_n + V_n = U_n - T_n \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) $$
    On en conclut que \( \dfrac{\sqrt{n}}{\beta}(Z_n - \beta) \xrightarrow[n \to +\infty]{\mathcal{L}} \mathcal{N}(0, 1) \).