Bei der gröbsten Approximation (und auch den besseren Näherungen) steht für mich vor allem die Frage im Raum, warum da ausgerechnet der Logarithmus so einen wichtige Rolle spielt. Dafür gibt es sicher eine schlaue Erklärung.
Ich habe mir mal ein bisschen Gedanken über diese Fragestellung gemacht. Ich hatte zwar mal eine Zahlentheorievorlesung gehört, aber der Beweis verwendet ja haufenweise andere Sätze und Lemmata, sodass man eigentlich gar nicht mehr durchblickt, was da eigentlich gerade bewiesen wird. Das Folgende ist kein mathematischer Beweis, sondern ist nur dazu da, um grob zu veranschaulichen, was der LN mit der Verteilung der Primzahlen zu tun hat. Wie wir ja bereits festgestellt haben, wird beim Sieb des Eratosthenes zunächst jede zweite Zahl gestrichen, dann jede dritte, fünfte, siebte, eltfte, ... Wenn wir also bei einem Wert x angekommen sein werden und alle Vielfachen von Primzahlen <= x durchgestrichen haben, kann der Anteil der noch nicht durchgestrichenen Zahlen >x duch folgende Funktion beschrieben werden:
\begin{align}
\rho\left(x\right) := \prod_{p\leq x,\text{ prim}} \frac{p-1}p
\end{align}
In Bereichen weit größer x werden noch einige Zahlen durchgestrichen werden. Im Bereich wenig größer als x kann die Funktion als ungefähre Primzahldichte aufgefasst werden. Falls x eine Primzahl ist, sind alle Zahlen zwischen x und x^2, die noch nicht durchgestrichen sind, Primzahlen. Somit ist der Anteil der Primzahlen in diesem Bereich in etwa rho(x).
Die Funktion rho(x) ist eine monoton fallende Stufenfunktion und hat genau bei bei allen Primzahlen einen Sprung und zwar gilt für eine Primzahl x
\begin{align}
\rho\left(x\right) = \frac{x-1}x \rho\left(x-1\right)
\end{align}
Umgeformt:
\begin{align}
\rho\left(x\right)-\rho\left(x-1\right) = -\frac 1x \rho\left(x-1\right)
\end{align}
Die Wahrscheinlichkeit, dass eine ganze Zahl x eine Primzahl ist, ist in etwa rho(x-1). Die linke Seite kann als Diffenzenquotient aufgefasst werden. Der Differenzenquotient ist jedoch 0, wenn sich im Intervall (x-1, x] keine Primzahl befindet. Zur Approximation durch eine stetig-differenzierbare Funktion stelle ich die folgende DGL auf:
\begin{align}
\dot{\tilde\rho}\left(x\right) = -\frac 1x \tilde\rho\left(x\right)^2
\end{align}
Als Lösung ergibt sich
\begin{align}
\tilde\rho\left(x\right) = \frac 1{\ln\left(x\right)-c}
\end{align}
wobei die Konstante c durch die Anfangswerte zu berechnen ist.
Damit wird auch klar, warum die die Li-Funktion soviel besser ist als x/ln(x). Bei der Li Funktion wird die Dichte integriert. Bei x/ln(x) entsteht ein großer Fehler, die im Bereich der kleinen Zahlen eine viel höhere Primzahldichte herrscht, was bei x/ln(x) nicht berücksichtigt wird.