Sampling Intervals

1. **Δήλωση προβλήματος:** Έχουμε ένα σύνολο $S$ με $|S|=n$ στοιχεία από ένα διατεταγμένο σύνολο. Επιλέγουμε τυχαία και ισοπίθανα $r$ στοιχεία από το $S$. Θέλουμε να δείξουμε ότι το πλήθος των μη επιλεγμένων στοιχείων σε κάθε διάστημα που δημιουργείται από τα επιλεγμένα στοιχεία είναι $O\left(\frac{n \log r}{r}\right)$ με πιθανότητα τουλάχιστον $1 - \frac{1}{r^{\Omega(1)}}$. 2. **Περιγραφή διαστημάτων:** Τα $r$ επιλεγμένα στοιχεία χωρίζουν το $S$ σε $r+1$ διαστήματα. Κάθε διάστημα περιέχει μη επιλεγμένα στοιχεία. 3. **Στόχος:** Να εκτιμήσουμε την πιθανότητα ότι κάποιο από τα $r+1$ διαστήματα έχει περισσότερα από $c \frac{n \log r}{r}$ μη επιλεγμένα στοιχεία, όπου $c$ είναι σταθερά. 4. **Πιθανότητα για ένα διάστημα:** Έστω $X_i$ ο αριθμός των μη επιλεγμένων στοιχείων στο $i$-οστό διάστημα. Η επιλογή των $r$ στοιχείων είναι ισοπίθανη από όλα τα υποσύνολα μεγέθους $r$. 5. **Χρήση διωνυμικού συντελεστή:** Ο αριθμός υποσυνόλων με $k$ στοιχεία σε ένα διάστημα μεγέθους $m$ είναι $\binom{m}{k}$. Η πιθανότητα να έχουμε $k$ μη επιλεγμένα σε διάστημα μεγέθους $m$ είναι περίπου: $$P(X_i = k) = \frac{\binom{m}{k} \binom{n-m}{r-k}}{\binom{n}{r}}$$ 6. **Προσέγγιση διωνυμικού συντελεστή:** Χρησιμοποιούμε την προσέγγιση: $$\binom{n}{r} \approx \left(\frac{ne}{r}\right)^r$$ 7. **Εκτίμηση πιθανότητας μεγάλου διαστήματος:** Θέλουμε να εκτιμήσουμε: $$P\left(X_i > c \frac{n \log r}{r}\right)$$ 8. **Ένωση γεγονότων:** Η πιθανότητα ότι κάποιο από τα $r+1$ διαστήματα έχει περισσότερα από $c \frac{n \log r}{r}$ στοιχεία είναι το πολύ: $$(r+1) \cdot P\left(X_i > c \frac{n \log r}{r}\right)$$ 9. **Επιλογή $c$ και όριο:** Με κατάλληλη επιλογή της σταθεράς $c$, η πιθανότητα αυτή τείνει στο 0 καθώς $r$ μεγαλώνει, δηλαδή: $$P\left(\exists i: X_i > c \frac{n \log r}{r}\right) \leq \frac{1}{r^{\Omega(1)}}$$ 10. **Συμπέρασμα:** Άρα με πιθανότητα τουλάχιστον $1 - \frac{1}{r^{\Omega(1)}}$, κάθε διάστημα έχει μέγεθος $O\left(\frac{n \log r}{r}\right)$. Αυτό δικαιολογεί την αποτελεσματικότητα του DistributionSort, καθώς τα διαστήματα δεν είναι πολύ μεγάλα. **Τελική απάντηση:** Το πλήθος των μη επιλεγμένων στοιχείων σε κάθε διάστημα είναι $O\left(\frac{n \log r}{r}\right)$ με πιθανότητα τουλάχιστον $1 - \frac{1}{r^{\Omega(1)}}$.