Τετάρτη, 12 Δεκεμβρίου 2012

Πώς κατατάσσει το Google τις ιστοσελίδες στα αποτελέσματα αναζητήσεών του;



Oι μηχανές αναζητησης αποθηκεύουν και αρχειοθετούν όλες τις σελίδες που υπάρχουν στο internet έτσι ώστε όταν κάποιος αναζητήσει κάτι χρησιμοποιώντας μια λέξη-κλειδί (keyword) ή μια φράση, να μπορούν να αναζητήσουν και να του εμφανίζουν τις ιστοσελίδες που περιέχουν τη λέξη ή φράση που αναζήτησε. 

Η δημοφιλἐστερη μηχανή αναζήτησης στον κόσμο και στην Ελλάδα είναι η google.com και η dnHost χρησιμοποιεί τις υπηρεσίες προβεβλημένης καταχώρησης από το 2001, τη στιγμή που ο ανταγωνισμός πήγαινε ακόμη σχολείο! 

Aυτή η μηχανή καταφέρνει να εμφανίζει πρώτες πρώτες τις πιο σχετικές με το θέμα που ψάχνουμε ιστοσελίδες. Αυτό επιτυγχάνεται με τη χρήση πολύπλοκων αλγόριθμων που "βαθμολογούν" κάθε ιστοσελίδα ανάλογα με τη σημασία της έτσι ώστε να εμφανίζουν στο χρήστη την πληροφορία που ψάχνει άμεσα και γρήγορα. 

H Google τρέχει σε ένα κατανεμημένο δίκτυο από χιλιάδες υπολογιστές χαμηλού κόστους και μπορεί να πραγματοποιήσει γρήγορα παράλληλη επεξεργασία. Η παράλληλη επεξεργασία είναι μια μέθοδος ηλεκτρονικού υπολογισμού (computing) όπου πολλοί υπολογισμοί (calculation)  μπορούν να εκτελούνται ταυτόχρονα, επιταχύνοντας σημαντικά την επεξεργασία των δεδομένων. Το Google έχει τρία διακριτά τμήματα: 

     * το Googlebot, ένας web crawler που αναζητά, εντοπίζει και αποθηκεύει ιστοσελίδες. 
     * Τον indexer που κατατάσσει κάθε λέξη σε κάθε σελίδα και αποθηκεύει το ευρετήριο των λέξεων που προκύπτουν σε μια τεράστια βάση δεδομένων. 
     * Τον query processor (επεξεργαστής ερωτηματος), το οποίο συγκρίνει την αναζήτησή σας στη μηχανή και συνιστά το/τα έγγραφο/α που κρίνει σκόπιμο/α. 
Ας εξετάσουμε καλύτερα το κάθε μέρος. 

1. Googlebot, ο Web Crawler της Google 

Το Googlebot είναι web crawling ρομπότ της Google, που βρίσκει και ανακτά σελίδες στο διαδίκτυο και τα μεταβιβάζουν στο Google indexer. Είναι εύκολο να φανταστεί κανείς το Googlebot ως μια μικρή αράχνη που πηγαίνει σε όλους τους κλάδους του κυβερνοχώρου, αλλά στην πραγματικότητα το Googlebot λειτουργεί περίπου όπως ο web browser σας, στέλνοντας μια αίτηση σε ένα web server για μια ιστοσελίδα, κατεβάζοντας το σύνολο της σελίδας και στη συνέχεια το μεταβιβάζει στον Google indexer. 

Το Googlebot βρίσκει σελίδες με δύο τρόπους: με την προσθήκη URL στο www.google.com/addurl.html και μέσω συνδέσμων που βρίσκει από την σάρωση του παγκόσμιου ιστού (web crawling). 



2. Ο Google Indexer 

Το Googlebot δίνει στον indexer το πλήρες κείμενο των σελίδων που αποθηκεύει στη βάση δεδομένων του Google. Ο index αυτός, με κάθε εγγραφή ευρετηρίου (index) στην βάση, ταξινομει τις σελίδες αλφαβητικά με βάση τον όρο αναζήτησης και αποθηκευει εναν κατάλογο των εγγράφων στα οποία εμφανίζεται η έννοια και η θέση του όρου αναζήτησης εντός του κειμένου όπου αυτός εμφανίζεται. Αυτή η δομή δεδομένων επιτρέπει ταχεία πρόσβαση σε έγγραφα που περιέχουν τους όρους των ερωτημάτων αναζήτησης του χρήστη. 

Για τη βελτίωση της απόδοσης αναζήτησης, το Google αγνοεί κοινές λέξεις που ονομάζονται stop words (όπως το, είναι, για, ή, του, πώς, γιατί -the, is, on, or, of, how, why,- καθώς και ορισμένα μόνο ψηφία και γράμματα). Οι λεγόμενες stop words είναι τόσο συχνές που περιορίζουν ελάχιστα  την αναζήτηση, και επομένως μπορούν με ασφάλεια να απορρίπτονται. Ο indexer επίσης αγνοεί ορισμένα σημεία στίξης και κενά διαστήματα μέσα σε ένα κείμενο και μετατρεπει όλους τους χαρακτήρες σε πεζά γράμματα για να βελτιώσει την απόδοση της Google. 


3. Ο επεξεργαστής ερωτημάτων (Google Query Processor). 

Ο Q.P. έχει πολλά μέρη, συμπεριλαμβανομένης και την διεπαφής χρήστη (user interface) δηλ. το πλαίσιο αναζήτησης, η "μηχανή" που αξιολογεί τα αιτήματα και τα ταιριάζει με τα σχετικά έγγραφα, καθώς και τον μορφοποιητή των αποτελέσματαων. 

Το PageRank (http://www.google.com/technology/) είναι το σύστημα της Google που αναλαμβάνει την κατάταξη των ιστοσελίδων. Μια σελίδα με υψηλότερο PageRank θεωρείται ότι είναι πιο σημαντικό και είναι πιο πιθανό να αναφέρονται πάνω από μια σελίδα με χαμηλότερο PageRank. 

Η Google χρησιμοποιεί πάνω από εκατό παράγοντες στον υπολογισμό και τον καθορισμό ενός PageRank για τα έγγραφα που έχουν περισσότερο σχέση με ένα ερώτημα, συμπεριλαμβανομένης και της δημοτικότητας της σελίδας, τη θέση και το μέγεθος των όρων αναζήτησης εντός της σελίδας, και την εγγύτητα ολων των όρων αναζήτησης μεταξύ τους σε μια  σελίδα. 

Μια αίτηση διπλώματος ευρεσιτεχνίας (patent application)  ασχολείται με άλλους παράγοντες που το  Google χρησιμοποιεί κατά την κατάταξη μιας σελίδας. Επίσκευθειτε την έκθεση του SEOmoz.org (http://www.seomoz.org/articles/google-historical-data-patent.php) για την ερμηνεία των εννοιών και των πρακτικών εφαρμογών της Google που περιέχονται στην αίτηση διπλώματος ευρεσιτεχνίας. 

Το Google χρησιμοποιεί και τεχνικές εκμάθησης των μηχανισμών του (machine-learning) για την βελτίωση της λειτουργίας αυτόματα από την μάθηση των συσχετισμών και των συνδεσμων μεταξύ των αποθηκευμένων δεδομένων. 

Η Google δίνει μεγαλύτερη προτεραιότητα σε σελίδες που έχουν τους όρους αναζήτησης κοντά μεταξύ τους και με την ίδια σειρά όπως το ερώτημα. Η Google μπορεί επίσης να ταιριάζει μεταξύ τους πολλούς όρους, φράσεις και προτάσεις. 

Επειδή η google αποθηκεύει και τον HTML κώδικα εκτός από το κείμενο της σελίδας, οι χρήστες μπορούν να περιορίσουν τις αναζητήσεις με βάση το σημείο όπου εμφανίζονται οι όροι της αναζήτησης, π.χ., στον τίτλο, στη διεύθυνση URL, στο σώμα (body), και σε συνδέσμους στη σελίδα, επιλογές που προσφέρονται από το http://www.googleguide.com/sharpening_queries.html και στο http://www.googleguide.com/using_advanced_operators.html 


( από το http://www.goohttp://www.googleguide.com/google_works.htmlgleguide.com/google_works.html )

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου