Oι μηχανές αναζητησης αποθηκεύουν και αρχειοθετούν όλες τις σελίδες που υπάρχουν στο internet έτσι
ώστε όταν κάποιος αναζητήσει κάτι χρησιμοποιώντας μια λέξη-κλειδί
(keyword) ή μια φράση, να μπορούν να αναζητήσουν και να του εμφανίζουν
τις ιστοσελίδες που περιέχουν τη λέξη ή φράση που αναζήτησε.
Η
δημοφιλἐστερη μηχανή αναζήτησης στον κόσμο και στην Ελλάδα είναι η
google.com και η dnHost χρησιμοποιεί τις υπηρεσίες προβεβλημένης
καταχώρησης από το 2001, τη στιγμή που ο ανταγωνισμός πήγαινε ακόμη
σχολείο!
Aυτή
η μηχανή καταφέρνει να εμφανίζει πρώτες πρώτες τις πιο σχετικές με το
θέμα που ψάχνουμε ιστοσελίδες. Αυτό επιτυγχάνεται με τη χρήση πολύπλοκων
αλγόριθμων που "βαθμολογούν" κάθε ιστοσελίδα ανάλογα με τη σημασία της
έτσι ώστε να εμφανίζουν στο χρήστη την πληροφορία που ψάχνει άμεσα και
γρήγορα.
H
Google τρέχει σε ένα κατανεμημένο δίκτυο από χιλιάδες υπολογιστές
χαμηλού κόστους και μπορεί να πραγματοποιήσει γρήγορα παράλληλη
επεξεργασία. Η παράλληλη επεξεργασία είναι μια μέθοδος ηλεκτρονικού
υπολογισμού (computing) όπου πολλοί υπολογισμοί (calculation) μπορούν
να εκτελούνται ταυτόχρονα, επιταχύνοντας σημαντικά την επεξεργασία των
δεδομένων. Το Google έχει τρία διακριτά τμήματα:
* το Googlebot, ένας web crawler που αναζητά, εντοπίζει και αποθηκεύει ιστοσελίδες.
* Τον indexer που κατατάσσει κάθε λέξη σε κάθε σελίδα και αποθηκεύει
το ευρετήριο των λέξεων που προκύπτουν σε μια τεράστια βάση δεδομένων.
* Τον query processor (επεξεργαστής ερωτηματος), το οποίο συγκρίνει
την αναζήτησή σας στη μηχανή και συνιστά το/τα έγγραφο/α που κρίνει
σκόπιμο/α.
Ας εξετάσουμε καλύτερα το κάθε μέρος.
1. Googlebot, ο Web Crawler της Google
Το
Googlebot είναι web crawling ρομπότ της Google, που βρίσκει και ανακτά
σελίδες στο διαδίκτυο και τα μεταβιβάζουν στο Google indexer. Είναι
εύκολο να φανταστεί κανείς το Googlebot ως μια μικρή αράχνη που πηγαίνει
σε όλους τους κλάδους του κυβερνοχώρου, αλλά στην πραγματικότητα το
Googlebot λειτουργεί περίπου όπως ο web browser σας, στέλνοντας μια
αίτηση σε ένα web server για μια ιστοσελίδα, κατεβάζοντας το σύνολο της
σελίδας και στη συνέχεια το μεταβιβάζει στον Google indexer.
Το
Googlebot βρίσκει σελίδες με δύο τρόπους: με την προσθήκη URL στο
www.google.com/addurl.html και μέσω συνδέσμων που βρίσκει από την σάρωση
του παγκόσμιου ιστού (web crawling).
2. Ο Google Indexer
Το
Googlebot δίνει στον indexer το πλήρες κείμενο των σελίδων που
αποθηκεύει στη βάση δεδομένων του Google. Ο index αυτός, με κάθε εγγραφή
ευρετηρίου (index) στην βάση, ταξινομει τις σελίδες αλφαβητικά με βάση
τον όρο αναζήτησης και αποθηκευει εναν κατάλογο των εγγράφων στα οποία
εμφανίζεται η έννοια και η θέση του όρου αναζήτησης εντός του κειμένου
όπου αυτός εμφανίζεται. Αυτή η δομή δεδομένων επιτρέπει ταχεία πρόσβαση
σε έγγραφα που περιέχουν τους όρους των ερωτημάτων αναζήτησης του
χρήστη.
Για
τη βελτίωση της απόδοσης αναζήτησης, το Google αγνοεί κοινές λέξεις που
ονομάζονται stop words (όπως το, είναι, για, ή, του, πώς, γιατί -the,
is, on, or, of, how, why,- καθώς και ορισμένα μόνο ψηφία και γράμματα).
Οι λεγόμενες stop words είναι τόσο συχνές που περιορίζουν ελάχιστα την
αναζήτηση, και επομένως μπορούν με ασφάλεια να απορρίπτονται. Ο indexer
επίσης αγνοεί ορισμένα σημεία στίξης και κενά διαστήματα μέσα σε ένα
κείμενο και μετατρεπει όλους τους χαρακτήρες σε πεζά γράμματα για να
βελτιώσει την απόδοση της Google.
3. Ο επεξεργαστής ερωτημάτων (Google Query Processor).
Ο
Q.P. έχει πολλά μέρη, συμπεριλαμβανομένης και την διεπαφής χρήστη (user
interface) δηλ. το πλαίσιο αναζήτησης, η "μηχανή" που αξιολογεί τα
αιτήματα και τα ταιριάζει με τα σχετικά έγγραφα, καθώς και τον
μορφοποιητή των αποτελέσματαων.
Το PageRank (http://www.google.com/technology/)
είναι το σύστημα της Google που αναλαμβάνει την κατάταξη των
ιστοσελίδων. Μια σελίδα με υψηλότερο PageRank θεωρείται ότι είναι πιο
σημαντικό και είναι πιο πιθανό να αναφέρονται πάνω από μια σελίδα με
χαμηλότερο PageRank.
Η
Google χρησιμοποιεί πάνω από εκατό παράγοντες στον υπολογισμό και τον
καθορισμό ενός PageRank για τα έγγραφα που έχουν περισσότερο σχέση με
ένα ερώτημα, συμπεριλαμβανομένης και της δημοτικότητας της σελίδας, τη
θέση και το μέγεθος των όρων αναζήτησης εντός της σελίδας, και την
εγγύτητα ολων των όρων αναζήτησης μεταξύ τους σε μια σελίδα.
Μια
αίτηση διπλώματος ευρεσιτεχνίας (patent application) ασχολείται με
άλλους παράγοντες που το Google χρησιμοποιεί κατά την κατάταξη μιας
σελίδας. Επίσκευθειτε την έκθεση του SEOmoz.org (http://www.seomoz.org/articles/google-historical-data-patent.php) για την ερμηνεία των εννοιών και των πρακτικών εφαρμογών της Google που περιέχονται στην αίτηση διπλώματος ευρεσιτεχνίας.
Το
Google χρησιμοποιεί και τεχνικές εκμάθησης των μηχανισμών του
(machine-learning) για την βελτίωση της λειτουργίας αυτόματα από την
μάθηση των συσχετισμών και των συνδεσμων μεταξύ των αποθηκευμένων
δεδομένων.
Η
Google δίνει μεγαλύτερη προτεραιότητα σε σελίδες που έχουν τους όρους
αναζήτησης κοντά μεταξύ τους και με την ίδια σειρά όπως το ερώτημα. Η
Google μπορεί επίσης να ταιριάζει μεταξύ τους πολλούς όρους, φράσεις και
προτάσεις.
Επειδή
η google αποθηκεύει και τον HTML κώδικα εκτός από το κείμενο της
σελίδας, οι χρήστες μπορούν να περιορίσουν τις αναζητήσεις με βάση το
σημείο όπου εμφανίζονται οι όροι της αναζήτησης, π.χ., στον τίτλο, στη
διεύθυνση URL, στο σώμα (body), και σε συνδέσμους στη σελίδα, επιλογές
που προσφέρονται από το
http://www.googleguide.com/sharpening_queries.html και στο
http://www.googleguide.com/using_advanced_operators.html
( από το http://www.goohttp://www.googleguide.com/google_works.htmlgleguide.com/google_works.html )
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου