تكامل وب و مقايسهء ابزارهاي جستجو در اينترنت

چكيده
اين مقاله تكامل وب را در رابطه با وب و فناوري‌هاي بازيابي اطلاعات بررسي مي‌كند. در اين بررسي بين عناصر مختلف وب در زمينهء نمايه‌سازي و صفحات جستجوي وب وجه تمايز وجود دارد. ده ابزار اصلي و مهم وب براساس معيارهاي انتخاب و تعداد اتصال‌ها با يكديگر مقايسه و ارزيابي شده‌اند. ابزارهاي جستجو مانند راهنماها و موتورهاي جستجوگر نيز مورد بررسي و مقايسه قرار گرفته‌اند.

كليدواژه : وب، راهنماهاي جستجوگر، موتورهاي جستجوگر

مقدمه
كلمه اينترنت مخفف “Interconnected Networks” و به معني شبكه‌هاي به‌هم‌مرتبط است. اينترنت سيستمي براي توزيع و تبادل اطلاعات در سطح جهان است كه براساس آخرين آمار موجود در حال حاضر 226 كشور به آن متصل هستند. اين مجموعه به همراه فناوري‌هاي ساده كاربردي، سبب كاهش هزينهء نشر الكترونيكي شده است (1).در هر صورت، وب يك عنصر منسجم و واضح مستقل نيست، بلكه دو عنصر مجزاي وب وجود دارند: وب قابل‌رويت و ديدني، و وب نامرئي و غيرقابل رويت(2).
براي فهم كاربرد اين دو عنصر و براي ارزيابي اطلاعات ضرورت دارد كه از موضوع خارج شويم و ببينيم چگونه صفحات وب توليد مي‌شوند.
دو نوع صفحهء وب وجود دارند: استاتيك و ديناميك.
صفحات وب استاتيك توسط طراح وب، در خدمات‌دهندهء وب نصب مي‌شوند و براي هر كس و هر چيزي كه وب سايت را مشاهده كند قابل دسترس‌اندو هر تغييري هم بايد به صورت دستي انجام شود.
صفحات وب ديناميك توسط رايانه با به‌كارگيري دستورهاي يك زبان دستنوشته(1) و اغلب «سي‌جي‌آي‌جاوا»(2)كه به عنوان پلي بين سرويسگرهاي پروتكل انتقال ابرمتن (3) و كاربران وب عمل مي‌كند، ايجاد مي شود.
دستورهاي يك زبان دستنوشته، نتايج را در يك صفحهء خالي وب جا مي‌دهند و به كاربر، صفحهء وب ديناميك را ارائه مي‌دهند. صفحات وب استاتيك اطلاعات عام و كلي را براي كاربر تهيه مي‌كند، در حالي كه صفحات وب ديناميك، اطلاعات منحصربه‌فرد را براي كاربر تهيه مي‌نمايند. صفحات وب استاتيك براي همهء كاربران قابل رويت‌اند و در دسترس مي باشند.
 

صفحات وب ديناميك

صفحات وب استاتيك

توسط رايانه توليد مي‌شوند

دستي توليد مي‌شوند.

اطلاعات منحصربه‌فرد است

اطلاعات عام و كلي است

قابل نمايه‌سازي نمي‌باشند

اكثر آن‌ها قابل نمايه‌سازي هستند

اولين مطالعه در موسسه تحقيقاتي «ان‌ئي‌‌سي» در پرينستون آمريكا در دسامبر سال 1997 نشان داد كه صفحات وب قابل رويت، حداقل 320 ميليون صفحهء وب را شامل مي‌شوند، در حالي كه دومين مطالعه تخمين زد كه تعداد صفحات وب رشد كرده و به 800 ميليون صفحه در فوريه سال 1999 رسيده‌اند. در هر صورت، اكثر ناشرين اطلاعاتشان را بر روي وب به وسيلهء پايگاه‌هاي اطلاعاتي بزرگ توزيع مي‌كنند. اين اطلاعات اساسا جنبه تجاري دارد (2).
موتورهاي جستجوگر(4) و راهنماهاي وب
2. 1. راهنماهاي وب
چه تفاوتي بين راهنماي وب و موتور جستجو وجود دارد؟
راهنماي وب:
الف. فهرستي از سايت‌هاي وب كه از قبل تعيين شده‌اند، مي‌باشد؛
ب. توسط ويراستاران جمع‌آوري شده؛
ج. براساس موضوع و عنوان طبقه بندي شده؛
د. انتخابي است.
با توجه به اين كه راهنماهاي وب توسط افراد جمع‌آوري مي‌شوند, تصميم‌گيري دربارهء كيفيت محتواي هر يك از سايت‌هاي وب قبلا انجام شده است. در نتيجه راهنماهاي وب در اينترنت بسيار مورد مراجعه قرار مي‌گيرند، زيرا كاربران به دنبال موضوعات خاصي در اينترنت هستند كه اين راهنماها، نقطهء شروع خوبي در تشخيص بهترين‌ها در وب مي‌باشند.
در كاربرد راهنماهاي وب، كاربر مي‌تواند در بين فهرست‌‌هاي راهنما حركت نمايد. راهنماهاي اصلي وب همچنين اجازهء عبور از ديگر موتورهاي جستجو را هم مي‌دهند. مثلا بزرگ‌ترين راهنماي وب، يعني «ياهو»، اجازهء عبور از موتور هاي جستجوي ديگر را مي‌دهد.
سايت‌‌هاي وبي كه به وسيلهء راهنماي وب نمايه‌‌سازي شده‌اند، به علت روند تكميل به صورت دستي، در آن راهنماها باقي مي‌مانند؛ مگر اين كه به احتمال بسيار ضعيف به صورت دستي حذف شوند. در حالي كه وجود دائمي يك ليست يا يك فهرست در موتور جستجو هميشه ضمانت نمي‌شود، اما ساختن و حضور دائمي يك فهرست در يك راهنماي وب مثل «ياهو» امكانپذير مي‌باشد.
2. 2. موتورهاي جستجوگر
وقتي كه يك موتور جستجوگر را به كار مي‌بريد، كاربر، پايگاه اطلاعاتي سايت‌هاي وب را جستجو مي‌نمايد. همه موتورهاي جستجوگر داراي سه جزء تركيبي هستند:
الف. «اسپايدرها»(5)كه سايت‌هاي وب را بررسي مي‌كنند،
ب. فهرست‌ها و نمايه پايگاه اطلاعاتي؛
ج. نرم‌افزار بازيابي اطلاعات.

2 . 2 .1. اسپايدرهاي موتورهاي جستجوگر
پايگاه اطلاعاتي موتورهاي جستجوگر ابتدا توسط «اسپايدرها» ساخته مي‌شود و توسط موتورهاي جستجوگر به مأخذ اصلي اعزام مي‌شود.«اسپايدرها» برنامه‌هايي هستند كه وب را به دنبال صفحات جديد وب جستجو مي‌نمايند، كلمات را نمايه‌سازي مي‌كنند و اتصال را به صفحات برقرار مي‌نمايند، سپس كلمات نمايه‌شده را با آد‌رسي كه به يك صفحهء وب يا هر منبعي كه بر روي وب جهاني و به طور كلي اينترنت قرار دارد اشاره مي‌نمايد,(6) مقابله مي‌كنند.
2. 2 .2. نمايهء پايگاه اطلاعاتي موتور جستجو
اين بخش عنصر اصلي از هر موتور جستجو است. اين همان چيزي است كه كاربر به دنبال آن است. در طي سال 1998 تعدادي از توليد‌كنندگان موتورهاي جستجو آغاز به كار كردند. اين شركت‌ها نمايه‌ها را مطابق با معيارهاي گوناگون ساختند. بطور مثال مي توان از نمايهء «دايركت هيل» و «گوگل» (7) نام برد و نيز «نمايهء ‌نام‌هاي حقيقي» (8) كه شركت‌ها را قادر مي‌سازد واژه‌هاي كليدي خود را براي حمايت از محصولات خود ثبت نمايند.
2 . 2 . 3 . نرم‌افزار بازيابي اطلاعات
تمامي موتورهاي جستجوگر، نرم‌افزار مختص به خود براي پاسخگويي به سوالات دارند.
موتورهاي جستجوگر مطابق با قوانين مشابه به شرح زير عمل مي‌نمايند: هر سايت وب شامل كلمات يا واژه‌هايي است كه سوءال كاربر را با آن‌ها مقابله مي‌كند. و در صفحهء نمايش، به صورت فهرست‌وار نمايش مي‌دهد و با توجه به سوال كاربر و ارتباط موضوعي، فهرستي از مطالب را طبقه‌بندي مي‌نمايد. تفاوت مختصري در چگونگي كار الگوريتم‌ها بين موتورهاي جستجو وجود دارد، كه دليلي بر اين مدعااست كه كاربران، با يك پرسش واحد, از موتورهاي مختلف نتايج متفاوتي را كسب مي‌نمايند. در هر صورت، دليل مهم ديگر اختلاف نتايج جستجو، نسبت پايين همپوشاني، در بين موتورهاي جستجو‌گر مي‌باشد.
3 . پورتال‌ها
«پورتال»(9) ها سايت‌هاي وبي هستند كه خود عرضه‌كنندهء خدمت خاصي نيستند، ولي مراجعين را به صورت ساده و دوستانه به اطلاعات و سايت‌هاي موردعلاقه‌شان هدايت مي‌كنند. «پورتال» ها نقاط اصلي براي راهبردهاي تجارت الكترونيكي هستند و به تدريج از سال 1994 به وسيلهء سه نوع شركت اينترنتي به وجود آمدند. اين شركت‌ها كه نقش اساسي در توزيع زنجيرهء اطلاعاتي براي كاربر ايفا مي‌كنند به شرح زير مي‌باشند:
الف. توليدكنندگان خدمات اينترنتي(10)
ب. سايت‌هاي جستجو(11)
ج. توليدكنندگان مرورگر(12)
سايت «اكسايت»(13) نمونه‌اي كه از يك سايت پورتال موفق است(1).
4. توسعه و تكامل فناوري جستجو
همهء ما تكامل زندگي بشر بر روي كره خاكي را به خاطر داريم. همانطور كه همگي ما مي‌دانيم، شكل‌هاي مختلف زندگي سلولي براي مدت‌هاي بسيار طولاني قبل از تكامل زيستي وجود داشته است. در هر صورت هنگامي كه به اين نقطه از تكامل دست يافتيم، تغييرات به فرم سازمان‌يافتهء آن در مدت زمان كم‌تري به انجام رسيد.
همين مطلب براي فناوري جستجوي وب نيز صادق است. با تاكيد بر روي پور‌تاليزيشن و تجارت الكترونيكي، اولين نسل سايت‌هاي جستجو، عملاً و به تدريج فراموش شدند و اين در حالي است كه آن‌‌ها تا سال‌‌هاي متمادي، حكومت اصلي را به عهده داشتند؛ اما بدليل اين كه نتوانستند خودشان را با تغييرات محيطي وفق بدهند، فراموش گرديدند و انواع جديدي از توليدكنندگان جستجو به بهره‌برداري رسيدند.

4 .1. موتورهاي جستجوي ماورا
موتورهاي جستجوي ماورا(14) به كاربر اين امكان را مي‌دهند كه از ميان موتورهاي جستجوي متعدد و راهنماهاي وب به طور مقارن و همزمان، جستجو نمايد (2و3).
محبوب‌ترين موتورهاي جستجوي ماورا به شرح زير مي‌باشند:

– Dogpile ( www.dogpile.com )
– Mamma ( www.mamma.com )
– 2Q ( www.2q.com )
– Infind ( www.infind.com )
– Insleuth ( www.isleuth.com )
– Surfy ( www.surfy.com  )
– Webtaxi ( www.webtaxi.com  )

4 .2. نسل اول موتورهاي جستجو كه توسط سايت‌هاي وب بصورت«اسپايدر», نمايه‌سازي را ايجاد كردند، انبوهي از واژه‌ها و كلمات را تجزيه و تحليل نمودند. راهنماهاي وب به طور دستي گردآوري شدند و از آوريل 1998 مورد بهره‌برداري قرار گرفتند: يكي از اين راهنماها به نام «دايركت هيل»(15)يك حركت ريشه اي را آغاز كرد و اصلاحاتي انجام داد و روش خود را «راه سوم»(16) ناميد.
اين راهنماي وب ادعا مي‌‌كرد كه در زمان جستجو، كنترل با كاربر است و نتايج به صورت طبقه‌بندي شده بر روي سايت وب نمايان مي‌شوند. اين موتور جستجو، آنچنان كه ادعا مي‌كرد نتوانست خدمات منحصربه‌فردي را ارائه نمايد. بنابراين موتور جستجوي ديگري به نام «هاتبات»(17)به جاي آن توليد شد (2).
4 .3. جستجوي زبان طبيعي
همانطور كه قبلا بحث شد، اولين نسل موتورهاي جستجو با مقابلهء واژه‌هايي كه توسط كاربران ارائه مي‌شدند عمل مي‌نمودند. آن‌ها به محتواي واژه‌هاي جستجو توجه نمي كردند. براي مثال به ارتباط منطقي بين واژه‌هاي جستجو و ديگر معناهاي لغوي توجه نمي‌شد، به علاوه، لغات را به صورت تحت‌اللفظي جستجو مي‌كردند و به واژه‌ها و توصيفگر‌هاي‌بولي‌ نظير and, or, not توجه‌ نداشتند. دو موتور جستجوي جديد يكي پس از ديگري در طول يك هفته آغاز به كار كردند. اين موتورهاي جستجو، به شرح زير زبان طبيعي را براي جستجو پيشنهاد كردند:
الف.Ask Jeeves www.askjeeves.com
اين موتور جستجو در اول ژوئن سال 1998 شروع به كار كرد و به عنوان اولين موتور جستجوي زبان طبيعي بر روي اينترنت معرفي شد. اين موتور جستجو سوءال كاربر را با استفاده از پايگاه اطلاعات هفت ميليوني سوءالات، پاسخ مي‌داد. اگر هيچ گونه مقايسه‌اي وجود نداشت، سپس نزديك‌ترين واژه از پايگاه براي كاربر ارائه مي‌شد و سوءال مي‌شد كه مناسب‌ترين آن را انتخاب كند. اين موتور جستجو همچنين كاربر را به موتورهاي جستجوي ديگري نيز راهنمايي مي‌كند، مانند «ياهو»، «ليكاس», «اينفوسيك» و «آلتاويستا».
ب. دومين موتور جستجو به نام Electric Monk چند هفته بعد آغاز به كاركرد. اين موتور جستجو با استفاده از زبان طبيعي، الگوريتم سوءالات كاربران را پاسخ مي‌گويد. اين الگوريتم با استفاده از اصطلاحنامه، به واژه‌هاي مرتبط نيز توجه مي‌كند. جستجو از طريق زبان طبيعي در اين موتور جستجوگر، سپس به صورت سوءالات مركّب بولي درآمد و به «آلتاويستا» تسليم شد.
4 .4. تجزيه و تحليل متكي بر اتصال
موتورهاي جستجوي نسل اول براي ساخت نمايه‌هاي عظيم با هدف پاسخگويي به هر نوع سوال ساخته شدند. آن‌ها به محتواي هر صفحهء خاص تأكيد داشتند كه چگونه اين صفحات به هم مربوط مي‌شوند و اتصال مي‌يابند. همانطور كه قبلا گفته شد، روش نمايه‌سازي آن‌ها به دليل بي‌توجهي به تركيب زبان، ساخت جملات و مترادف‌ها با شكست روبرو شد.
تجزيه و تحليل متكي بر اتصال سعي دارد كه با بررسي ارتباط بين صفحات، بر اين مشكلات فائق آيد. موتورهاي جستجوگر متكي بر اتصال به سرعت رشدكرده‌اند و از نظر كاربران اينترنت در حال حاضر از محبوبيت خاصي برخوردارند.
4.4.1.«گوگل»(18)
اين موتور جستجوگر نيز مانند «ياهو» توسط دانشجويان دانشگاه استانفورد ايجاد شد اين فناوري با استفاده از روشي با نام «رتبه‌بندي صفحه»(19) وب، به ديگر موتورهاي جستجو متصل مي‌شود. اگر شما، به عنوان يك نويسندهء سايت وب، به ديگر سايت‌هاي وب از جهت اهميت آن سايت‌ها متصل شويد، مي توانيد داوري‌ها و پيشنهادهايي دربارهء سايت ارائه دهيد. همانطور كه راهنماهاي وب نظير «ياهو» توسط ويراستاران به صورت دستي جمع‌آوري و تاليف گرديده‌اند. «گوگل» هم به دنبال اعلام قضاوت ميليون‌ها نويسندهء سايت وب به صورت خودكار طراحي شد.
البته اين موتور جستجو در مقايسه با «ياهو» با سايت‌هاي وب بيش‌تري دسترسي دارد. در حقيقت برخلاف ديگر موتورهاي جستجوگر، كه هر چه نمايه‌هاي آن‌ها گسترده‌تر مي‌شود، كم‌تر مفيد واقع مي‌شوند، «گوگل» ادعا دارد كه با گستردگي نمايه‌ها و عظيم‌تر شدن آن‌ها، به نتايج بهتري دست يافته است. از ديگر موتورهاي جستجو كه با استفاده از الگوريتم طبقه‌بندي عمل مي‌نمايند مي‌توان از«هاتبات» و «اكسايت» نام برد. «گوگل» تنها موتور جستجويي است كه به طور بسيار گسترده اي جستجو‌هايش متكي بر اتصال مي‌باشند. تخمين زده شده كه نمايهء اين موتور جستجو‌گر بين 70 تا 100 ميليون صفحه مي‌باشد، اما از طريق اتصال، قدرت دسترسي به بيش از 300 ميليون صفحهء وب نيز به كاربر اينترنت داده مي‌شود. دسترسي بيش‌تر و صحت نتايج جستجوي بيش‌تر سبب گرديده كه اين موتور جستجو در رديف ده موتور جستجوي محبوب در شبكهء اينترنت قرار گيرد.
4.4.2. (20)Clever
با توجه به «نمايه‌نامهء استنادي علوم»(21) (مطالعهء ارجاعي مقالات علمي با يكديگر) clever جستجوي واژه‌هاي كليدي را براساس تلفيق كلمات و ارتباط مطالب بررسي مي‌نمايد. اين موتور جستجوگر نيز مانند «گوگل» با استفاده از اتصال، به سوءالات پاسخ مي‌دهد. ولي برخلاف «گوگل» ابتدا سوءال را به ديگر موتور‌هاي جستجو نظير «آلتاويستا» تسليم مي‌كند و سپس كاربر را به صفحاتي كه از نتايج جستجو كسب شده‌اند راهنمايي مي‌نمايد. اين موتور جستجو توسط شركت «آي‌بي‌ام» ايجاد شده.
4.4.3. Focused Crawler
يكي ديگر از موتورهاي جستجويي كه توسط شركت،« آي‌بي‌ام» ايجاد شده. اين موتور جستجو البته به اندازهء clever گسترش پيدا نكرد. برخلاف ديگر موتورهاي جستجو نظير «گوگل» و clever، اين موتور جستجو مجموعه‌اي بسيار مناسب و در ارتباط با موضوع را از طريق وب جستجو مي‌نمايد. به زباني ديگر، اين موتور جستجو فقط سايت‌هاي وبي را جستجو مي‌كند كه در ارتباط با پرسش كاربر مي‌باشند.
جستجوي گروه‌هاي خبري
در حالي كه در حال حاضر وب به مثابه مخزن اوليهء دانش بشري بر روي اينترنت مي‌باشد، تنها مخزن هم به حساب نمي‌آيد. گروه‌هاي خبري، محلي است كه گروهي از افراد، تجربيات، افكار و دانش خود را در مورد يك موضوع مورد علاقه، براي بازيابي اطلاعات به اشتراك مي‌گذارند. تفاوت بين وب و گروه‌هاي خبري در اين است كه وب مجموعه‌اي از دانش بشري را به طور صريح و روشن ارائه مي‌كند. در حالي كه گروه‌هاي خبري مجموعه‌اي از دانش بشري را به طور ضمني و غيرصريح ارائه مي‌نمايند.
دانش صريح و روشن مي‌تواند به افراد و موءسسات كمك كند تا از اطلاعات و تجارب گذشته براي برنامه‌ريزي آينده كمك بگيرند، اما دانش غيرصريح و ضمني مجموعه‌اي از تجارب و عقايد و خلاقيت‌هايي است كه براي استخراج اطلاعات صريح و روشن مورد نياز مي‌باشد.
آدرس بعضي از گروه هاي خبري تخصصي:

DejaNews ( www.dejanews.com )
Reference.com ( www.reference.com )
Liszt’s New groups directory ( http://liszt.com/news )

4.4.4. اطلاعات شركت‌ها
سايت‌هاي زيادي دربارهء معرفي شركت‌ها و توليد‌كنندگان اطلاعات تجاري وجود دارند. هر محققي مي‌تواند از اين سايت‌ها بازديد كند. چنين سايت‌هايي داراي پايگاه‌هاي تجاري مي‌باشند. يك برر‌سي بر روي نام‌هاي شركت‌ها براساس عملكرد موتورهاي جستجوگر پيشرو و راهنماهاي وب براي انتقال نتايج مناسب براي پژوهشگران‌نشان‌داد‌كه «سراچ انجين واچ»(22)و«هاتبات‌» و «گوگل» در رده‌بندي، در رده‌هاي ابتدايي قرار مي‌گيرند.
در آگوست 1999، موتور جستجو‌گر «جامپ»(23) آغاز به كار نمود. اين موتور جستجوگر داراي يك نمايهء تخصصي است كه بر اطلاعات و خبرهاي مربوط به شركت‌ها تأكيد دارد. اين موتور جستجو‌گر فهرستي از شركت‌ها، شامل اطلاعاتي نظير عناوين شركت‌ها، قدمت، زمينهء موضوعي و آدرس پست الكترونيكي و ثبت اختراعات، و شركت‌هاي وابسته به آن شركت را نيز معرفي مي‌نمايد (2و3).
4.4.5. فايل‌هاي تصويري و چند‌رسانه اي
تقريباً 70 درصد از صفحات وب غيرمتني هستند. آنچه مسلم است كاربرد, مفاهيم را به همراه تصاوير بهتر از اطلاعات فقط به صورت متني درك مي‌نمايد. سه موتور جستجوي تخصصي اصلي كه فايل‌هاي تصويري و چند‌رسانه‌اي را ارائه مي‌دهند، در اين زمينه به شرح زير مي‌باشند.

Ditto ( www.ditto.com )
Scour ( www.scour.net )
Altavista photo finder( www.altavista.com )
 

مقايسهء ابزارهاي جستجو در اينترنت
اين روزها اينترنت منبع اصلي تهيهء منابع اطلاعاتي شناخته شده است. ابزارهاي مهمي براي كمك به يافتن اطلاعات در اين فضاي اطلاعاتي وجود دارند. راهنماها و موتورهاي جستجوگر پايگاه‌هاي اطلاعاتي هستند كه به روند دريافت اطلاعات سرعت مي‌بخشند. اين ابزارها اسناد را با استفاده از زبان علامتگذاري ابرمتن(24) جمع‌آوري، ذخيره و تنظيم مي‌نمايند. قبل از ظهور اينترنت اكثر پايگاه‌هاي اطلاعاتي كتابشناختي نقش اصلي را در بازيابي اطلاعات ايفا مي‌‌كردند. با توسعهء نرم‌افزارهاي جستجو، اطلاعات علمي به راحتي قابل دستيابي شدند. تعداد ابزارهاي جستجو در اينترنت به طور مداوم در حال رشد است. در اين مقاله تعداد ده ابزار جستجو در اينترنت از قبيل راهنماها و موتور‌هاي جستجوگر براساس تعداد صفحات اتصال، انتخاب شده‌اند.
جدول يك: رده‌بندي موتورهاي جستجوگر و راهنماها براساس تعداد صفحات اتصال به آن‌ها

تعداد صفحات اتصال به آن‌ها

نام موتورهاي جستجوگر و راهنماها

1110599

Yahoo

458239

Excite

437618

Lycos

436184

Webcrawler

356963

Infoseek

350085

Altavista

238668

Hotbot

34229

Nerdworld

16192

Alonetfind

15780

Northern light

معيارهاي ارزيابي شامل جمع‌‌آوري اطلاعات و تجزيه و تحليل اسناد و بازيابي اطلاعات بوده است.
 

واگذاري به صورت دستي

واگذاري به صورت‌خودكار

 

ابزارهاي‌جستجو در اينترنت

 

 

زبان

 

كشور

شرح و توصيف

نشاني URL

 

عنوان

طبقه بندي موضوعي

بدون Meta‌tag

داراي

Meta‌tag

 

 

×

×

×

×

 

 

Yahoo

×

×

 

 

 

×

×

 

Excite

 

 

 

 

 

 

×

 

Lycos

×

×

 

 

 

×

×

 

Webcrawler

×

×

 

 

 

 

 

×

Infoseek

 

 

 

 

 

 

 

×

Altavista

 

 

 

 

 

 

 

×

Hotbot

 

 

×

×

×

×

 

 

Nerdworld

 

 

 

 

 

 

؟

؟

Aolnet find

 

 

 

 

 

 

×

 

Northern light

جدول 2. مقايسهء ابزارهاي جستجو و راهنماها در زمينه جمع‌آوري اطلاعات و تجزيه و تحليل اسناد
نتايج ارزيابي ابزارهاي جستجوي اينترنت با توجه به معيارهاي اصلي بازيابي اطلاعات در جدول يك نشان داده شده است. شش معيار براي ارزيابي وجود دارد و حداكثر نمره 6 مي‌باشد.
تقريبا همهء ابزارهاي جستجو چهار معيار اصلي را دارند. غير از Nerdworld كه از شش عملگر منطقي بولي فقط از OR استفاده مي نمايد,و «ياهو» كه عملگر پرانتز را قبول نمي كند, اختلافات ديگري نيز وجود دارند. «اينفوسيك» از عملكرد ستاره (*) استفاده نمي‌كند و «ليكاس» و «وب كراولر» سيستم را ملزم مي‌كنند كه ستاره را به عنوان اولين حروف كلمات در جستجو استفاده نمايد.

 

تنها ابزارهاي جستجوي اينترنت كه جستجوي كاملي را ارائه مي دهند «ليكاس» و «اينفوسيك» هستند. با توجه به جستجو براساس طبقه‌بندي موضوعي، فقط دو راهنما يا دايركتوري «ياهو» و Nedworld همهء صفحاتشان طبقه‌بندي و دسته‌بندي شده است. و Northen light تنها موتور جستجوگر مي‌باشد كه اجازهء جستجو براساس طبقه‌بندي را نمي دهد (2).
در «نورثرن لايت» اين امكان وجود دارد كه به وسيلهء نواحي (25)، جستجو انجام شود. در ديگر موتورهاي جستجو‌گر اين امكان كم‌تر وجود دارد. با توجه به جدول شماره 3، «نورثرن لايت» از تعداد 9 ناحيه شش ناحيه شامل: عنوان, نشاني، «يوآراِل», كشور، زبان، تاريخ، و نوع سازمان را جستجو مي‌نمايد.
رده‌بندي ابزارهاي جستجوگر با توجه به تعداد نواحي قابل جستجو به ترتيب به شرح زير مي‌باشد:

(تاريخ، زبان, نشاني «يوآراِل»، عنوان)   Altavista
(تاريخ، نشاني «يورآراِل»، عنوان)   Yahoo
(زبان، نشاني «يوآراِل», عنوان)   Lycos
(كشور, نشاني «يوآراِل»، عنوان)   Infoseek
(منطقهء جغرافيايي، تاريخ، زبان)   Hotbot
(نوع سازمان، زبان)   Excite

و بالاخره سه ابزار جستجوي باقي‌مانده يعني
Web Crawler, Nerdworld and Aolnet find
امكان جستجو از طريق نواحي را ارائه نمي‌دهند.
در اينجا بايد توجه كرد مهم‌ترين نواحي مورد توجه در ارتباط با جستجو، عنوان، «نشاني» يوآراِل, و زبان مي‌باشند.
هيچ اختلافي در ميان موتورهاي جستجوگر و راهنماها در مورد استفاده از ناحيه وجود ندارد. از تعداد دو راهنما در اين مقاله، «ياهو» پنج ناحيهء قابل جستجو را پيشنهاد مي‌كند و «نِرد وُرلد» هيچ ناحيه‌اي را پيشنهاد نمي‌نمايد. ضمنا ديگر موتورهاي جستجوگر نيز در مورد استفاده از نواحي ناهمگون هستند.
با توجه به قابليت مرور(26) و نظراندازي، موتورهاي جستجوگر به شرح زير امكان مرور و نظراندازي را ارائه مي‌دهند.
«اكسايت»، «ليكاس»، «آلتاويستا», «هاتبات»، «نورثرن لايت». به موتورهاي‌جستجوگر نظير «نورترون لايت» و «آلتاويستا» امكان استفاده از ناحيهء كشوري را ارائه مي‌دهند.
سه‌ابزار جستجو‌كه‌قادرند دستورها(27) را‌به كار‌ببرند شامل
«آلتاويستا», «هاتبات» و «اينفوسيك» مي‌باشند. اين سه موتور جستجوگر پس از جستجوي يك‌كلمه‌اي، فهرستي از واژه‌هاي تركيبي را براي راهنمايي‌هاي بعدي و گسترش ارائه مي‌دهند.
جدول شماره 4 رده‌بندي ابزارهاي جستجو در اينترنت و راهنماهاي وب را براساس نمره‌هاي آن‌ها نشان مي‌دهد. «نورثرن لايت» با كسب بالاترين نمره يعني نمره 13 در بالاترين رده، و «نردورلد» با كسب نمره 2 در پايين‌ترين رده قرار دارند. تعداد‌زيادي از نمره‌ها نيز‌بين 5/11-5/10 هستند و به شرح زير مي‌باشند:
«آلتاويستا»،«ليكاس»،«اكسايت»,«انيفوسيك» و«هاتبات».

نمره

ابزارهاي جستجو

13

Northern light

5/11

Altavista

11

Lycos

5/10

Excite

5/10

Infoseek

5/10

Hotbot

9

Yahoo

6

Webcrawler

5/5

Aolnetfind

2

Nerdworld

درجه‌بندي موتورهاي جستجوگر
نتيجه‌گيري

مهم‌‌ترين نتيجهء قابل توجه اين است كه هيچ ارتباطي بين محبوبيت و قابليت جستجوي اطلاعات در ميان ابزارهاي جستجوي مورد مطالعه وجود ندارد. دو مثال واضح از اين يافته‌ها «نورثرن لايت» و «ياهو» مي‌باشند. اگر چه «نورثرن لايت» كم‌ترين شهرت و محبوبيت را در رده‌‌بندي از نظر اتصال دارا مي‌باشد، اين موتور جستجوگر اولين مقام را در رده‌بندي از نظر امكانات و قابليت‌هاي بازيابي اطلاعات كسب نموده است. در حالي كه «ياهو» يكي از محبوب‌ترين ابزارهاي جستجو مي‌باشد، ولي از نظر بازيابي اطلاعات، در ردهء پاييني قرار دارد.
اين بررسي تفاوت عمده‌اي را بين موتورهاي جستجوگر يا راهنماهاي وب نشان نداد. در جمع‌آوري اطلاعات و تجزيه و تحليل اسناد، راهنماها قابل اعتمادترند، زيرا سيستم‌هاي دستي استفاده مي‌كنند. موتورهاي‌جستجوگر نيز به دليل‌استفاده از دستورهاي(28) زبان علامتگذاري فوق‌متن يا ابرمتن‌ها(29) اهميت دارند. هرچند روشن نيست كه نتايج قابل‌توجهي را ارائه دهند.
اگرچه‌راهنماها‌و‌موتورهاي‌جستجوگر پايگاه‌هايي هستند كه صفحات زبان علامتگذاري فوق‌متن را فهرست مي‌كنند، از نقطه نظر بازيابي اطلاعات، با توجه به دلايل زير نسبت به پايگاه‌هاي اطلاعاتي كتابشناسي معمولي داراي امكانات كم‌تري هستند.
– تعدادي از ابزارهاي جستجو تمامي امكانات موجود در پايگاه‌هاي‌ اطلاعاتي كتابشناختي معمولي را ندارند.
– محدود نمودن بازيابي به وسيله نواحي، چندان در ابزارهاي جستجو در اينترنت رايج نيست.
– محققين سوءالاتي دربارهء نواحي عنوان نشاني كه به يك صفحهء وب، يا هر منبعي بر روي وب جهاني و به طور كلي اينترنت اشاره مي‌كند دارند، كه تنها در نيمي از ابزارهاي جستجو در اينترنت يافت مي‌شوند. نه راهنماها كه اطلاعات را از طريق پرسشنامه‌هاي واگذار شده كسب مي‌نمايند و نه موتورهاي جستجوگر كه از صفحات زبان علامتگذاري فوق‌متن استفاده مي‌كنند، در جستجوهايشان از نواحي استفاده نمي‌كنند.
–  مرور نمايه‌نامه‌ها يك شكل معمول و رايج نيست.
–  استفاده از معاني لغات كنترل شده در ابزارهاي جستجوي اينترنت كاربردي ندارد (2و3).

 

تاليف: جيران خوانساري
كارشناس ارشد كتابداري و اطلاع‌رساني-مركز اطلاع‌رساني كتابخانه توانير

پي‌نوشت‌ها

1-Script
2-Java common Gateway Interface (Jave Cgi)
3-Search Engines
4-Script
5-Spiders
6-URL (Uniform Resource Locator)
7-Direct hill
8-Google Real Names Index
9-Portal
10-Intetnet Service/Access Providers
11-Search Sites
12-Browser Providers Ultra Search Engines
13-www.excite.com
14-Ultra Search Engines
15-www.directhil.com
16-The Third way
17-Hotbot
18-www.google.com
19-Page Rank
20-www.almaden.ibm/cs/k53/clever.htm/
21-Science Citation Index
22-Search Engine Watch
23-Jump
24-Hrml (Hypet text Mark up language)
25-Fields
26-Browsing
27-Meta tags
28-Meta Tags
29-hyprtext Mark up Language
 

منابع
1-قاسم‌زاده، فريدون. آشنايي با اينترنت و تجارت الكترونيك. تهران: ابزار ايران و توسعه ارتباطات افرا، 1379

2-Angeles Maldonado Martinez & Elena Fernandez Sanchez. “Comparing Internet Search Tools,” Online Information 99 Proceedings. London:1-9 Dec. 1999. 263-266
3-Green, David “The evolution of web searching.” Online information 99 proceedings, 23rd International Online information Meetings, London: 7-9 December 1999. pp-251-258
4-Alta Vista: www.AltaVista.Digital.com
5-Aolnetfind: www.Aol.com/netfind
6-Excite: www.Excite.com/
7-Hotbot: www.Hotbot.com/
8-Infoseek: www.guide.Infoseek.com/  
9-Lycos: www.Lycos.com/
10-Nerdworld: www.nerdworld.com/
11-Northern light: www.northernligh.com/
12-Web Crawler: www.webcrawler.com/
13-Yahoo: www.yahoo.com/

پشتيباني