مقدمه
کارکردهای اصلی شبکههای رایانهای و نظامهای کتابخانهای بر فرایند «ذخیره و بازیابی اطلاعات»۱ استوار است. هدف از طراحی این نظامها ایجاد مخزنهای توسعهپذیری از اطلاعات است که امکان جستجوی سریع و دقیق در آنها میسر باشد. بدون ذخیره اطلاعات بازیابی آن میسر نیست و بدون بازیابی موثر نیز ذخیره اطلاعات بیفایده خواهد بود. به نحوی که در صورت فقدان بنیادی منطقی و کارآمد در این زمینه عملاً هیچ فعالیتی در این نظامها صورت نخواهد گرفت. بر این اساس، میزان موفقیت آنها به توانمندی زیرساخت سیستمهای ذخیره و بازیابی اطلاعات وابسته است. سیستمهایی که میتوانند بیشترین حجم اطلاعات را در خود ذخیره کنند و سپس با سرعت و دقت کافی مدارک مرتبط با نیاز کاربران را در اختیار آنان قرار دهند. در قرن گذشته توان این سیستمها بسیار افزایش یافته و این روند همچنان ادامه دارد. اما تجربه نشان داده که بازیابی اطلاعات به مراتب دشوارتر از ذخیره آن است. مثلاً امروزه میتوان چندین گیگابایت از دادههای الکترونیکی را در یک حافظهی رایانهای کوچک جای داد. حجمی که ذخیره آن در چند دههی گذشته به دهها رایانه غولپیکر نیاز داشت. اما همچنان سازماندهی و بازیابی موثر این اطلاعات کار آسانی نیست. چرا که ذخیره اطلاعات بیشتر یک موضوع فنی است و بازیابی آن یک موضوع مفهومی. بنابراین، چالش اصلی در این عرصه بازیابی اطلاعات است، نه ذخیره آن.
اهمیت بازیابی اطلاعات به حدی است که خود یکی از گرایشهای مستقل در حوزه کامپیوتر است و گروههای پژوهشی فراوانی در این زمینه تحقیق میکنند. هر یک از این گروهها به وجه یا وجوه مشخصی از فرایند بازیابی میپردازند. برخی از آنها به جنبههای سیستممدار این موضوع علاقهمندند و گروهی دیگر به جنبههای کاربر مدار آن. جایگاه این حوزه نیز به حدی است که فقط بخش «جستجوی اطلاعات» در متون تخصصی آن در سطح صنعتی مستقل تلقی میشود و از آن به عنوان «صنعت جستجو» یاد میکنند. صنعت پررقابت و پردرآمدی که تا امروز راهی پرفراز و نشیب را پیموده و هنوز راهی طولانی و پرچالش در پیش دارد. یادداشت حاضر روندهای پژوهشی جاری در این زمینه را به اختصار معرفی میکند و به تبیین دستاوردها، امیدها و آرزوهای محققان این عرصه میپردازد.
عرصههای پژوهشی در صنعتِ جستجو
ابتدا باید دید مولفهها و عناصر اصلی در این حوزه کدامند و هریک چه نقشی در این زمینه ایفا میکنند. شاید محور اصلی توجه محققان در این زمینه میلیونها کاربر نهایی۲ باشند که روزانه در سراسر جهان تلاش میکنند در انبوهی از اطلاعات متنوع در شبکه جهانگستر وب به نیازهای اطلاعاتی خود پاسخ گویند. کاربران شتابزده و بیقراری که انتظار دارند در کمترین زمان و با صرف کمترین هزینهی مالی و زمانی بیشترین اطلاعات معتبر و مرتبط را به دست آورند. این نیاز مهمترین تقاضای بازار جستجو است. در مقابل عرضهکنندگان ابزارهای جستجو با انواع و اقسام دشواریهای فنی و مفهومی در بازیابی اطلاعات مواجهاند. آنان ناچارند بین کلیدواژههای نه چندان دقیق کاربران با منابع نه چندان سازمان یافتهی وب ارتباطی منطقی برقرار کنند. وظیفهای که اجرای موفق آن بسیار دشوار و پیچیده است. اما این دشواری و پیچیدگی نه تنها آنان را از تلاش بیشتر دلسرد نکرده است، بلکه زمینه را برای خلاقیت و نوآوری در این عرصه گشوده است. مهمترین تحولات در این زمینه را میتوان در چند محور ذیل خلاصه کرد:
- پکپارچگی در جستجو: در دنیای پرشتاب امروزه معمولاً کاربران میخواهند با یک جستجوی ساده به طور همزمان در چند پایگاه اطلاعاتی جستجو کنند. در متون تخصصی بازیابی اطلاعات به چنین جستجویی اصطلاحاً «جستجوی چندجانبه۳» میگویند. در این روش کلیدواژه مورد نظر کاربر به چند پایگاه اطلاعاتی ارسال میشود و مجموعه نتایج حاصل از هر پایگاه با هم ترکیب شده و پس از مرتبسازی در اختیار وی قرار میگیرد. به این ترتیب کاربر مجبور نیست یک جستجو را در چند منبع تکرار کند و در یک مرحله میتواند نتایج حاصل از جستجو در چند منبع را در اختیار داشته باشد. در پاسخ به این نیاز بسیاری از ناشران و طراحان پایگاههای اطلاعاتی با ایجاد یک رابط کاربر ساده امکان جستجوی یک مرحلهای در منابع مختلف را فراهم آوردهاند. حتی بعضی از آنان گامی فراتر نهاده و برای کاربران دانشگاهی امکان دسترسی یکپارچه به پایگاههای خود و منابع کتابخانههای دانشگاهی را فراهم آوردهاند. به این ترتیب کاربران دانشگاهی میتوانند کلیدواژه مورد نظر خود را همزمان در چند پایگاه بینالمللی و فهرست کتابخانه دانشگاه خویش جستجو کنند. حاصل چنین جستجویی فهرستی از مقالات در پایگاههای مورد نظر و کتابهای موجود در کتابخانه آن دانشگاه خواهد بود. در این راستا گروههای مختلف تحقیقاتی در عرصهی ذخیره و بازیابی اطلاعات تلاش میکنند خلاقیتها و نوآوریهای تازهای برای افزایش گستره و عمق این جستجوها ارائه کنند. مثلاً آنان از یک سو بر تعداد و تنوع پایگاههایی که امکان جستجوی همزمان دارند میافزایند و از سوی دیگر درصدد ارائه الگوهای مناسبی برای مرتبسازی و دستهبندی نتایج جستجو هستند. چرا که معمولاً با افزایش تعداد منابع مورد جستجو، تعداد مدارک بازیابی شده افزایش مییابد و کاربر ناچار است وقت بیشتری برای یافتن منابع مرتبط صرف کند. بنابراین، نرمافزارهایی در این زمینه موفقترند که مثلاً بتوانند در خلال ترکیب نتایج جستجو، مدارک تکراری را حذف کنند و با نمایش مرتبطترین نتایج بازیابی زمان جستجو را کاهش دهند.
کاربران شتابزده و بیقراری که انتظار دارند در کمترین زمان و با صرف کمترین هزینهی مالی و زمانی بیشترین اطلاعات معتبر و مرتبط را به دست آورند. این نیاز مهمترین تقاضای بازار جستجو است. در مقابل عرضهکنندگان ابزارهای جستجو با انواع و اقسام دشواریهای فنی و مفهومی در بازیابی اطلاعات مواجهاند
۲.سادهسازی و استانداردسازی رابطهای کاربر۴: جریان فعلی تولید رابطهای کاربر به سمتی است که کاربران در پایگاهها و بانکهای اطلاعاتی مختلف رابطهای کاربر یکسان یا حداقل مشابه ببینند. به همین دلیل است که رابط کاربر ساده و محبوب گوگل الهامبخش بسیاری از موتورهای کاوش بوده است و به وضوح میتوان تاثیر آن را بر طراحی رابطهای کاربر جستجو دید. چرا که کاربران محیطهای جستجوی ساده را ترجیح میدهند و نمیخواهند برای هر منبع اطلاعاتی نیز وقت و انرژی خود را برای یادگیری چگونگی استفاده از آن منبع خاص صرف کنند. هرچند ممکن است تنوع در طراحی رابط کاربر امتیازی برای یک سیستم بازیابی محسوب شود. اما این تنوع نباید به گونهای باشد که کاربران در زمان استفاده از هر منبع با ساختاری کاملاً متفاوت مواجه شوند.
۳. تطبیقپذیری نظامهای ذخیره و بازیابی۵: اطلاعات موجود در پایگاهها و بانکهای اطلاعاتی باید به گونهای باشد که امکان انتقال و تبادل اطلاعات میان آنها را به سادگی فراهم آورد. بر این اساس، طراحان این نظامها تلاش میکنند از قالبها و ساختارهای مشابه برای ذخیره اطلاعات استفاده کنند. به این ترتیب زمینه لازم برای تعامل میان پایگاههای اطلاعاتی مختلف فراهم خواهد شد.
۴.شخصیسازی امکانات جستجو۶: هر کاربر در هر مرحله از جستجوی اطلاعات نیازی منحصر به فرد دارد که باید به راحتی امکان تبیین آن را برای سیستم بازیابی داشته باشد. بنابراین، باید برای هرکاربر امکانی پیشبینی شود که به کمک آن بتواند نظام ذخیره و بازیابی را برای پاسخگویی به نیازش تنظیم کند. به سخنی دیگر، طراح سیستم باید یک ساختار یکسان اما کاملاً انعطافپذیر را برای کاربران طراحی کند. مثلاً کاربران باید قادر به افزایش یا کاهش تعداد فیلدهای جستجو باشند یا گستره و عمق جستجوی خود را به منابع مشخصی محدود کنند. مثلاً متخصصان علوم انسانی یک دانشگاه باید بتوانند در یک پایگاه اطلاعات علمی چندرشتهای منابع مهندسی و علوم پایه را از دامنه جستجوی موضوعی خود خارج کنند و به این ترتیب بر دقت فرایند بازیابی بیافزایند.
۵. کاهش سهم کاربران در تحلیل اطلاعات بازیابی شده: در اوائل دهه ۱۹۹۰ که وب جهانگستر پا به دنیای ذخیره و بازیابی اطلاعات گذاشت، تحولی شگرف و تاریخی در این عرصه رخ داد. اهمیت وب در توانایی منحصر به فرد آن در ایجاد پیوند مستقیم بین منابع اطلاعاتی گوناگون بود. امکانی که قبل از وب یا به سختی میسر بود یا در مواردی رویایی دور دست به شمار میآمد. چرا که در محیطهای الکترونیکی قبل از وب برای ایجاد پیوند میان دو منبع اطلاعاتی مقدمات و تمهیدات فراوانی لازم بود و معمولاً گذر از چند مرحله سلسله مراتبی ضرورت داشت.
اما با تکیه بر توانایی وب در ایجاد لینک، بدون توجه به فاصله مکانی منابع اطلاعاتی، کاربران میتوانستند فقط با برقراری یک پیوند مستقیم و با یک کلیک ساده از وبسایتی در شرق آسیا به وبسایتی در غرب امریکا متصل شوند. اما این سادگی در برقراری پیوند به تنهایی مشکل بازیابی اطلاعات را حل نکرد بلکه فقط زمینهساز یکپارچگی در محیط وب شد، که البته این دستاورد در نوع خود تحولی تاریخی بود. با این حال، هنوز جستجوهای وبی با انبوهی از مدارک بازیابی شده همراه بوده و هست. در نتیجه کاربران مجبورند با بررسی نتایج بازیابی به گزینش مدارک مرتبطتر بپردازند و گاهی این گزینش خود فرایندی طولانی و خستهکننده است. بر این اساس، موتورهای جستجو تلاش میکنند با تدابیر مختلف نظیر خوشهبندی نتایج و حذف مدارک تکراری بخشی از این وظیفه را انجام دهند و از زحمت کاربران در این زمینه بکاهند.
۶.افزایش سهم کاربران در ذخیره و سازماندهی اطلاعات: ذخیرهسازی انبوهی از اطلاعات جدید به وقت و انرژی فراوانی نیاز دارد. ولی اگر این وظیفه دشوار بین هزاران و گاه میلیونها کاربر تقسیم شود، آنگاه پروژههای عظیم ورود اطلاعات به سرعت قابل اجرا خواهد بود. به این روش ذخیره اطلاعات «تودهسپاری» یا «مردمسپاری»۷ میگویند که در آن برای ورود اطلاعات به برخی از پایگاههای اطلاعاتی میتوان از کاربران سیستم خواست تا خود به ورود اطلاعات بپردازند. امتیاز این روش علاوه بر سرعت و سهولت در انجام این کار، دقت مضاعفی است که در ورود اطلاعات اعمال میشود. چرا که هر کاربر با تکمیل رکورد یا رکوردهای مربوط به خود و احاطهای که بر اطلاعات مورد نظر دارد با خطای کمتری مواجه خواهد شد.
۷. افزایش سطح تعامل تولیدکنندگان و مصرفکنندگان اطلاعات: سطح تعامل کاربران با منابع اطلاعاتی چنان متحول شده است که امروزه به دشواری میتوان مرز مشخصی بین تولیدکننده و مصرف کننده اطلاعات قائل شد. چرا که هر یک از آنان در یک زمان مشخص میتوانند هر دو نقش را بر عهده داشته باشند. مثلاً خوانندگان وبلاگها با افزودن نظرات خود عملاً در تولید این منابع نقش دارند. نویسنده وبلاگ نیز در زمان نگارش تولیدکننده و در زمان خواندن نظرات کاربران مصرف کننده اطلاعات است. در نتیجه نمیتوان نویسنده و خواننده وبلاگ را در دو گروه مجزا و مستقل از هم قرار داد. چرا که آنان در زمانهای مختلف نقشهای متفاوتی بر عهده دارند.
۸. کاهش وابستگی ذخیره و بازیابی به زمان و مکان: کاربر شتابزده و بیقرار امروز از وابستگی و محدودیت زمانی و مکانی برای دسترسی به اطلاعات گریزان است. دسترسی همیشگی به منابع در هر مکان خواست عمومی اغلب کاربران است. مثلاً آنان میخواهند از طریق گوشی تلفن همراه خود به صندوق پست الکترونیکی خویش نیز دسترسی داشته باشند و به جستجو در صفحات وب نیز بپردازند.
۹. افزایش امکانات کمکی سیستمها: در دنیای متحول تعامل انسان با کامپیوتر انتظار میرود سطح این تعامل میان انسان و ماشین هر روز افزایش یابد. مثلاً اگر به هر دلیل یک فرایند جستجو به نتیجهای منجر نشود، کاربران انتظار دارند سیستم بازیابی با برخورداری از حداقل هوشمندی خود، دلایل این نتیجه و راهکارهای گذر از آن را به کاربر معرفی کند. سادهترین مثال در این زمینه موتور جستجوی گوگل است که وقتی کلمهای با املای اشتباه به آن وارد میشود، گزینههای احتمالی از املای درست را به کاربر پیشنهاد میکند. چرا که این احتمال وجود دارد که دلیل شکست در بازیابی اطلاعات، املای نادرست کلیدواژهها باشد. در مثالی دیگر، گوگل بر اساس جستجوهای قبلی میتواند ترکیبهایی که قبلاً با یک کلیدواژه خاص به کار رفتهاند را به کاربر معرفی کند.
۱۰.جستجو بر اساس زبان طبیعی۸: سالهاست که کتابداران و متخصصان اطلاعرسانی تلاش میکنند در فرایند نمایهسازی منابع با مهار واژگانی و تبدیل زبان طبیعی به واژگان استاندارد شده بر دقت بازیابی اطلاعات بیافزایند. این بنیاد منطقی در دنیای رایانه نیز جایگاه ویژهای دارد. مبانی نظری و اهمیت این موضوع نیز همچنان پابرجاست و نظامهای نوین بازیابی اطلاعات بر این اصل اساسی استوارند. اما طراحان پایگاههای جدید تلاش میکنند وظیفهی تبدیل زبان طبیعی به واژگان مهار شده را از دوش کاربر برداشته و آن را به نظام بازیابی اطلاعات بسپارند. به این ترتیب کاربر با زبان طبیعی جستجوی خود را انجام میدهد و این وظیفه سیستم بازیابی است که نزدیکترین و مرتبطترین گزینه در فهرست واژگان مهار شده را به این جستجو اختصاص دهد. چنین سیستمهایی از «رابطهای کاربر مبتنی بر زبان طبیعی»۹ برخوردارند.
۱۱.جستجوهای مبتنی بر بافت۱۰: در دنیای واقعی هر مدرک یا فقره اطلاعاتی به شکلهای مختلف با مدارک و منابع دیگر در پیوند موضوعی و معنایی است. متخصصان بازیابی اطلاعات تلاش میکنند انعکاسی از این پیوندها را در فرایند جستجوی اطلاعات ایجاد کنند. به این ترتیب بازیابی یک منبع اطلاعاتی می تواند با بازیابی منابعی همراه باشد که به نحوی با موضوع آن در ارتباطند. بی آنکه کاربر کلیدواژههای مرتبط با آنها را به کار برده باشد. مثلاً اگر کاربری در جستجوی مقالات در زمینه گرم شدن زمین است، آنگاه موتور جستجو علاوه بر مدارکی که این کلیدواژه در آنها یافت میشود، مدارکی که حاوی کلیدواژههای مرتبط نظیر آب شدن یخچالها یا تولید گازهای گلخانهای نیز هستند را بازیابی کند.
۱۲. جستجوی معنایی۱۱: جستجوی معنایی زمینه ساز تحقق ایدهی «وب معنایی» است. در وب معنایی بخش عمدهای از فرایند جستجو و بازیابی اطلاعات به سیستم سپرده میشود. سیستمی که هوشمند است و همچون ذهن آدمی میتواند بین مفاهیم مختلف ارتباط معنایی برقرار سازد. بنابراین، کاربر نباید چندان نگران انتخاب بهترین کلیدواژه یا از دست دادن منابع مرتبط باشد. چرا که کافی است او به بخشی از شبکه مفاهیم مرتبط به هم در مجموعی از مدارک دست یابد و با دنبال کردن پیوندهای معنایی میان آنها به نتیجه دلخواه خود برسد.
۱۳. جستجوی منابع غیرمتنی۱۲: بخش عمدهای از منابع موجود در وب غیر متنی است. تصاویر، فیلمها و فایلهای صوتی در وب فراوان یافت میشوند. مهمترین مشکل امروز در بازیابی منابع غیر متنی چگونگی توصیف این منابع و مناسبسازی آنها برای بازیابی موثر است. تا امروز مبنای توصیف منابع در تقریباً همه سیستمهای بازیابی اطلاعات متنی بوده است. به همین دلیل کاربران نمیتوانند به سادگی بین نیاز اطلاعاتی خود در منابع غیر متنی با نظامهای بازیابی اطلاعات ارتباط برقرار کنند. مثلاً تصور کنید شما سرود یا ترانهای در گذشته شنیدهاید و نام خواننده و تولید کننده آن را نیز نمیدانید و آنچه در ذهن شما باقی مانده است، فقط بخشی از شعر یا نوای است. در چنین شریطی توصیف آنچه به دنبال آن هستید برای سیستم بازیابی کار بسیار دشواری است. این مشکل در مورد تصاویر نیز وجود دارد. برای درک این دشواری کافی است در بخش کاوش تصویر گوگل جستجویی آزمایشی انجام دهید و در مورد دقت بازیابی آن قضاوت کند. به راحتی خواهید دید که معمولاً ریزش کاذب در بازیابی تصاویر بسیار زیاد است و مدارک غیر مرتبط فراونی بازیابی میشود. در حال حاضر گروههای پژوهشی متعددی در دنیا در زمینه بازیابی منابع غیر متنی تحقیق میکنند و در جستجوی راهکارهایی برای حل این مشکل هستند.
۱۴. جستجو در منابع وب اجتماعی۱۳: امروزه بخش عمدهای از منابع وبی توسط کاربران نهایی وب تولید میشود که به این منابع اصطلاحاً «محتوای کاربر ساخته»۱۴ میگویند. نمونه ابزارهایی که این امکان را برای کاربران فراهم میکنند عبارتند از: گروههای بحث، گروههای خبری، وبلاگها، و شبکههای اجتماعی مبتنی بر وب. موتورهای جستجوی امروز سعی میکنند امکان جستجو در این منابع را فراهم کنند. چرا که بسیاری از پرسشهای کاربران به این منابع مربوط است.
۱۵ . خلاقیت در بازنمایی نتایج جستجو: فرایند جستجو با نمایش نتایج بازیابی پایان نمییابد. چرا که پس از آن کاربر ناچار است به بررسی منابع بازیابی شده بپردازد و مناسبترین آنها را انتخاب کند. پژوهشگران صنعت جستجو تلاش میکنند با ارائه محصولات جدید و خلاقانه این فرایند بررسی و گزینش را تسهیل کنند. مثلاً استفاده از نمادهای تصویری و ترسیم ارتباط میان نتایج جستجو از نمونه تلاشهایی است که در این زمینه صورت گرفته است.
سخن پایانی
به رغم پیشرفتهای موجود در زمینه ذخیره و بازیابی اطلاعات، صنعت جستجو هنوز دوران طفولیت خود را میگذراند و تا مرحله بلوغ و بالندگی راهی طولانی در پیش دارد. دورنمای مطلوب این صنعت زمانی محقق میشود که کاربران پس از جستجو در وب با فهرستی طولانی از منابع مواجه نشوند و مجبور نباشند با بررسی تک تک آنها به جداسازی انبوهی از منابع کمربط و بیربط بپردازند. به سخنی دیگر، هنوز بخش عمدهای از فرایند تحلیل و بررسی در فرایند جستجو بر عهده کاربر است و سیستمهای بازیابی موجود چندان هوشمند نیستند که کمک موثری در تحلیل اطلاعات ارائه کنند. اما خوشبختانه گامهایی که در این زمینه برداشته شده، و به تعدادی از آنها در این یادداشت اشاره شد، نوید بخش آیندهای روشن برای این حوزه است. ضمناً به دلیل محدودیت حجم این مقاله امکان پرداختن به تمام محورهای پژوهشی در صنعت جستجو وجود نداشت. شاید شما بخواهید در بخش نظرات این یادداشت محورهای دیگری به این فهرست اضافه کنید. منتظر مشارکت شما در تکمیل این فهرست هستم.
۱ Information Storage and Retrieval
۲ End User
۳ Federated Search
۴ Simplifying User Interface
۵ Interoperability
۶ Search Personalization and Search Customization
۷ Crowdsourcing
۸ Natural Language Searches
۹ Natural Language User Interfaces
۱۰ Contextual Searches
۱۱ Semantic Searches
۱۲ Non-textual Searches
۱۳ Social Web Searches
۱۴ User Generated Content
سلام آقای دکتر
دنبال کتابی در زمینه صنعت جستجو (بر پایه روشهای نوین بازیابی اطلاعات در محطیط وب ) هستم (ترجیحا فارسی )
متشکرم اگر راهنمایی فرمایید