آرهی‌نت(۱)، نظام مبتنی بر دانش برای تولید، پردازش و بازیابی محتوای الکترونیکی آرشیوی(۲)

نویسندگان:

یوآن سالومی، میهایلا دینسورینو، کریستینا پاپ و سورین سوچیو[۳]

ترجمه:

مهدیه چیت ساز

احمد عابدی

 

 

چکیده

این مقاله مشکل ایجاد، پردازش و پرس‌و‌جوی محتوای الکترونیکیِ غنی شده از لحاظ معنایی را، از کتابخانه‌ها و آرشیوهای دیجیتالی نشان می‌دهد. هم‌چنین تجزیه و تحلیلی از حوزه آرشیوی، حاصل از ایجاد یک الگوی حوزه‌ای آرشیوی و هسته هستی‌شناسی حوزه‌ای را ارائه می‌دهد. این سیستم، نشانه‌گذاری معنایی را به محتوای اسناد تاریخی اضافه می‌کند؛ در نتیجه بازیابی اسناد و دانش را به عنوان پاسخی به درخواست مبتنی بر هستی‌شناسی به زبان طبیعی، قادر می‌سازد. عملکرد نظام دو جریان کاری اصلی را دنبال می‌کند: ۱) تولید محتوای الکترونیکی غنی شده از لحاظ معنایی و فراهم‌آوری دانش ۲) پردازش و بازیابی دانش. در جریان کاری اول، اطلاعات حوزه‌ای مرتبط با اسناد مبتنی بر زبان طبیعی استخراج می‌شود و به وسیله‌ی تفسیر معنایی و دامنه‌ی جمعیت حوزه‏ای دنبال می‌شود. در جریان دوم، درخواست‌های زبان طبیعی هدایت شده‌ی هستی‌شناسی، فرایندهای استدلالی را ایجاد می‌کنند که نتایج جستجوهای مرتبط را فراهم می‌سازد. این مقاله همچنین پیرامون دگرگونی هستی‌شناسی حوزه‌ای پیاده‌سازی شده بر مبنای “زبان هستی‌شناسی وب” به الگوی داده‌ای سلسله مراتبی بحث می‌کند. در نتیجه پشتیبانی از پردازش هستی‌شناسی کارآمد را فراهم می‌کند.

۱- مقدمه

آرشیوها منابع مهمی از دانش تاریخی را نشان می‌دهند. اسناد موجود در آرشیوها به عنوان بخشی از میراث ملی، منابع با ارزشی هستند. بنابراین باید از زوال آن‌ها جلوگیری کرد. امکان دسترسی به اسناد در قالب اصلی آن‌ها اولاً به علت سیار بودن و یا به دلایل امنیتی و خطرناک، و دوماً به علت قرار گرفتن اسناد در معرض عواملی که ممکن است موجودیت آن‌ها را تغییر دهد، هزینه‌بر است. استفاده از نسخه‌های دیجیتالی اصلی راه حلی است که هزینه‌های مربوط به مطالعه‌ی اسناد را کاهش می‌دهد، در حالی که قالب اصلی آن‌ها را حفظ می‌کند. هنگام سازماندهی در آرشیوها اسناد به توصیفات، پیوند داده شده‌اند. هنگامی که قالب فراداده سازگار می‌شود، محتوای آن‌ها و محتوای اسناد ناهمگن هستند. از جمله عواملی که به عدم تجانس کمک می‌کند، سه عامل هستند که به طور مستقیم بر مطالعه سند موثرند. اولین و مهم‌ترین عامل گوناگونی زبان‌هاست که در محتوا و فراداده‌ی آن‌ها نوشته می‌شود. عامل دوم دوره‌ی تاریخی است که هم از سند و هم توصیف و شرح آن ناشی شده است زیرا سبک نوشتن در طول زمان تغییر می‌کند. تزئیناتی که اسناد را آراسته می‌کنند عامل سوم را تشکیل می‏دهند. محققان نیز با مشکلِ زیادی اسنادِ موجود روبرو هستند؛ بنابراین این مورد، مرور از طریق همه‌ی اسناد موجود جهت یافتن اطلاعات مورد نیاز را سخت می‌کند. اگرچه نظام مدیریت محتوا برای سال‌ها قادر به مبادله با داده‌های توزیع شده‌ی موجود است، قادر ساختن آن‌ها به پردازش اسناد زبان طبیعی هنوز هم یک چالش است. برای نشان دادن این مسائل، پروژه تحقیقاتی آرهی‏نت راه حلی جهت پردازش و جستجوی اطلاعات مرتبط از یک مخزن بزرگ اسناد ناهمگن با توجه به تاریخچه ترانسیلوانیا ارائه می‌دهد. مخزن اسناد به وسیله‌ی پردازش اسناد آرشیوی از آرشیو‌های ملی شهر کلوژ[۴] ایجاد می‌شود. نظام “آرهی نت” یک پایگاه دانش به وسیله‌ی پردازش اسناد و تفسیر آن‌ها با مفاهیم و روابطی از دامنه‌ی هستی‌شناسی “آرهی نت” ایجاد می‌کند. به این ترتیب یک لایه از ماشین پردازشگر معنایی بر روی محتوای اسناد خام موجود در آرشیوها با استفاده از کسب دانش نیمه خودکار اضافه می‌شود. پایگاه دانش بدست آمده همراه با تفسیر سند برای حل پرس‌وجوهای زبان طبیعی هدایت شده‌ی هستی‌شناسی ارائه شده توسط انسان‌ها یا عوامل نرم‌افزاری استفاده می‌شود. نتایج جستجوی مربوطه نشان‌دهنده‌ی اسناد اطلاعات و دانش مرتبط با معناشناسی پرسش‌ها است. مورخان و آرشیویست‌ها می‌توانند برای سهولت مطالعه‌ی اسنادِ بخشی از کار خود، از نظام استفاده کنند. ادامه مقاله به شرح زیر سازماندهی شده است. در بخش دو آثار مرتبط را معرفی و در قسمت سوم تجزیه و تحلیل ما از دامنه‌ی آرشیوی، شرح مجموعه‌ی سند و جزئیات مدل دامنه‌ی آرشیوی ما و هستی‌شناسی دامنه‌ی هسته را ارائه می‌کند. معماری سیستم پیشنهادی و جریان کار مرتبط در بخش چهارم توضیح داده می‌شود. بخش ششم یک مطالعه موردی را که نشان‌دهنده‌ی قابلیت‌های نظام در زمینه‌ی آرشیوهای تاریخی است، شامل می‌شود. مقاله با نتیجه‌گیری و پیشنهاد کار در آینده به پایان می‌رسد.

۲- اثر مرتبط

با توجه به کسب دانش از میان مرتبط‌ترین روش‌ها، ما به آنتوپاپ[۵]، اِس او بی اِی[۶] و آنتی[۷] اشاره می‌کنیم. آنتوپاپ یک راه حل تک مرحله‌ای برای: ۱) تفسیر معنایی محتوای اسناد و۲) فراهم ساختن و ساکن کردن هستی‌شناسی با نمونه‌های جدید موجود در اسناد است. این راه حل، از دامنه قوانین کسب دانش خاص استفاده می‌کند که به نتایج حاصل از ابزارهای استخراج اطلاعات به عناصر هستی‌شناسی پیوند داده می‌شود، در نتیجه یک نمود رسمی‌تر زبان هستی‌شناسی وب (او، دبلیو، اِل)[۸] یا (آر دی اف)[۹] از محتوای سند ایجاد می‌شود. اِس او بی اِی نظامی است که برای ایجاد یک پایگاه دانش خاص از منابع ناهمگن طراحی شده است. اِس او بی اِی امکانات زیر را ارائه می‌دهد:

۱)       بازیابی سند به صورت خودکار از وب.

۲)       تفسیر زبان شناختی و استخراج اطلاعات با استفاده از روش قلبی از طلا[۱۰].

۳)       نقشه نمایی از بخش‌هایی از عناصر هستی‌شناسیِ سند مشروح.

روش آنتی نیز، تفسیری نیمه‌خودکار است که استفاده از عبارات منظم همراه را با شرح و تفسیر و مکانیسم‌های نمایه‌سازی انجام می‌دهد. روش‌شناسی با محتوای اسلواکی و انگلیسی آزمایش و اجرا شد. در ادبیات، مدل‌های پیشنهادی برای مدیریت هستی‌شناسی بزرگ عبارتند از: مدل‌های مبتنی بر زبان نشانه‌گذاری گسترش‌پذیر(ایکس ام ال[۱۱])، مدل‌های پایگاه داده رابطه‌ای، مدل‌های مبتنی بر گراف و مدل‌های در حافظه. برای جستجو و استدلال، جنسینگ[۱۲]، جنیو[۱۳] و پاور آکووا[۱۴] راه حل‌هایی برای هستی‌شناسی زبان طبیعی ارائه می‌کنندکه جستجوهای کاربر را هدایت می‌کند. در این روش، اصول آنتوپاپ در جریان کار کسب دانش به تصویب رسیده است. علاوه بر این پردازش مترادف و هم آوا نیز مورد بررسی واقع شده است. رویکرد این روش شامل سه قسمت می‌شود: ۱) اطلاعات را از متن بدون ساختار استخراج می‌کند. ۲) دامنه خاصی را در سند مورد تفسیر قرار می‌دهد و ۳) از استدلال برای پی بردن به خواص مواردی که اخیرا افزوده شده است استفاده می‌کند.

این نظام برای پردازش اسناد بصورت چند زبانه طراحی شده است. از جمله این زبان ها، زبان لاتین است که تا کنون برای مجموعه ای از اسناد رومانیایی که با استفاده از منابع خاص زبان رومانیایی ارائه شده، نتایج خوبی بدست آورده است. علاوه بر این، نظام آرهی‌نت به عنوان رابط، پرس‌و‌جوی هدایت شده‌ی هستی‌شناسی زبان طبیعی را فراهم می‌کند و مدل داده سلسله مراتبی را برای ذخیره‌سازی موثر، پردازش و استدلال در هستی‌شناسی معرفی می‌کند.

۳- دامنه آرشیوی مجموعه، مدل و هستی‌شناسی دامنه

در این بخش تجزیه و تحلیلی از دامنه آرشیوی بر اساس مجموعه‌ای از اسناد فراهم شده که توسط مورخانی از آرشیوهای ملی شهر کلوژ ارائه شده است.

۱-۳- مجموعه اسناد آرشیوی

این مجموعه با مجموعه ای از اسناد آرشیویِ اصلیِ قبل از پردازش (به نام اسناد اصلی آرشیوی) ایجاد شده است که از حقایق تاریخی که در قرون وسطای ترانسیلوانیا اتفاق افتاده، گرفته شده است. تکامل تاریخیِ ترانسیلوانیا منبع اصلی ناهمگنی اسناد اصلی آرشیوی، در آرشیوها است. برخی از عوامل خاصی که منجر به ناهمگنی هستند عبارتند از:

۱-                  زبان اسناد (لاتین، مجارستانی، آلمانی و رومانیایی)

۲-                  نهادی که سند را صادر کرده (انواع مختلف مقامات سلطنتی، محلی و مذهبی)

۳-                  چه اسنادی که چاپ می‌شوند و چه اسنادی که بصورت دست نوشته هستند.

۴-                  تزئینات نوشتن که اسناد را آراسته می‌کنند.

این ویژگی‌ها منجر به مشکلات بزرگی در پردازش خودکار اسناد برای استخراج اطلاعات شد. بنابراین تصمیم گرفته شدکه ایجاد و ارائه خلاصه اسناد توسط آرشیویست‌ها را به عنوان ورودی‌ای برای نظام خود استفاده کنند.

اسناد اصلی آرشیوی[۱۵]دیجیتالی می‌شوند، بنابراین اسناد دیجیتالی، رونوشتی از سند اصلی[۱۶] ایجاد می‌کند. هر سندِ دیجیتالیِ رونوشت از سند اصلی، توسط آرشیویست‌ها به عنوان بخشی از کار حرفه‌ای آن‌ها بصورت دستی پردازش می‌شود. نتیجه این پردازش، سند پردازش شده‌ای است که توسط مورخان برای پردازش آماده و تولید می‌شود. هر  یک از اسناد مذکور شامل داده‌ی فنی[۱۷]و خلاصه‌ای از سند اصلی است. (به شکل یک نگاه کنید). داده‌یِ فنیِ موجود ممکن است به تاریخ صدور، صندوق بایگانی، تعداد فهرست یا فراداده‌های دیگر ارجاع داده شود. در این مطالعه موردی، محتوای سند در واقع نشان‌دهنده‌ی خلاصه‌ای از سند اصلی مرتبط است که در زبان طبیعی یک روش بدون ساختار را بیان می‌کند. شکل ۱ مراحل قبل از پردازش را نشان می‌دهد که داده فنی و خلاصه مطلب[۱۸] با شروع از یک سند اصلی آرشیو ایجاد می‌شوند. برای سند پردازش شده توسط مورخان از شکل ۲، بخش داده‌ی فنی شامل اطلاعات فنی زیر است:


منبع سند اصلی آرشیوی، ۲۵ مارس ۱۳۲۰ میلادی صادر شده است. محل صدور آن ناشناخته است. این سند نسخه‌ای از سند اصلی آرشیوی است که در قرن ۱۷ میلادی بر روی کاغذی در مجارستان نوشته شده است. این سند اصلی بخشی از صندوقچه خانوادگی کمنی (kemeny) است. این ۱۹۶ اُمین سند از دفتر دوم این صندوق است. مخفف سند اصلی آرشیوی منتشر شده‌ی “دی.آی.آر” است که مشخصات آن بدین شرح است: قرن ۱۳، جلد اول، صفحات ۴۲۶ و ۴۲۷.

1

شکل ۱. مراحل پیش از پردازش اسناد تاریخی

2

شکل۲. مثالی از سندپردازش شده توسط مورخان

(با توجه به شکل‌ شماره دو مثالی از سند پردازش شده توسط مورخان آورده شده است) در زبان انگلیسی، در بخش چکیده کاربرگه می‌خوانیم: «کارول رابرت، پادشاه مجارستان به میهائیل و نیکلای- که پسران آلبرت از منطقه جاک بودند- مناطق پالوستلک[۱۹] و جنگل ایمباز(Ombuz) در کشور داباکا را هدیه می‌دهد تا برای خدمات نظامی وفادارانه خود همراهِ بازپرس استفان، به نبرد مویس[۲۰] که علیه پادشاهی شورشی را انجام داده است، بروند.

۲-۳-مدل دامنه آرشیوی

این مقاله یک نمایش عمومی از دامنه آرشیوی پیشنهاد می‌دهد که در شکل ۳ توضیح داده شده است.

دامنه آرشیوی مدلی است که از اسناد اولیه قرون وسطی شروع می‌شود که توسط آرشیو ملی شهر کلوژ تهیه شده و در بخش قبلی ارائه شده است.

این اسناد به صورت دست نوشته هستند و شامل تزئینات زیادی می‌باشند که آن‌ها را برای پردازش به طور خودکار دشوار می‌کند. با توجه به این مشکل، ما در مطالعه موردی خود از خلاصه اسنادی استفاده کرده‌ایم که توسط آرشیویست‌ها تولید شده‌اند. (برای مثال به شکل ۲ نگاه کنید)

در این مدل، عنصرِ مرکزی سند است. اسناد به دامنه‌ی خاصی از قبیل دامنه تاریخی یا دامنه پزشکی تعلق دارند. در این تحقیق از دامنه آرشیوی تاریخی استفاده کرده‌ایم. به طور رسمی به عنوان دانش دامنه، که با استفاده از هستی‌شناسی دامنه (مفاهیم و روابط) و قوانین نشان داده شده است.

3

شکل۳. مدل دامنه آرشیوی

4

شکل۴. هسته دامنه هستی‌شناسی

اسناد را می‌توان از چندین منبع داده، مانند پایگاه‌های داده‌های اضافی، وب سایت‌ها یا نسخه‌های خطی دیجیتالی بدست آورد. اسناد متعددی ممکن است به یکدیگر مربوط شوند. با مراجعه به اطلاعاتی درباره‌ی موضوعات مشابه حتی اگر آن‌ها شامل همان نمونه‌های واژگانی نباشند (برای نمونه نام‌ها، وقایع و غیره) هنگام جستجو در اسناد آرشیوی شناسایی تمام اسنادی که به یک موضوع خاص مرتبط هستند، اهمیت دارد. برای فعال کردن بازیابی اطلاعات از همه اسناد مرتبط، دامنه دانش برای اضافه کردن یک سطح نشانه‌گذاری معنایی به محتوای اسناد استفاده می‌شود. دامنه هسته دانش (قوانین و هستی‌شناسی دامنه) با پردازش و تجزیه و تحلیل مخزن بزرگی از اسناد آرشیوی، با تمرکز بر شناسایی مفاهیم و روابط رایج آن‌ها گرفته می‌شود. در مرحله بعد براساس تکنیک‌های استخراج اطلاعات به کار رفته در خلاصه مدرک[۲۱]، دامنه دانش غنی می‌شود.

۳-۳- هسته هستی‌شناسی حوزه‌ای

هستی‌شناسی‌ها دانش را ضبط و سازماندهی می‌کنند و پشتیبانی را نیز برای استدلال پیشنهاد می‌دهند. این نظام از دامنه هستی‌شناسی در پردازش‌های کسب دانش، تفسیر سند و پرس‌وجوی معنایی استفاده می‌کند. توسعه دامنه هستی‌شناسی در دو مرحله انجام می‌شود. در طول مرحله اول یک فرایند تکراری دستی برای تجزیه و تحلیل دامنه و ایجاد هسته‌ی دامنه‌ی هستی‌شناسی انجام می‌شود. مرحله دوم به صورت خودکار است و توسط سیستم انجام می‌شود که آن اسناد را پردازش می‌کند و استدلال در هستی‌شناسی را انجام می‌دهد. این قسمت فرآیند توسعه‌ی هسته را در حالی ارائه می‌کند که در مرحله دوم بخش ۴ این مقاله بطور کامل شرح داده می‌شود. برای طراحی هسته‌ی هستی‌شناسی، تاریخ ترانسیلوانیا در قرون وسطی مورد مطالعه قرار داده شد و مجموعه‌ای عظیم از اسناد توسط مورخان و کارشناسان اسناد، مورد تجزیه و تحلیل قرار گرفت. همچنین تمایلات مورخان برای یافتن اینکه چه چیزهائی از سیستم نیز در نظر گرفته شد همانند صاحبان یک قلمرو خاص. به این ترتیب مفاهیم و روابط مربوطه که در زیر توضیح داده می‌شود، شناسائی شده است.

5

شکل۵. معماری آرهی نت

 اماکن، اشخاص، تاریخ‌ها و رویدادها مرتبط‌ترین عناصری هستند که در این اسناد ظاهر می‌شوند. اسامی مربوط به این اشخاص، عدم قطعیت به استدلال درباره مترادف‌ها و هم آواهای ممکن را اضافه می‌کند. انواع قلمرو تحت مفهومِ تقسیم ارضی گروه‌بندی شده است. ارجاع به اشخاص می‌تواند به عنوان یک یا بیش از یک نام همراه با یک عنوان و احتمالاً نام تقسیم ارضی ظاهر شود. (مانند کارول رابرت، پادشاه مجارستان) مقامات نقش مهمی را ایفا می‌کنند زیرا آن‌ها تنها اشخاص قادر به صدور اسناد و مدارک رسمی بودند. یکی از خصوصیات یک قدرت این است که می‌تواند در هر دو بخش خلاصه مدرک[۲۲] و داده های فنی[۲۳] از سند ظاهر شود. رویداد هم‌چنین مفهوم مهمی است که در خلاصه مدرک اغلب به شکایات، کمک‌های مالی، اشتغال و به رسمیت شناختن اموال مرتبط است. بسته به شیوه‌ای که اسناد بیان می‌شوند ممکن است برای شناسایی عناصر مختلف به یک رویداد متصل شد. گروه‌های درگیر دلایلی هستند که رخداد یا تاریخ آن را باعث شده است. این عناصر به عنوان خواص مفهوم رویداد نشان داده می‌شوند. بعد از چندین بار تکرار و تجدید نظر، نسخه نهایی هسته هستی‌شناسی خود را درباره قرون وسطی ترانسیلوانیا، تصویر شده در شکل ۴ بدست آوردیم. هم‌چنین از نظام حفاظتی برای توسعه‌ی هستی‌شناسی استفاده شده است.

۴-     نظام آرهی نت

این بخش، معماری لایه‌ایِ نظامِ آرهی نت و همچنین سه جریان کاری اصلی مرتبط با لایه‌های مفهومی آن را ارائه می‌دهد.

۱-۴- معماری نظام

این نظام در چهار لایه‌ی پردازشِ تعاملی ساخته شده است:

۱)       لایه‌ی نمایشی و کسب داده‌ی خام

۲)       لایه‌ی کسب دانش

۳)       لایه‌ی هستی‌شناسی زبان هستی‌شناسی وب[۲۴]به طراحی مدل داده سلسله مراتبی[۲۵]

۴)       لایه‌ی پردازش و بازیابی دانش

لایه‌ها، منابع و فر‌آیندهای مرتبط با آن‌ها در شکل ۵ نشان داده شده‌اند. پایگاه داده‌ی اولیه[۲۶]برای تداوم سند خام استفاده می‌شود، در حالیکه سرور دانش[۲۷] برای یادگیری و استدلال وظایف استفاده می‌شود. لایه‌ی نمایشی و کسب دانش اولیه، پشتیبانی برای جمع‌آوری و ذخیره‌سازی داده در پایگاه داده‌ی اولیه را از منابع مختلف با استفاده از ابزار تکنیک‌های تشخیص کاراکتر نوری[۲۸] در اسناد خام، وارد کردن اطلاعات از پایگاه‌های خارجی یا با استفاده از رابط کاربری یک پارچه نظام فراهم می‌کند.

لایه‌ی کسب دانش از الگوی تطبیق برای استخراج داده‌های مربوطه از اسناد خام استفاده می‌کند. بر اساس دامنه هستی‌شناسی و در مجموعه‌ای از قوانین نگاشت کسب دانش، مدارک پس از آن به صورت معنایی شرح داده می‌شوند. مفاهیم و موارد جدید، شناسایی شده و به دامنه هستی‌شناسی به عنوان نتیجه‌ای از این فرایند اضافه می‌شوند. در لایه هستی‌شناسی زبان هستی‌شناسی وب[۲۹] به نقشه‌برداری مدل داده سلسله مراتبی[۳۰] ، هستی‌شناسی حاصل از لایه کسب دانش به مدل داده سلسله مراتبی طرح‌ریزی می‌شود که استدلال موثر و فرایندهای بازیابی دانش را اجازه می‌دهد. لایه‌ی پردازش و بازیابی دانش پرس‌وجوهای هدایت شده هستی‌شناسی زبان طبیعی را از اسناد مشروح و دانش نظام امکان‌پذیر می‌سازد.

۲-۴- کسب دانش

هدف لایه‌ی کسب دانش، گسترش دامنه دانش به وسیله شناسایی، استخراج، شرح و تفسیر اطلاعات مربوط به حوزه‌ای خاص از خلاصه اسناد آرشیوی است. کسب دانش با استفاده از تکنیک‌های داده‌کاوی (نشانه‌گذاری، تطبیق الگو و فرایندهای ساختار داده‌ها) در روش ارسال بر روی محتوای اسناد اعمال می‌شود. ما اصول آنتوپاپ را در طراحی جریان کسب دانش اتخاذ کردیم (نگاه کنید به شکل ۶). علاوه بر این نیز پردازش مترادف‌ها و هم آواها مورد بررسی قرار گرفته است. خانواده مترادف‌ها برای شناسایی و پردازش نمونه‌های هستی‌شناسی که دارای شکل‌های مختلف واژگانی با همان معنی در اسناد مختلف هستند، نیاز می‌شود. برای مثال نام “Palostelek” در یک سند ارائه می‌شود و “Paulusteleky” در سندی دیگر شناخته شده است و بیشتر به عنوان مترادف پردازش می‌شود. شناسایی و بازنمایی هم‌آواها با نمونه‌های واژگانی رایج برای موارد مختلف سروکار دارد (یعنی نام “میهای” “Mihai” ممکن است به نام همان شخص یا اشخاص مختلف در اسناد متفاوت اشاره کند.)

فعالیت‌های اصلی جریان کار کسب دانش در زیر توضیح داده شده است.

–          استخراج داده فنی: این فعالیت مسئول جداسازی داده فنی سند از محتوای آن است (به عنوان مثال به شکل ۲ نگاه کنید).

–          تفسیر لغوی: هدف از این فعالیت شناسایی و تفسیر عناصر لغوی مرتبط در محتوا براساس قواعد تطبیق الگو است. قاعده تطبیق الگو (نگاه کنید شکل ۸) رابطه بین عناصر لغوی و عناصر تفسیری آن‌ها را تعریف می‌کند. خروجی فعالیت تفسیر لغوی شامل داده‌های لغوی (واژگانی) مشروح است که در قالب سلسله مراتبی از کلمات استخراج شده، همراه با عناصر تفسیری آن‌ها بر طبق قانون تطبیق الگو، در شکل ۹ نشان داده شده است.

6

شکل۶. کانال کسب دانش

استخراج دانش

هدف استخراج دانش در حوزه هستی‌شناسی، تفسیر معنایی ساختار سلسله مراتبی عناصر واژگانی معنایی است که در فعالیت پیشین مورد استفاده قرار می‌گیرد. این فعالیت توسط مجموعه قوانین طراحی که تابع کسب اطلاعات‌اند، حمایت شده است. هر قانون کسب دانش ترسیم شده‌ای: ۱-راه‌های پیوند عناصر واژگانی معنایی با مفاهیم هستی‌شناسی و ۲-مجموعه‌ اقداماتی برای جمع کردن هستی‌شناسی با روابط و مثال‌ها را شرح می‌دهد (برای مثال نگاه کنید به شکل ۱۰ که در قسمت مطالعه موردی است). نتیجه حاصل از استخراج دانش، ساختار آر. دی. اف ذخیره شده در یک فایل به همراه محتوای سند اصلی است. (به شکل ۱۱ نگاه کنید)

هستی‌شناسی جمعیتی

نتیجه اجرای قوانین کسب دانش ترسیم شده بر روی اسناد تفسیر واژگانی، جمعیت هستی شناسی همراه با نمونه ها و روابط شناخته شده است که طی فرایند استخراج اطلاعات اجرا می شود. در مثال زیر شرح داده شده است:

inst={inst.doc.td,inst.val,inst.prop,inst.attr} که ۱ inst.doc.tdاطلاعات فنی اسنادی را نمایش می‌دهد که در یک نمونه ظاهر می‌شود. ۲-inst.valدر نمونه‌های بازنمایی واژگان است. ۳-inst.propمجموعه ویژگی‌هایی که در مثال‌ها دخیل و درگیر است و ۴-inst.attrمجموعه‌ای از ویژگی‌های مرتبط با یک نمونه است.

جمعیت هستی‌شناسی (به شکل ۱۲ نگاه کنید) همچنین با نمونه‌های مترادف و هم آوا نیز مترادف می‌باشد. به منظور اینکه دو نمونه مترادف، یا هم آوا هستند، ما نقش فاصله‌ای D را تعریف کردیم که به عنوان نتیجه (دلیل) کاندید شده انتخاب شد.  (cinst)و (oinst) یک نمونه هستی‌شناسی که به ما اجازه می‌دهد چهار مورد ذیل را از هم تشخیص دهیم:

• Ifd(cinst,oinst)<θandcinst.val=oinst.valthencinstisidenticaltooinst

• Ifd(cinst,oinst)<θandcinst.val≠oinst.valthencinstisdifferentfromoinst

• Ifd(cinst,oinst)>θandcinst.val=oinst.valthencinstissynonymofoinst

• Ifd(cinst,oinst)>θandcinst.val≠oinst.valthencinstishomonymofoinst

همچنین از فرهنگ لغت برای اضافه نمودن هستی‌شناسی همه مترادف‌های یک نمونه، استفاده شده است. به دلیل تعداد نمونه‌ها، علاوه بر مدارک جدید، ساختار هستی‌شناسی نیز تغییر کرده و ممکن است ناهماهنگی ایجاد شود. این مورد به وسیله فعالیت‌های مدیریت هستی‌شناسی اولیه به منظور: ۱- پی‌بردن به روابط و اسناد جدید به عنوان نتیجه اصلاح هستی‌شناسی به دلیل پردازش موارد قبلی و ۲- حفظ ثبات هستی‌شناسی بیان شده است.

۳-۴ هستی‌شناسی به‌وسیله‌ی ترسیم داده‌های سلسله مراتبی

بازنمود هستی‌شناسی مدل داده‌های سلسله مراتبی، تسهیل‌گر ذخیره هستی‌شناسی کارا و عملکردهای استدلال و پرس‌وجوی هستی‌شناسی ثمربخش است. مدل داده‌ای سلسله مراتبی، یک بازنمود هستی‌شناسی عمومی است که از سلسله مراتب‌هایی – که می‌تواند در هدف کلی خود که ساختار مبتنی بر مدارک است-، باقی بماند. در حالیکه روابط هستی‌شناسی سلسله مراتبی با استفاده از درخت‌ها نشان داده می‌شود، عناصر هستی‌شناسیِ زبان هستی‌شناسی وب[۳۱] در مدل داده‌های سلسله مراتبی[۳۲] – که از موجودیت‌های داده‌های رابطه‌ای استفاده می‌کنند- بازنمود می‌شود. مدل مذکور، روابط سلسله مراتبی را – که در ساختار هستی‌شناسی در زبان هستی‌شناسی وب یافت می‌شود، مدیریت می‌کند. (به عنوان مثال، وراثت طبقه‌ای). زبان هستی‌شناسی وب از طبقه‌ها، اشخاص، ویژگی‌ها و انواع داده‌ها به منظور بدست گرفتن دانش حوزه استفاده می‌کند. به واسطه‌ی استفاده از روابط سلسله مراتبی، طبقه‌ها می‌توانند به طبقه فرعی تقسیم شوند، بنابراین خلق یک درخت از ساختار طبقه‌ای بر اساس روابط فرزند- والدین شکل می‌گیرد. اشخاصی که به طبقه‌های مختلفی متعلقند، درختی از روابط اعضای طبقه تولید می‌کنند.

هستی‌شناسی زبان هستی‌شناسی وب در داده‌های سلسله مراتبی ثابت است، و بهینه‌سازی جستجو برای عملکرد بهتر و استفاده از ابزار تحلیل داده را اجازه می‌دهد.

زبان هستی‌شناسی وب همراه با الگوریتم طراحی داده‌های سلسله مراتبی به شکل زیر کار می‌کند: ۱-گذر از ورودی‌های هستی‌شناسی زبان هستی‌شناسی وب و ایجاد درختواره که بیان کننده روابط سلسله مراتبی کنترل شده در هستی‌شناسی زبان هستی‌شناسی وب است. ۲- عبور از درختان در یک شیوه بالا- پایین، اضافه کردن هر مشکل مشاهده شده در بانک اطلاعات. دراین شیوه روابط والدین – فرزندی حفظ شده و فقط عملیات اضافی بر روی مدل داده‌های سلسله مراتبی انجام می‌شود.

۴-۴ پردازش و بازیابی دانش

هدف پردازش و دانش و اصلاح سطوح فراهم‌آوری، حمایت از جستجوهای هوشمند است که جستجوی اطلاعات را با ارتباط بیشتر کنترل شده در اسناد آرشیوی توانمند می‌سازد. این نظام به کاربر هنگام ورود اطلاعات به زبان طبیعی، از طریق هدایت اطلاعات ورودی او، طبق ساختار سؤال تقویت شده با ماهیت هستی‌شناسی کمک می‌کند. پرسش کاربر یک فرآیند استدلال پیچیده‌ای را در هستی‌شناسی بازنمایی شده‌ی داده‌های سلسله مراتبی آغاز می‌کند که شامل جستجوی مترادف، نتیجه‌گیری منطقی و جستجوی زیر گروه‌ها و طبقه‌های فوقانی است. به عنوان نتیجه مجموعه‌ای از اسناد مرتبط با پرسش شناسائی شده و دانش جدید مرتبط ممکن است تولید شود. شکل شماره ۷ سطح بالای پردازش اطلاعات و اصلاح سطوح را نشان می‌دهد که شامل دو مؤلفه‌ی اصلی: تحلیل‌گر پرسش و پردازشگر پویش است.

تحلیل‌گر، اطلاعاتِ ورودیِ کاربر را تحلیل کرده، پیشنهاداتی را بر پایه ساختار پرسش و مؤلفه‌های هستی‌شناسی مطرح می‌کند. ساختار پرسش در فرم گستردهBackus-Naur Form (EBNF)  (EBNF) بسط داده شده است. لغت جاری و لغت جدید برای کاربر، پیشنهاداتی را که توسط مدل ماشه‌ای (رها کردن چیزی) طبقه‌بندی شده‌اند، فراهم می‌کند. وقتی کاربر فرایندی را آغاز می‌کند، پرسش تحلیل شده و سپس سلسله مراتبی از کارهای خودکار موتور تحلیل ترجمه می‌شود.

7

شکل ۷- پردازش و بازیابی دانش

پردازشگر، پرسش را از موتورِ تحلیل برای حل ریز سؤالات، و کل نتایج پرسش‌ها استفاده می‌کند. فعالیت موتورِ تحلیل در هستی‌شناسی- که در داده‌های سلسله مراتبی و فناوری‌های تحلیل در هستی‌شناسی و فناوری‌های استخراج اطلاعات برای اهداف استدلال استفاده می‌کند- مورد تاکید است.

جستجوی مدارک در دو سطح اجرا می‌شود: در یک سطح بر روی اطلاعات فنی که مجموعه مدارک را محدود می‌کند، تکیه می‌شود. در حالی که در سطح دیگر تکیه بر معنایِ معناشناختیِ پرسشِ ورودیِ کاربر است. معمولاً در اسناد تاریخی چندین اصطلاح، مانند افراد یا نام مکان‌ها، بازنمایی‌های متفاوتی در یک ریشه مشخص دارند که شناسائی همه مترادف‌های موجود درون مدارک ضروری است.

۵- مطالعه موردی

به عنوان مطالعه موردی، از مجموعه‌ای حدوداً ۲۰۰ سندی که مربوط به تاریخچه ترانسیلوانیا است و از دوره قرون وسطی شروع شده، استفاده گردید که این مجموعه توسط بایگانی ملی شهرستان کلوژ عرضه شده است. اسناد بدست آمده‌ لاتین، مجارستانی، آلمانی و رومانیایی هستند. هر مدرکی با خلاصه مدرکی که همراه با واقعه‌ای مشخص در رومانی است، مرتبط است. این خلاصه که در این نظام به عنوان اسناد و مدارک خام مورد استفاده قرار گرفته، منبع اصلی اطلاعات است. برای مثال چنین خلاصه سندی را که در سرتاسر این بخش برای آشنائی بیشتر مورد استفاده قرار گرفته و در قسمت توضیحات خلاصه مطلب[۳۳]شکل ۲ ارائه شده است، ببینید.

به منظور تخصصی کردن کسب یک نوع دانش، در شکل ۶، نمودار گردش کاری‌ای برای حوزه تاریخی ارائه شده است، از مجموعه‌ای برای:

 ۱- هسته حوزه تاریخی هستی‌شناسی(نگاه کنید به شکل ۴)

۲- مجموعه‌ای از قوانین مطابق با الگوی خاص برای تفسیر عناصر واژگانی (لغوی) و

 ۳- مجموعه‌ای از قوانین کسب دانش ترسیم‌شده از مفاهیم هستی‌شناسی برای تفسیر عناصر واژگانی استفاده کردیم.

مطالعه موردی تفسیر واژگانی (لغوی)

از دستور زبان جیپ[۳۴] به منظور ایجاد مجموعه‌ای از قوانین که مطابق با الگوی خاصی است، برای تفسیر عناصر واژگانی استفاده شده است. هنگامی که الگوهای خاصی به صورت مرحله‌ای با یکدیگر منطبق می‌شوند، دستور زبان جیپ قواعدی را دسته‌بندی می‌کند که این نوع فعالیت‌ها را مشخص می‌نماید. قوانین جیپ[۳۵]را می‌توانید در شکل ۸ ببینید.

8

شکل ۸- نمونه‌ای از قانون جیپ

9

شکل ۹- نمونه ای از یک فایل تفسیر واژگانی ایکس ام ال

قانون برای نمونه رابطه والدین و فرزند را به وسیله جستجوی الگوی ساختار زبانی خاص جستجو می‌کند. قانون ارائه شده (CPC)، الگوهای عبارتی را پیدا می‌کند که عناوین را به اشخاص به منظور تفسیر عناصر واژگانی P و T به عنوان موجودیت پیچیده (ساختار لغوی متشکل از نام و عنوان) مرتبط می‌کند.

برای شناسائی اسامی خاص در مدارک اولیه از یک لیست کلمات رومانیائی استفاده شده و فرهنگ جغرافیایی گزتر را با لیست اضافی که شامل اطلاعات خاص و ویژه‌ای از دوره‌های تاریخی مانند حوادث (وقایع)، روابط خانوادگی، عناوین، دارائی و … است توسعه و گسترش داده شده است. برای بدست آوردن مطالب و موارد لغوی واژه‌ای از یک (API GATE) استفاده شده تا اطلاعات را از نظام استخراج کند. پروسه تفسیر اجزای کلمات از میان لیست فرهنگ جغرافیایی گزتر با گذر از دستور زبان جیپ برای استخراج و سازماندهی اطلاعات وابسته، طی می‌شود. برای مدرک اولیه در شکل ۲، نتایج تفسیر اجزای کلمات در شکل ۹ نشان داده شده است.

این شامل یک ساختار سلسله مراتبی از تفسیر عناصر واژگانی است که به لحاظ معنایی با استفاده از مجموعه‌ای از قواعد نگاشت اکتساب از دانش تفسیر شده است. (برای مثال به شکل ۱۰ نگاه کنید)

مطالعه موردی تفسیر معنایی

هدف این فرایند ارتباط مفاهیم هستی‌شناسی به موجودیت‌های واژگانی در فایل‌های اسناد تفسیر واژگانی ایکس ام ال[۳۶] و پر کردن هستی‌شناسی با موجودیت‌های لغوی است. قاعده کسب دانش ترسیم شده با قواعد مشخص تصریح می‌کند: ۱- چگونگی ترسیم شدن مفاهیم هستی‌شناسی با عناصر لغوی و ۲- مجموعه‌ای از عملکردها که نیاز به انجام هستی‌شناسی به‌منظور ذخیره عناصر هستی‌شناسی جدید هست. (به عنوان مثال جمعیت و تعریف جدیدی از ویژگی‌ها و روابط)

در شکل شماره ۱۰ قاعده ترسیم شده، نشان دهنده این است که چگونه برچسب لغوی (PC یا گروه) شامل برچسب (شخص و عنوان پیچیده) بر اصل و اساس کودک است، تفسیر معنایی با عنوان پیچیده مفاهیم هستی‌شناسی است.

قاعده ترسیم‌شده نیز اقداماتی را که ۱- افزودن عنصر شناسائی لغوی به عنوان شخص یا به عنوان مثال شخص در هستی‌شناسی و ۲- مشخص کردن ارتباط بین کشورهای مشابه بین نمونه‌های افزوده شده از اشخاص و نمونه‌هایی از کشورها برای اسناد خام در حال پردازش، روند استخراج دانش و همچنین تولید آر دی اف (به شکل ۱۱ نگاه کنید) شامل عبارات آر دی اف گرفته شده از تفسیر معنایی اسناد است، مشخص می‌کند.

10

شکل ۱۰- نمونهای از قاعده کسب نقشه دانش

11

شکل ۱۱- نمونهای از فایل RDF

مطالعه موردی جمعیت هستی‌شناسی

پس از پردازش چندین سند در نمودار گردش کسب دانش، حوزه هستی‌شناسی با نمونه‌ها و ویژگی‌های جدید جمع آوری می‌شود. (شکل ۱۲ را ببینید)

12

شکل ۱۲- نتایج جمع‌آوری شده هستی‌شناسی

13

شکل۱۳- الف

14 

شکل۱۳- ب

شکل ۱۳- الف مثالی از راهنمائی جستجوی زبان طبیعی هستی‌شناسی نتایج حاصل از جستجوی مورد الف

اسناد مربوطه و اطلاعات بدست آمده بعد از اجرای جستجوی مصور در شکل ۱۳ الف و ۱۳ ب نمایش داده شده است.

۶- نتیجه گیری و کار آینده:

مقاله حاضر طرحی کلی و عمومی از حوزه آرشیو ارائه نموده و راه حلی فنی‌ جهت ایجاد و تقویت محتوای الکترونیکی آرشیو به شیوه‌ای بهتر پیشنهاد می‌نماید. این راه حل سه مسیر اصلی را دنبال می‌کند: ۱- فراگیری علم ۲- هستی‌شناسی زبان هستی‌شناسی وب برای ترسیم پایگاه داده‌ای سلسله مراتبی و ۳- پردازش و بازیابی دانش. برای اینکه از نظر معناشناسی محتوای اسناد را تفسیر نموده و حوزه هستی‌شناسی را وسعت دهد، روش‌شناسی هستی‌شناسی با ایجاد قوانین ترسیم فراگیری علم اتخاذ شده است. در موضوع هستی‌شناسی مترادف‌ها و مشابه‌ها نیز در نظر گرفته شده‌اند. حاصل هستی‌شناسی زبان هستی‌شناسی وب برای یک الگوی پایگاه داده‌ای سلسله مراتبی طراحی شده است تا به دانش مفید و موثر، اجازه پردازش و بازیابی دهد. تکنیک‌های استدلال به‌کار رفته در پردازش و بازیابی دانش، امکان تحقیقات زبانی طبیعی در زمینه هستی‌شناسی را قادر می‌سازد تا با هدف تشخیص اسناد و دانش مربوط به آن‌ها فعالیت نماید.

این نظام بر روی مجموعه نوشته‌هایی از ۲۰۰ خلاصه اسناد آرشیوی آزمایش، و نتایج امیدبخشی بدست آمده است. جهت تخصیص برنامه فراگیری علم در حوزه آرشیو، مجموعه ای از ۳۷ قانون جیپ توسعه داده شده و با قوانین ترسیم فراگیری علم به اشتراک گذاشته‌ شده است.

در آینده قصد داریم تا راه‌حل خود را برای اسناد تاریخی مکتوب در زبان مجارستانی، لاتین و آلمانی به کار برده و شفافیت چندزبانی را، هم در پردازش و هم در نظام پرسش و پاسخ اسناد بهبود بخشیم.

سپاسگزاری: این اثر توسط پروژه آرهی‌نت حمایت و به وسیله وزارت آموزش و پژوهش رومانی تاسیس شده است.

References

۱. Amardeilh, F.: Web SémantiqueetInformatiqueLinguistique: Propositions Méthodolo

giques et réalisationd’uneplateformelogicielle. These de Doctorat, Universite Paris XNanterrere

(۲۰۰۷)

۲. Amardeilh, F.: Ontopop or how to annotate documents and populate ontologies from texts.

In: Proceedings of the ESWC 2006 Workshop on Mastering the Gap: From Information

Extraction to Semantic Representation, Budva, Montenegro, June 12. CEUR Workshop

Proceedings (2006), ISSN 1613-0073

۳. Buitelaar, P., Cimiano, P., Racioppa, S., Siegel, M.: Ontology-based Information Extraction

With SOBA. In: Proceedings of the International Conference on Language Resources

and Evaluation, pp. 2321–۲۳۲۴ (۲۰۰۶)

۴. Laclavik, M., Ciglan, M., Seleng, M., Krajei, S.: Ontea: Semi-automatic Pattern based

Text Annotation empowered with Information Retrieval Methods. In: Tools for acquisition,

organisation and presenting of information and knowledge: Proceedings in Informatics

and Information Technologies, Kosice, Vydavatelstvo STU, Bratislava, part 2, pp. 119–

۱۲۹ (۲۰۰۷), ISBN 978-80-227-2716-7

۵. Schäfer, U.: Integrating Deep and Shallow Natural Language Processing Components –

Representations and Hybrid Architectures, Saarbrücken Dissertations in Computational

Linguistics and Language Te, DFKI GmbH and Computational Linguistics Department,

Saarland University, Saarbrücken, Germany (2007)

۶. Tablan, V., Maynard, D., Bontcheva, K., Cunningham, H.: Gate – An Application Developer’s

Guide (2004), http://gate.ac.uk/

۷. del Mar Roldán-García, M., Aldana-Montes, J.F.: A Tool for Storing OWL Using Database

Technology. In: Proceedings of the OWLED 2005 Workshop on OWL: Experiences

and Di-rections, Galway, Ireland, CEURWS.org (2005)

۸. Vysniauskas, E., Nemuraite, L.: Transforming Ontology representation from OWL to relational

Database. ISSN 1392 – 124x Information Technology and Control 35(3A), 333–۳۴۳

(۲۰۰۶)

۹. Zhuge, H., Xing, Y., Shi, P.: Resource Space Model, OWL and Database: Mapping and Integration.

ACM Transactions on Internet Technology 8(4), Article 20 (2008)

۱۰. Trissl, S., Leser, U.: Querying ontologies in relational database systems. In: Ludäscher, B.,

Raschid, L. (eds.) DILS 2005. LNCS (LNBI), vol. 3615, pp. 63–۷۹. Springer, Heidelberg

(۲۰۰۵)

۱۱. Kalyanpur, A., Pastor, D.J., Battle, S., Padget, J.: Automatic Mapping of OWL Ontologies

into JAVA. In: Proceedings of the Sixteenth International Conference on Engineering &

Knowledge Engineering (SEKE 2004), Banff, Alberta, Canada (2004)

۱۲. Bernstein, A., Kaufmann, E., Kaiser, C., Kiefer, C.: Ginseng: A Guided Input Natural

Language Search Engine for Querying Ontologies. In: 2006 Jena User Conference, Bristol,

U.K. (2006),

http://www.ifi.uzh.ch/ddis/staff/goehring/btw/files/

Bernstein_JenaConf_2006.pdf

۱۳. Bernstein, A., Kaufmann, E.: GINO – A Guided Input natural language Ontology Editor. In:

Cruz, I., Decker, S., Allemang, D., Preist, C., Schwabe, D., Mika, P., Uschold, M., Aroyo,

L.M. (eds.) ISWC 2006. LNCS, vol. 4273, pp. 144–۱۵۷. Springer, Heidelberg (2006)

۱۴. Lopez, V., Motta, E., Sabou, M., Fernandez, M.: Question Answering on the Real Semantic

Web. In: 6th International and 2nd Asian Semantic Web Conference (ISWC

۲۰۰۷+ASWC 2007) (2007)

۱۵. The “ArhiNet”Research Project, http://dsrl.coned.utcluj.ro/

۱۶. Cluj County National Archives (CCNA),http://www.clujnapoca.ro/arhivelenationale/

مقاله حاضر ترجمه ای است از:

IoanSalomie, MihaelaDinsoreanu, Cristina Pop, and SorinSuciu (2010).“Arhinet”– A Knowledge-Based System for Creating, Processing and Retrieving Archival eContent.J. Cordeiro and J. Filipe (Eds.): WEBIST 2009, LNBIP 45, pp. 99–۱۱۲, ۲۰۱۰.


[۱]Arhinet

[۲] J. Cordeiro and J. Filipe (Eds.): WEBIST 2009, LNBIP 45, pp. 99–۱۱۲, ۲۰۱۰.

[۳]IoanSalomie, MihaelaDinsoreanu, Cristina Pop, and SorinSuciu

 

[۴] – شهری واقع در شمال غرب کشور رومانی

[۵]OntoPop

[۶]SOBA

[۷]Ontea

[۸] Ontology Web Language(OWL)

[۹] RDF

[۱۰] Heart-of-Gold

[۱۱] XML

[۱۲] Ginseng

[۱۳] Gino

[۱۴] PowerAqua

[۱۵]Original archival document (Odoc)

[۱۶]  Digital Copy Of Original Document (Ddoc)

[۱۷] Technical data (PtDoc)

[۱۸]Content Summary (PsDoc)

[۱۹]Palostelek

[۲۰]Moise

[۲۱]Content Summary (PsDoc)

[۲۲] Content summary(PsDoc)

[۲۳] Technical Data (PtDoc)

[۲۴] Ontology Web Language(OWL)

[۲۵]Hierarchical data model(HDM)

[۲۶]Primary DataBase(PDB)

[۲۷] Knowledge Server (KS)

[۲۸] Optical Character Recognition(OCR)

[۲۹] Ontology Web Language(OWL)

[۳۰]Hierarchical data model(HDM)

[۳۱] Ontology Web Language(OWL)

[۳۲] Hierarchical data model(HDM)

[۳۳]PsDoc

[۳۴]JAPE Grammer

[۳۵]JAPE Rules

[۳۶] Lexical Annotation Document XML

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *