نویسندگان:
یوآن سالومی، میهایلا دینسورینو، کریستینا پاپ و سورین سوچیو[۳]
ترجمه:
مهدیه چیت ساز
احمد عابدی
چکیده
این مقاله مشکل ایجاد، پردازش و پرسوجوی محتوای الکترونیکیِ غنی شده از لحاظ معنایی را، از کتابخانهها و آرشیوهای دیجیتالی نشان میدهد. همچنین تجزیه و تحلیلی از حوزه آرشیوی، حاصل از ایجاد یک الگوی حوزهای آرشیوی و هسته هستیشناسی حوزهای را ارائه میدهد. این سیستم، نشانهگذاری معنایی را به محتوای اسناد تاریخی اضافه میکند؛ در نتیجه بازیابی اسناد و دانش را به عنوان پاسخی به درخواست مبتنی بر هستیشناسی به زبان طبیعی، قادر میسازد. عملکرد نظام دو جریان کاری اصلی را دنبال میکند: ۱) تولید محتوای الکترونیکی غنی شده از لحاظ معنایی و فراهمآوری دانش ۲) پردازش و بازیابی دانش. در جریان کاری اول، اطلاعات حوزهای مرتبط با اسناد مبتنی بر زبان طبیعی استخراج میشود و به وسیلهی تفسیر معنایی و دامنهی جمعیت حوزهای دنبال میشود. در جریان دوم، درخواستهای زبان طبیعی هدایت شدهی هستیشناسی، فرایندهای استدلالی را ایجاد میکنند که نتایج جستجوهای مرتبط را فراهم میسازد. این مقاله همچنین پیرامون دگرگونی هستیشناسی حوزهای پیادهسازی شده بر مبنای “زبان هستیشناسی وب” به الگوی دادهای سلسله مراتبی بحث میکند. در نتیجه پشتیبانی از پردازش هستیشناسی کارآمد را فراهم میکند.
۱- مقدمه
آرشیوها منابع مهمی از دانش تاریخی را نشان میدهند. اسناد موجود در آرشیوها به عنوان بخشی از میراث ملی، منابع با ارزشی هستند. بنابراین باید از زوال آنها جلوگیری کرد. امکان دسترسی به اسناد در قالب اصلی آنها اولاً به علت سیار بودن و یا به دلایل امنیتی و خطرناک، و دوماً به علت قرار گرفتن اسناد در معرض عواملی که ممکن است موجودیت آنها را تغییر دهد، هزینهبر است. استفاده از نسخههای دیجیتالی اصلی راه حلی است که هزینههای مربوط به مطالعهی اسناد را کاهش میدهد، در حالی که قالب اصلی آنها را حفظ میکند. هنگام سازماندهی در آرشیوها اسناد به توصیفات، پیوند داده شدهاند. هنگامی که قالب فراداده سازگار میشود، محتوای آنها و محتوای اسناد ناهمگن هستند. از جمله عواملی که به عدم تجانس کمک میکند، سه عامل هستند که به طور مستقیم بر مطالعه سند موثرند. اولین و مهمترین عامل گوناگونی زبانهاست که در محتوا و فرادادهی آنها نوشته میشود. عامل دوم دورهی تاریخی است که هم از سند و هم توصیف و شرح آن ناشی شده است زیرا سبک نوشتن در طول زمان تغییر میکند. تزئیناتی که اسناد را آراسته میکنند عامل سوم را تشکیل میدهند. محققان نیز با مشکلِ زیادی اسنادِ موجود روبرو هستند؛ بنابراین این مورد، مرور از طریق همهی اسناد موجود جهت یافتن اطلاعات مورد نیاز را سخت میکند. اگرچه نظام مدیریت محتوا برای سالها قادر به مبادله با دادههای توزیع شدهی موجود است، قادر ساختن آنها به پردازش اسناد زبان طبیعی هنوز هم یک چالش است. برای نشان دادن این مسائل، پروژه تحقیقاتی آرهینت راه حلی جهت پردازش و جستجوی اطلاعات مرتبط از یک مخزن بزرگ اسناد ناهمگن با توجه به تاریخچه ترانسیلوانیا ارائه میدهد. مخزن اسناد به وسیلهی پردازش اسناد آرشیوی از آرشیوهای ملی شهر کلوژ[۴] ایجاد میشود. نظام “آرهی نت” یک پایگاه دانش به وسیلهی پردازش اسناد و تفسیر آنها با مفاهیم و روابطی از دامنهی هستیشناسی “آرهی نت” ایجاد میکند. به این ترتیب یک لایه از ماشین پردازشگر معنایی بر روی محتوای اسناد خام موجود در آرشیوها با استفاده از کسب دانش نیمه خودکار اضافه میشود. پایگاه دانش بدست آمده همراه با تفسیر سند برای حل پرسوجوهای زبان طبیعی هدایت شدهی هستیشناسی ارائه شده توسط انسانها یا عوامل نرمافزاری استفاده میشود. نتایج جستجوی مربوطه نشاندهندهی اسناد اطلاعات و دانش مرتبط با معناشناسی پرسشها است. مورخان و آرشیویستها میتوانند برای سهولت مطالعهی اسنادِ بخشی از کار خود، از نظام استفاده کنند. ادامه مقاله به شرح زیر سازماندهی شده است. در بخش دو آثار مرتبط را معرفی و در قسمت سوم تجزیه و تحلیل ما از دامنهی آرشیوی، شرح مجموعهی سند و جزئیات مدل دامنهی آرشیوی ما و هستیشناسی دامنهی هسته را ارائه میکند. معماری سیستم پیشنهادی و جریان کار مرتبط در بخش چهارم توضیح داده میشود. بخش ششم یک مطالعه موردی را که نشاندهندهی قابلیتهای نظام در زمینهی آرشیوهای تاریخی است، شامل میشود. مقاله با نتیجهگیری و پیشنهاد کار در آینده به پایان میرسد.
۲- اثر مرتبط
با توجه به کسب دانش از میان مرتبطترین روشها، ما به آنتوپاپ[۵]، اِس او بی اِی[۶] و آنتی[۷] اشاره میکنیم. آنتوپاپ یک راه حل تک مرحلهای برای: ۱) تفسیر معنایی محتوای اسناد و۲) فراهم ساختن و ساکن کردن هستیشناسی با نمونههای جدید موجود در اسناد است. این راه حل، از دامنه قوانین کسب دانش خاص استفاده میکند که به نتایج حاصل از ابزارهای استخراج اطلاعات به عناصر هستیشناسی پیوند داده میشود، در نتیجه یک نمود رسمیتر زبان هستیشناسی وب (او، دبلیو، اِل)[۸] یا (آر دی اف)[۹] از محتوای سند ایجاد میشود. اِس او بی اِی نظامی است که برای ایجاد یک پایگاه دانش خاص از منابع ناهمگن طراحی شده است. اِس او بی اِی امکانات زیر را ارائه میدهد:
۱) بازیابی سند به صورت خودکار از وب.
۲) تفسیر زبان شناختی و استخراج اطلاعات با استفاده از روش قلبی از طلا[۱۰].
۳) نقشه نمایی از بخشهایی از عناصر هستیشناسیِ سند مشروح.
روش آنتی نیز، تفسیری نیمهخودکار است که استفاده از عبارات منظم همراه را با شرح و تفسیر و مکانیسمهای نمایهسازی انجام میدهد. روششناسی با محتوای اسلواکی و انگلیسی آزمایش و اجرا شد. در ادبیات، مدلهای پیشنهادی برای مدیریت هستیشناسی بزرگ عبارتند از: مدلهای مبتنی بر زبان نشانهگذاری گسترشپذیر(ایکس ام ال[۱۱])، مدلهای پایگاه داده رابطهای، مدلهای مبتنی بر گراف و مدلهای در حافظه. برای جستجو و استدلال، جنسینگ[۱۲]، جنیو[۱۳] و پاور آکووا[۱۴] راه حلهایی برای هستیشناسی زبان طبیعی ارائه میکنندکه جستجوهای کاربر را هدایت میکند. در این روش، اصول آنتوپاپ در جریان کار کسب دانش به تصویب رسیده است. علاوه بر این پردازش مترادف و هم آوا نیز مورد بررسی واقع شده است. رویکرد این روش شامل سه قسمت میشود: ۱) اطلاعات را از متن بدون ساختار استخراج میکند. ۲) دامنه خاصی را در سند مورد تفسیر قرار میدهد و ۳) از استدلال برای پی بردن به خواص مواردی که اخیرا افزوده شده است استفاده میکند.
این نظام برای پردازش اسناد بصورت چند زبانه طراحی شده است. از جمله این زبان ها، زبان لاتین است که تا کنون برای مجموعه ای از اسناد رومانیایی که با استفاده از منابع خاص زبان رومانیایی ارائه شده، نتایج خوبی بدست آورده است. علاوه بر این، نظام آرهینت به عنوان رابط، پرسوجوی هدایت شدهی هستیشناسی زبان طبیعی را فراهم میکند و مدل داده سلسله مراتبی را برای ذخیرهسازی موثر، پردازش و استدلال در هستیشناسی معرفی میکند.
۳- دامنه آرشیوی – مجموعه، مدل و هستیشناسی دامنه
در این بخش تجزیه و تحلیلی از دامنه آرشیوی بر اساس مجموعهای از اسناد فراهم شده که توسط مورخانی از آرشیوهای ملی شهر کلوژ ارائه شده است.
۱-۳- مجموعه اسناد آرشیوی
این مجموعه با مجموعه ای از اسناد آرشیویِ اصلیِ قبل از پردازش (به نام اسناد اصلی آرشیوی) ایجاد شده است که از حقایق تاریخی که در قرون وسطای ترانسیلوانیا اتفاق افتاده، گرفته شده است. تکامل تاریخیِ ترانسیلوانیا منبع اصلی ناهمگنی اسناد اصلی آرشیوی، در آرشیوها است. برخی از عوامل خاصی که منجر به ناهمگنی هستند عبارتند از:
۱- زبان اسناد (لاتین، مجارستانی، آلمانی و رومانیایی)
۲- نهادی که سند را صادر کرده (انواع مختلف مقامات سلطنتی، محلی و مذهبی)
۳- چه اسنادی که چاپ میشوند و چه اسنادی که بصورت دست نوشته هستند.
۴- تزئینات نوشتن که اسناد را آراسته میکنند.
این ویژگیها منجر به مشکلات بزرگی در پردازش خودکار اسناد برای استخراج اطلاعات شد. بنابراین تصمیم گرفته شدکه ایجاد و ارائه خلاصه اسناد توسط آرشیویستها را به عنوان ورودیای برای نظام خود استفاده کنند.
اسناد اصلی آرشیوی[۱۵]دیجیتالی میشوند، بنابراین اسناد دیجیتالی، رونوشتی از سند اصلی[۱۶] ایجاد میکند. هر سندِ دیجیتالیِ رونوشت از سند اصلی، توسط آرشیویستها به عنوان بخشی از کار حرفهای آنها بصورت دستی پردازش میشود. نتیجه این پردازش، سند پردازش شدهای است که توسط مورخان برای پردازش آماده و تولید میشود. هر یک از اسناد مذکور شامل دادهی فنی[۱۷]و خلاصهای از سند اصلی است. (به شکل یک نگاه کنید). دادهیِ فنیِ موجود ممکن است به تاریخ صدور، صندوق بایگانی، تعداد فهرست یا فرادادههای دیگر ارجاع داده شود. در این مطالعه موردی، محتوای سند در واقع نشاندهندهی خلاصهای از سند اصلی مرتبط است که در زبان طبیعی یک روش بدون ساختار را بیان میکند. شکل ۱ مراحل قبل از پردازش را نشان میدهد که داده فنی و خلاصه مطلب[۱۸] با شروع از یک سند اصلی آرشیو ایجاد میشوند. برای سند پردازش شده توسط مورخان از شکل ۲، بخش دادهی فنی شامل اطلاعات فنی زیر است:
منبع سند اصلی آرشیوی، ۲۵ مارس ۱۳۲۰ میلادی صادر شده است. محل صدور آن ناشناخته است. این سند نسخهای از سند اصلی آرشیوی است که در قرن ۱۷ میلادی بر روی کاغذی در مجارستان نوشته شده است. این سند اصلی بخشی از صندوقچه خانوادگی کمنی (kemeny) است. این ۱۹۶ اُمین سند از دفتر دوم این صندوق است. مخفف سند اصلی آرشیوی منتشر شدهی “دی.آی.آر” است که مشخصات آن بدین شرح است: قرن ۱۳، جلد اول، صفحات ۴۲۶ و ۴۲۷.
شکل ۱. مراحل پیش از پردازش اسناد تاریخی
شکل۲. مثالی از سندپردازش شده توسط مورخان
(با توجه به شکل شماره دو مثالی از سند پردازش شده توسط مورخان آورده شده است) در زبان انگلیسی، در بخش چکیده کاربرگه میخوانیم: «کارول رابرت، پادشاه مجارستان به میهائیل و نیکلای- که پسران آلبرت از منطقه جاک بودند- مناطق پالوستلک[۱۹] و جنگل ایمباز(Ombuz) در کشور داباکا را هدیه میدهد تا برای خدمات نظامی وفادارانه خود همراهِ بازپرس استفان، به نبرد مویس[۲۰] که علیه پادشاهی شورشی را انجام داده است، بروند.
۲-۳-مدل دامنه آرشیوی
این مقاله یک نمایش عمومی از دامنه آرشیوی پیشنهاد میدهد که در شکل ۳ توضیح داده شده است.
دامنه آرشیوی مدلی است که از اسناد اولیه قرون وسطی شروع میشود که توسط آرشیو ملی شهر کلوژ تهیه شده و در بخش قبلی ارائه شده است.
این اسناد به صورت دست نوشته هستند و شامل تزئینات زیادی میباشند که آنها را برای پردازش به طور خودکار دشوار میکند. با توجه به این مشکل، ما در مطالعه موردی خود از خلاصه اسنادی استفاده کردهایم که توسط آرشیویستها تولید شدهاند. (برای مثال به شکل ۲ نگاه کنید)
در این مدل، عنصرِ مرکزی سند است. اسناد به دامنهی خاصی از قبیل دامنه تاریخی یا دامنه پزشکی تعلق دارند. در این تحقیق از دامنه آرشیوی تاریخی استفاده کردهایم. به طور رسمی به عنوان دانش دامنه، که با استفاده از هستیشناسی دامنه (مفاهیم و روابط) و قوانین نشان داده شده است.
شکل۳. مدل دامنه آرشیوی
شکل۴. هسته دامنه هستیشناسی
اسناد را میتوان از چندین منبع داده، مانند پایگاههای دادههای اضافی، وب سایتها یا نسخههای خطی دیجیتالی بدست آورد. اسناد متعددی ممکن است به یکدیگر مربوط شوند. با مراجعه به اطلاعاتی دربارهی موضوعات مشابه حتی اگر آنها شامل همان نمونههای واژگانی نباشند (برای نمونه نامها، وقایع و غیره) هنگام جستجو در اسناد آرشیوی شناسایی تمام اسنادی که به یک موضوع خاص مرتبط هستند، اهمیت دارد. برای فعال کردن بازیابی اطلاعات از همه اسناد مرتبط، دامنه دانش برای اضافه کردن یک سطح نشانهگذاری معنایی به محتوای اسناد استفاده میشود. دامنه هسته دانش (قوانین و هستیشناسی دامنه) با پردازش و تجزیه و تحلیل مخزن بزرگی از اسناد آرشیوی، با تمرکز بر شناسایی مفاهیم و روابط رایج آنها گرفته میشود. در مرحله بعد براساس تکنیکهای استخراج اطلاعات به کار رفته در خلاصه مدرک[۲۱]، دامنه دانش غنی میشود.
۳-۳- هسته هستیشناسی حوزهای
هستیشناسیها دانش را ضبط و سازماندهی میکنند و پشتیبانی را نیز برای استدلال پیشنهاد میدهند. این نظام از دامنه هستیشناسی در پردازشهای کسب دانش، تفسیر سند و پرسوجوی معنایی استفاده میکند. توسعه دامنه هستیشناسی در دو مرحله انجام میشود. در طول مرحله اول یک فرایند تکراری دستی برای تجزیه و تحلیل دامنه و ایجاد هستهی دامنهی هستیشناسی انجام میشود. مرحله دوم به صورت خودکار است و توسط سیستم انجام میشود که آن اسناد را پردازش میکند و استدلال در هستیشناسی را انجام میدهد. این قسمت فرآیند توسعهی هسته را در حالی ارائه میکند که در مرحله دوم بخش ۴ این مقاله بطور کامل شرح داده میشود. برای طراحی هستهی هستیشناسی، تاریخ ترانسیلوانیا در قرون وسطی مورد مطالعه قرار داده شد و مجموعهای عظیم از اسناد توسط مورخان و کارشناسان اسناد، مورد تجزیه و تحلیل قرار گرفت. همچنین تمایلات مورخان برای یافتن اینکه چه چیزهائی از سیستم نیز در نظر گرفته شد همانند صاحبان یک قلمرو خاص. به این ترتیب مفاهیم و روابط مربوطه که در زیر توضیح داده میشود، شناسائی شده است.
شکل۵. معماری آرهی نت
اماکن، اشخاص، تاریخها و رویدادها مرتبطترین عناصری هستند که در این اسناد ظاهر میشوند. اسامی مربوط به این اشخاص، عدم قطعیت به استدلال درباره مترادفها و هم آواهای ممکن را اضافه میکند. انواع قلمرو تحت مفهومِ تقسیم ارضی گروهبندی شده است. ارجاع به اشخاص میتواند به عنوان یک یا بیش از یک نام همراه با یک عنوان و احتمالاً نام تقسیم ارضی ظاهر شود. (مانند کارول رابرت، پادشاه مجارستان) مقامات نقش مهمی را ایفا میکنند زیرا آنها تنها اشخاص قادر به صدور اسناد و مدارک رسمی بودند. یکی از خصوصیات یک قدرت این است که میتواند در هر دو بخش خلاصه مدرک[۲۲] و داده های فنی[۲۳] از سند ظاهر شود. رویداد همچنین مفهوم مهمی است که در خلاصه مدرک اغلب به شکایات، کمکهای مالی، اشتغال و به رسمیت شناختن اموال مرتبط است. بسته به شیوهای که اسناد بیان میشوند ممکن است برای شناسایی عناصر مختلف به یک رویداد متصل شد. گروههای درگیر دلایلی هستند که رخداد یا تاریخ آن را باعث شده است. این عناصر به عنوان خواص مفهوم رویداد نشان داده میشوند. بعد از چندین بار تکرار و تجدید نظر، نسخه نهایی هسته هستیشناسی خود را درباره قرون وسطی ترانسیلوانیا، تصویر شده در شکل ۴ بدست آوردیم. همچنین از نظام حفاظتی برای توسعهی هستیشناسی استفاده شده است.
۴- نظام آرهی نت
این بخش، معماری لایهایِ نظامِ آرهی نت و همچنین سه جریان کاری اصلی مرتبط با لایههای مفهومی آن را ارائه میدهد.
۱-۴- معماری نظام
این نظام در چهار لایهی پردازشِ تعاملی ساخته شده است:
۱) لایهی نمایشی و کسب دادهی خام
۲) لایهی کسب دانش
۳) لایهی هستیشناسی زبان هستیشناسی وب[۲۴]به طراحی مدل داده سلسله مراتبی[۲۵]
۴) لایهی پردازش و بازیابی دانش
لایهها، منابع و فرآیندهای مرتبط با آنها در شکل ۵ نشان داده شدهاند. پایگاه دادهی اولیه[۲۶]برای تداوم سند خام استفاده میشود، در حالیکه سرور دانش[۲۷] برای یادگیری و استدلال وظایف استفاده میشود. لایهی نمایشی و کسب دانش اولیه، پشتیبانی برای جمعآوری و ذخیرهسازی داده در پایگاه دادهی اولیه را از منابع مختلف با استفاده از ابزار تکنیکهای تشخیص کاراکتر نوری[۲۸] در اسناد خام، وارد کردن اطلاعات از پایگاههای خارجی یا با استفاده از رابط کاربری یک پارچه نظام فراهم میکند.
لایهی کسب دانش از الگوی تطبیق برای استخراج دادههای مربوطه از اسناد خام استفاده میکند. بر اساس دامنه هستیشناسی و در مجموعهای از قوانین نگاشت کسب دانش، مدارک پس از آن به صورت معنایی شرح داده میشوند. مفاهیم و موارد جدید، شناسایی شده و به دامنه هستیشناسی به عنوان نتیجهای از این فرایند اضافه میشوند. در لایه هستیشناسی زبان هستیشناسی وب[۲۹] به نقشهبرداری مدل داده سلسله مراتبی[۳۰] ، هستیشناسی حاصل از لایه کسب دانش به مدل داده سلسله مراتبی طرحریزی میشود که استدلال موثر و فرایندهای بازیابی دانش را اجازه میدهد. لایهی پردازش و بازیابی دانش پرسوجوهای هدایت شده هستیشناسی زبان طبیعی را از اسناد مشروح و دانش نظام امکانپذیر میسازد.
۲-۴- کسب دانش
هدف لایهی کسب دانش، گسترش دامنه دانش به وسیله شناسایی، استخراج، شرح و تفسیر اطلاعات مربوط به حوزهای خاص از خلاصه اسناد آرشیوی است. کسب دانش با استفاده از تکنیکهای دادهکاوی (نشانهگذاری، تطبیق الگو و فرایندهای ساختار دادهها) در روش ارسال بر روی محتوای اسناد اعمال میشود. ما اصول آنتوپاپ را در طراحی جریان کسب دانش اتخاذ کردیم (نگاه کنید به شکل ۶). علاوه بر این نیز پردازش مترادفها و هم آواها مورد بررسی قرار گرفته است. خانواده مترادفها برای شناسایی و پردازش نمونههای هستیشناسی که دارای شکلهای مختلف واژگانی با همان معنی در اسناد مختلف هستند، نیاز میشود. برای مثال نام “Palostelek” در یک سند ارائه میشود و “Paulusteleky” در سندی دیگر شناخته شده است و بیشتر به عنوان مترادف پردازش میشود. شناسایی و بازنمایی همآواها با نمونههای واژگانی رایج برای موارد مختلف سروکار دارد (یعنی نام “میهای” “Mihai” ممکن است به نام همان شخص یا اشخاص مختلف در اسناد متفاوت اشاره کند.)
فعالیتهای اصلی جریان کار کسب دانش در زیر توضیح داده شده است.
– استخراج داده فنی: این فعالیت مسئول جداسازی داده فنی سند از محتوای آن است (به عنوان مثال به شکل ۲ نگاه کنید).
– تفسیر لغوی: هدف از این فعالیت شناسایی و تفسیر عناصر لغوی مرتبط در محتوا براساس قواعد تطبیق الگو است. قاعده تطبیق الگو (نگاه کنید شکل ۸) رابطه بین عناصر لغوی و عناصر تفسیری آنها را تعریف میکند. خروجی فعالیت تفسیر لغوی شامل دادههای لغوی (واژگانی) مشروح است که در قالب سلسله مراتبی از کلمات استخراج شده، همراه با عناصر تفسیری آنها بر طبق قانون تطبیق الگو، در شکل ۹ نشان داده شده است.
شکل۶. کانال کسب دانش
استخراج دانش
هدف استخراج دانش در حوزه هستیشناسی، تفسیر معنایی ساختار سلسله مراتبی عناصر واژگانی معنایی است که در فعالیت پیشین مورد استفاده قرار میگیرد. این فعالیت توسط مجموعه قوانین طراحی که تابع کسب اطلاعاتاند، حمایت شده است. هر قانون کسب دانش ترسیم شدهای: ۱-راههای پیوند عناصر واژگانی معنایی با مفاهیم هستیشناسی و ۲-مجموعه اقداماتی برای جمع کردن هستیشناسی با روابط و مثالها را شرح میدهد (برای مثال نگاه کنید به شکل ۱۰ که در قسمت مطالعه موردی است). نتیجه حاصل از استخراج دانش، ساختار آر. دی. اف ذخیره شده در یک فایل به همراه محتوای سند اصلی است. (به شکل ۱۱ نگاه کنید)
هستیشناسی جمعیتی
نتیجه اجرای قوانین کسب دانش ترسیم شده بر روی اسناد تفسیر واژگانی، جمعیت هستی شناسی همراه با نمونه ها و روابط شناخته شده است که طی فرایند استخراج اطلاعات اجرا می شود. در مثال زیر شرح داده شده است:
inst={inst.doc.td,inst.val,inst.prop,inst.attr} که ۱ inst.doc.tdاطلاعات فنی اسنادی را نمایش میدهد که در یک نمونه ظاهر میشود. ۲-inst.valدر نمونههای بازنمایی واژگان است. ۳-inst.propمجموعه ویژگیهایی که در مثالها دخیل و درگیر است و ۴-inst.attrمجموعهای از ویژگیهای مرتبط با یک نمونه است.
جمعیت هستیشناسی (به شکل ۱۲ نگاه کنید) همچنین با نمونههای مترادف و هم آوا نیز مترادف میباشد. به منظور اینکه دو نمونه مترادف، یا هم آوا هستند، ما نقش فاصلهای D را تعریف کردیم که به عنوان نتیجه (دلیل) کاندید شده انتخاب شد. (cinst)و (oinst) یک نمونه هستیشناسی که به ما اجازه میدهد چهار مورد ذیل را از هم تشخیص دهیم:
• Ifd(cinst,oinst)<θandcinst.val=oinst.valthencinstisidenticaltooinst
• Ifd(cinst,oinst)<θandcinst.val≠oinst.valthencinstisdifferentfromoinst
• Ifd(cinst,oinst)>θandcinst.val=oinst.valthencinstissynonymofoinst
• Ifd(cinst,oinst)>θandcinst.val≠oinst.valthencinstishomonymofoinst
همچنین از فرهنگ لغت برای اضافه نمودن هستیشناسی همه مترادفهای یک نمونه، استفاده شده است. به دلیل تعداد نمونهها، علاوه بر مدارک جدید، ساختار هستیشناسی نیز تغییر کرده و ممکن است ناهماهنگی ایجاد شود. این مورد به وسیله فعالیتهای مدیریت هستیشناسی اولیه به منظور: ۱- پیبردن به روابط و اسناد جدید به عنوان نتیجه اصلاح هستیشناسی به دلیل پردازش موارد قبلی و ۲- حفظ ثبات هستیشناسی بیان شده است.
۳-۴ هستیشناسی بهوسیلهی ترسیم دادههای سلسله مراتبی
بازنمود هستیشناسی مدل دادههای سلسله مراتبی، تسهیلگر ذخیره هستیشناسی کارا و عملکردهای استدلال و پرسوجوی هستیشناسی ثمربخش است. مدل دادهای سلسله مراتبی، یک بازنمود هستیشناسی عمومی است که از سلسله مراتبهایی – که میتواند در هدف کلی خود که ساختار مبتنی بر مدارک است-، باقی بماند. در حالیکه روابط هستیشناسی سلسله مراتبی با استفاده از درختها نشان داده میشود، عناصر هستیشناسیِ زبان هستیشناسی وب[۳۱] در مدل دادههای سلسله مراتبی[۳۲] – که از موجودیتهای دادههای رابطهای استفاده میکنند- بازنمود میشود. مدل مذکور، روابط سلسله مراتبی را – که در ساختار هستیشناسی در زبان هستیشناسی وب یافت میشود، مدیریت میکند. (به عنوان مثال، وراثت طبقهای). زبان هستیشناسی وب از طبقهها، اشخاص، ویژگیها و انواع دادهها به منظور بدست گرفتن دانش حوزه استفاده میکند. به واسطهی استفاده از روابط سلسله مراتبی، طبقهها میتوانند به طبقه فرعی تقسیم شوند، بنابراین خلق یک درخت از ساختار طبقهای بر اساس روابط فرزند- والدین شکل میگیرد. اشخاصی که به طبقههای مختلفی متعلقند، درختی از روابط اعضای طبقه تولید میکنند.
هستیشناسی زبان هستیشناسی وب در دادههای سلسله مراتبی ثابت است، و بهینهسازی جستجو برای عملکرد بهتر و استفاده از ابزار تحلیل داده را اجازه میدهد.
زبان هستیشناسی وب همراه با الگوریتم طراحی دادههای سلسله مراتبی به شکل زیر کار میکند: ۱-گذر از ورودیهای هستیشناسی زبان هستیشناسی وب و ایجاد درختواره که بیان کننده روابط سلسله مراتبی کنترل شده در هستیشناسی زبان هستیشناسی وب است. ۲- عبور از درختان در یک شیوه بالا- پایین، اضافه کردن هر مشکل مشاهده شده در بانک اطلاعات. دراین شیوه روابط والدین – فرزندی حفظ شده و فقط عملیات اضافی بر روی مدل دادههای سلسله مراتبی انجام میشود.
۴-۴ پردازش و بازیابی دانش
هدف پردازش و دانش و اصلاح سطوح فراهمآوری، حمایت از جستجوهای هوشمند است که جستجوی اطلاعات را با ارتباط بیشتر کنترل شده در اسناد آرشیوی توانمند میسازد. این نظام به کاربر هنگام ورود اطلاعات به زبان طبیعی، از طریق هدایت اطلاعات ورودی او، طبق ساختار سؤال تقویت شده با ماهیت هستیشناسی کمک میکند. پرسش کاربر یک فرآیند استدلال پیچیدهای را در هستیشناسی بازنمایی شدهی دادههای سلسله مراتبی آغاز میکند که شامل جستجوی مترادف، نتیجهگیری منطقی و جستجوی زیر گروهها و طبقههای فوقانی است. به عنوان نتیجه مجموعهای از اسناد مرتبط با پرسش شناسائی شده و دانش جدید مرتبط ممکن است تولید شود. شکل شماره ۷ سطح بالای پردازش اطلاعات و اصلاح سطوح را نشان میدهد که شامل دو مؤلفهی اصلی: تحلیلگر پرسش و پردازشگر پویش است.
تحلیلگر، اطلاعاتِ ورودیِ کاربر را تحلیل کرده، پیشنهاداتی را بر پایه ساختار پرسش و مؤلفههای هستیشناسی مطرح میکند. ساختار پرسش در فرم گستردهBackus-Naur Form (EBNF) (EBNF) بسط داده شده است. لغت جاری و لغت جدید برای کاربر، پیشنهاداتی را که توسط مدل ماشهای (رها کردن چیزی) طبقهبندی شدهاند، فراهم میکند. وقتی کاربر فرایندی را آغاز میکند، پرسش تحلیل شده و سپس سلسله مراتبی از کارهای خودکار موتور تحلیل ترجمه میشود.
شکل ۷- پردازش و بازیابی دانش
پردازشگر، پرسش را از موتورِ تحلیل برای حل ریز سؤالات، و کل نتایج پرسشها استفاده میکند. فعالیت موتورِ تحلیل در هستیشناسی- که در دادههای سلسله مراتبی و فناوریهای تحلیل در هستیشناسی و فناوریهای استخراج اطلاعات برای اهداف استدلال استفاده میکند- مورد تاکید است.
جستجوی مدارک در دو سطح اجرا میشود: در یک سطح بر روی اطلاعات فنی که مجموعه مدارک را محدود میکند، تکیه میشود. در حالی که در سطح دیگر تکیه بر معنایِ معناشناختیِ پرسشِ ورودیِ کاربر است. معمولاً در اسناد تاریخی چندین اصطلاح، مانند افراد یا نام مکانها، بازنماییهای متفاوتی در یک ریشه مشخص دارند که شناسائی همه مترادفهای موجود درون مدارک ضروری است.
۵- مطالعه موردی
به عنوان مطالعه موردی، از مجموعهای حدوداً ۲۰۰ سندی که مربوط به تاریخچه ترانسیلوانیا است و از دوره قرون وسطی شروع شده، استفاده گردید که این مجموعه توسط بایگانی ملی شهرستان کلوژ عرضه شده است. اسناد بدست آمده لاتین، مجارستانی، آلمانی و رومانیایی هستند. هر مدرکی با خلاصه مدرکی که همراه با واقعهای مشخص در رومانی است، مرتبط است. این خلاصه که در این نظام به عنوان اسناد و مدارک خام مورد استفاده قرار گرفته، منبع اصلی اطلاعات است. برای مثال چنین خلاصه سندی را که در سرتاسر این بخش برای آشنائی بیشتر مورد استفاده قرار گرفته و در قسمت توضیحات خلاصه مطلب[۳۳]شکل ۲ ارائه شده است، ببینید.
به منظور تخصصی کردن کسب یک نوع دانش، در شکل ۶، نمودار گردش کاریای برای حوزه تاریخی ارائه شده است، از مجموعهای برای:
۱- هسته حوزه تاریخی هستیشناسی(نگاه کنید به شکل ۴)
۲- مجموعهای از قوانین مطابق با الگوی خاص برای تفسیر عناصر واژگانی (لغوی) و
۳- مجموعهای از قوانین کسب دانش ترسیمشده از مفاهیم هستیشناسی برای تفسیر عناصر واژگانی استفاده کردیم.
مطالعه موردی – تفسیر واژگانی (لغوی)
از دستور زبان جیپ[۳۴] به منظور ایجاد مجموعهای از قوانین که مطابق با الگوی خاصی است، برای تفسیر عناصر واژگانی استفاده شده است. هنگامی که الگوهای خاصی به صورت مرحلهای با یکدیگر منطبق میشوند، دستور زبان جیپ قواعدی را دستهبندی میکند که این نوع فعالیتها را مشخص مینماید. قوانین جیپ[۳۵]را میتوانید در شکل ۸ ببینید.
شکل ۸- نمونهای از قانون جیپ
شکل ۹- نمونه ای از یک فایل تفسیر واژگانی ایکس ام ال
قانون برای نمونه رابطه والدین و فرزند را به وسیله جستجوی الگوی ساختار زبانی خاص جستجو میکند. قانون ارائه شده (CPC)، الگوهای عبارتی را پیدا میکند که عناوین را به اشخاص به منظور تفسیر عناصر واژگانی P و T به عنوان موجودیت پیچیده (ساختار لغوی متشکل از نام و عنوان) مرتبط میکند.
برای شناسائی اسامی خاص در مدارک اولیه از یک لیست کلمات رومانیائی استفاده شده و فرهنگ جغرافیایی گزتر را با لیست اضافی که شامل اطلاعات خاص و ویژهای از دورههای تاریخی مانند حوادث (وقایع)، روابط خانوادگی، عناوین، دارائی و … است توسعه و گسترش داده شده است. برای بدست آوردن مطالب و موارد لغوی واژهای از یک (API GATE) استفاده شده تا اطلاعات را از نظام استخراج کند. پروسه تفسیر اجزای کلمات از میان لیست فرهنگ جغرافیایی گزتر با گذر از دستور زبان جیپ برای استخراج و سازماندهی اطلاعات وابسته، طی میشود. برای مدرک اولیه در شکل ۲، نتایج تفسیر اجزای کلمات در شکل ۹ نشان داده شده است.
این شامل یک ساختار سلسله مراتبی از تفسیر عناصر واژگانی است که به لحاظ معنایی با استفاده از مجموعهای از قواعد نگاشت اکتساب از دانش تفسیر شده است. (برای مثال به شکل ۱۰ نگاه کنید)
مطالعه موردی – تفسیر معنایی
هدف این فرایند ارتباط مفاهیم هستیشناسی به موجودیتهای واژگانی در فایلهای اسناد تفسیر واژگانی ایکس ام ال[۳۶] و پر کردن هستیشناسی با موجودیتهای لغوی است. قاعده کسب دانش ترسیم شده با قواعد مشخص تصریح میکند: ۱- چگونگی ترسیم شدن مفاهیم هستیشناسی با عناصر لغوی و ۲- مجموعهای از عملکردها که نیاز به انجام هستیشناسی بهمنظور ذخیره عناصر هستیشناسی جدید هست. (به عنوان مثال جمعیت و تعریف جدیدی از ویژگیها و روابط)
در شکل شماره ۱۰ قاعده ترسیم شده، نشان دهنده این است که چگونه برچسب لغوی (PC یا گروه) شامل برچسب (شخص و عنوان پیچیده) بر اصل و اساس کودک است، تفسیر معنایی با عنوان پیچیده مفاهیم هستیشناسی است.
قاعده ترسیمشده نیز اقداماتی را که ۱- افزودن عنصر شناسائی لغوی به عنوان شخص یا به عنوان مثال شخص در هستیشناسی و ۲- مشخص کردن ارتباط بین کشورهای مشابه بین نمونههای افزوده شده از اشخاص و نمونههایی از کشورها برای اسناد خام در حال پردازش، روند استخراج دانش و همچنین تولید آر دی اف (به شکل ۱۱ نگاه کنید) شامل عبارات آر دی اف گرفته شده از تفسیر معنایی اسناد است، مشخص میکند.
شکل ۱۰- نمونهای از قاعده کسب نقشه دانش
شکل ۱۱- نمونهای از فایل RDF
مطالعه موردی –جمعیت هستیشناسی
پس از پردازش چندین سند در نمودار گردش کسب دانش، حوزه هستیشناسی با نمونهها و ویژگیهای جدید جمع آوری میشود. (شکل ۱۲ را ببینید)
شکل ۱۲- نتایج جمعآوری شده هستیشناسی
شکل۱۳- الف
شکل۱۳- ب
شکل ۱۳- الف مثالی از راهنمائی جستجوی زبان طبیعی هستیشناسی نتایج حاصل از جستجوی مورد الف
اسناد مربوطه و اطلاعات بدست آمده بعد از اجرای جستجوی مصور در شکل ۱۳ الف و ۱۳ ب نمایش داده شده است.
۶- نتیجه گیری و کار آینده:
مقاله حاضر طرحی کلی و عمومی از حوزه آرشیو ارائه نموده و راه حلی فنی جهت ایجاد و تقویت محتوای الکترونیکی آرشیو به شیوهای بهتر پیشنهاد مینماید. این راه حل سه مسیر اصلی را دنبال میکند: ۱- فراگیری علم ۲- هستیشناسی زبان هستیشناسی وب برای ترسیم پایگاه دادهای سلسله مراتبی و ۳- پردازش و بازیابی دانش. برای اینکه از نظر معناشناسی محتوای اسناد را تفسیر نموده و حوزه هستیشناسی را وسعت دهد، روششناسی هستیشناسی با ایجاد قوانین ترسیم فراگیری علم اتخاذ شده است. در موضوع هستیشناسی مترادفها و مشابهها نیز در نظر گرفته شدهاند. حاصل هستیشناسی زبان هستیشناسی وب برای یک الگوی پایگاه دادهای سلسله مراتبی طراحی شده است تا به دانش مفید و موثر، اجازه پردازش و بازیابی دهد. تکنیکهای استدلال بهکار رفته در پردازش و بازیابی دانش، امکان تحقیقات زبانی طبیعی در زمینه هستیشناسی را قادر میسازد تا با هدف تشخیص اسناد و دانش مربوط به آنها فعالیت نماید.
این نظام بر روی مجموعه نوشتههایی از ۲۰۰ خلاصه اسناد آرشیوی آزمایش، و نتایج امیدبخشی بدست آمده است. جهت تخصیص برنامه فراگیری علم در حوزه آرشیو، مجموعه ای از ۳۷ قانون جیپ توسعه داده شده و با قوانین ترسیم فراگیری علم به اشتراک گذاشته شده است.
در آینده قصد داریم تا راهحل خود را برای اسناد تاریخی مکتوب در زبان مجارستانی، لاتین و آلمانی به کار برده و شفافیت چندزبانی را، هم در پردازش و هم در نظام پرسش و پاسخ اسناد بهبود بخشیم.
سپاسگزاری: این اثر توسط پروژه آرهینت حمایت و به وسیله وزارت آموزش و پژوهش رومانی تاسیس شده است.
References
۱. Amardeilh, F.: Web SémantiqueetInformatiqueLinguistique: Propositions Méthodolo
giques et réalisationd’uneplateformelogicielle. These de Doctorat, Universite Paris XNanterrere
(۲۰۰۷)
۲. Amardeilh, F.: Ontopop or how to annotate documents and populate ontologies from texts.
In: Proceedings of the ESWC 2006 Workshop on Mastering the Gap: From Information
Extraction to Semantic Representation, Budva, Montenegro, June 12. CEUR Workshop
Proceedings (2006), ISSN 1613-0073
۳. Buitelaar, P., Cimiano, P., Racioppa, S., Siegel, M.: Ontology-based Information Extraction
With SOBA. In: Proceedings of the International Conference on Language Resources
and Evaluation, pp. 2321–۲۳۲۴ (۲۰۰۶)
۴. Laclavik, M., Ciglan, M., Seleng, M., Krajei, S.: Ontea: Semi-automatic Pattern based
Text Annotation empowered with Information Retrieval Methods. In: Tools for acquisition,
organisation and presenting of information and knowledge: Proceedings in Informatics
and Information Technologies, Kosice, Vydavatelstvo STU, Bratislava, part 2, pp. 119–
۱۲۹ (۲۰۰۷), ISBN 978-80-227-2716-7
۵. Schäfer, U.: Integrating Deep and Shallow Natural Language Processing Components –
Representations and Hybrid Architectures, Saarbrücken Dissertations in Computational
Linguistics and Language Te, DFKI GmbH and Computational Linguistics Department,
Saarland University, Saarbrücken, Germany (2007)
۶. Tablan, V., Maynard, D., Bontcheva, K., Cunningham, H.: Gate – An Application Developer’s
Guide (2004), http://gate.ac.uk/
۷. del Mar Roldán-García, M., Aldana-Montes, J.F.: A Tool for Storing OWL Using Database
Technology. In: Proceedings of the OWLED 2005 Workshop on OWL: Experiences
and Di-rections, Galway, Ireland, CEURWS.org (2005)
۸. Vysniauskas, E., Nemuraite, L.: Transforming Ontology representation from OWL to relational
Database. ISSN 1392 – 124x Information Technology and Control 35(3A), 333–۳۴۳
(۲۰۰۶)
۹. Zhuge, H., Xing, Y., Shi, P.: Resource Space Model, OWL and Database: Mapping and Integration.
ACM Transactions on Internet Technology 8(4), Article 20 (2008)
۱۰. Trissl, S., Leser, U.: Querying ontologies in relational database systems. In: Ludäscher, B.,
Raschid, L. (eds.) DILS 2005. LNCS (LNBI), vol. 3615, pp. 63–۷۹. Springer, Heidelberg
(۲۰۰۵)
۱۱. Kalyanpur, A., Pastor, D.J., Battle, S., Padget, J.: Automatic Mapping of OWL Ontologies
into JAVA. In: Proceedings of the Sixteenth International Conference on Engineering &
Knowledge Engineering (SEKE 2004), Banff, Alberta, Canada (2004)
۱۲. Bernstein, A., Kaufmann, E., Kaiser, C., Kiefer, C.: Ginseng: A Guided Input Natural
Language Search Engine for Querying Ontologies. In: 2006 Jena User Conference, Bristol,
U.K. (2006),
http://www.ifi.uzh.ch/ddis/staff/goehring/btw/files/
Bernstein_JenaConf_2006.pdf
۱۳. Bernstein, A., Kaufmann, E.: GINO – A Guided Input natural language Ontology Editor. In:
Cruz, I., Decker, S., Allemang, D., Preist, C., Schwabe, D., Mika, P., Uschold, M., Aroyo,
L.M. (eds.) ISWC 2006. LNCS, vol. 4273, pp. 144–۱۵۷. Springer, Heidelberg (2006)
۱۴. Lopez, V., Motta, E., Sabou, M., Fernandez, M.: Question Answering on the Real Semantic
Web. In: 6th International and 2nd Asian Semantic Web Conference (ISWC
۲۰۰۷+ASWC 2007) (2007)
۱۵. The “ArhiNet”Research Project, http://dsrl.coned.utcluj.ro/
۱۶. Cluj County National Archives (CCNA),http://www.clujnapoca.ro/arhivelenationale/
مقاله حاضر ترجمه ای است از:
IoanSalomie, MihaelaDinsoreanu, Cristina Pop, and SorinSuciu (2010).“Arhinet”– A Knowledge-Based System for Creating, Processing and Retrieving Archival eContent.J. Cordeiro and J. Filipe (Eds.): WEBIST 2009, LNBIP 45, pp. 99–۱۱۲, ۲۰۱۰.
[۱]Arhinet
[۲] J. Cordeiro and J. Filipe (Eds.): WEBIST 2009, LNBIP 45, pp. 99–۱۱۲, ۲۰۱۰.
[۳]IoanSalomie, MihaelaDinsoreanu, Cristina Pop, and SorinSuciu
[۴] – شهری واقع در شمال غرب کشور رومانی
[۵]OntoPop
[۶]SOBA
[۷]Ontea
[۸] Ontology Web Language(OWL)
[۹] RDF
[۱۰] Heart-of-Gold
[۱۱] XML
[۱۲] Ginseng
[۱۳] Gino
[۱۴] PowerAqua
[۱۵]Original archival document (Odoc)
[۱۶] Digital Copy Of Original Document (Ddoc)
[۱۷] Technical data (PtDoc)
[۱۸]Content Summary (PsDoc)
[۱۹]Palostelek
[۲۰]Moise
[۲۱]Content Summary (PsDoc)
[۲۲] Content summary(PsDoc)
[۲۳] Technical Data (PtDoc)
[۲۴] Ontology Web Language(OWL)
[۲۵]Hierarchical data model(HDM)
[۲۶]Primary DataBase(PDB)
[۲۷] Knowledge Server (KS)
[۲۸] Optical Character Recognition(OCR)
[۲۹] Ontology Web Language(OWL)
[۳۰]Hierarchical data model(HDM)
[۳۱] Ontology Web Language(OWL)
[۳۲] Hierarchical data model(HDM)
[۳۳]PsDoc
[۳۴]JAPE Grammer
[۳۵]JAPE Rules
[۳۶] Lexical Annotation Document XML