راه اندازی سامانه پیکره های ایرانداک برای آسان سازی فرآیند پژوهش
به گزارش وبلاگ مهدی به نقل از پژوهشگاه علوم و فناوری اطلاعات ایران، سامانه پیکره های ایرانداک (ساپا) در پاسخ به احتیاج پژوهشگران کشور در آسان سازی فرآیند پژوهش، در نشانی SAPA.IRANDOC.AC.IR راه اندازی و در دسترس تمامی پژوهشگران کشور گذاشته شد.
بسیاری از پژوهش های زبان شناسی و تصمیم گیری ها در برنامه ریزی زبانی، تنها با کاربرد یک پیکره زبانی شدنی هستند. پیکره، مجموعه ای نظام مند، رایانه ای و درست از زبان است که برای آنالیز های زبان شناختی به کار می رود.
پیکره ها کاربردهای بسیاری در پردازش زبان طبیعی و درک و بازشناسی گفتار، تبدیل متن به گفتار و گفتار به متن، نگارش فرهنگ ها، آموزش و پژوهش، ساخت پایگاه های داده زبانی، آنالیز واژه های هم آیند در زبان های گوناگون، پایشگری زبان برای پیگیری و ردگیری دگرگونی های زبانی، ترجمه ماشینی، توسعه مفاهیم و منابع در پیوند با واژگان، نگارش و توسعه مهارت های نوشتاری، آموزش و یادگیری زبان با شناخت گویش ها و گوناگونی زبان ها، معناشناسی، تحلیل کلام، زبان شناسی اجتماعی، زبان شناسی حقوقی، واکاوی ژانرهای ادبی و پژوهش های دستور زبان دارند.
سامانه پیکره های ایرانداک (ساپا) که می تواند از چندین پیکره پشتیبانی کند، اکنون دارای یک پیکره با نام پیکره پژوهش نامه با نزدیک به چهار میلیون و 780 هزار واژه تخصصی و میان رشته در زمینه هایی مانند علم اطلاعات و دانش شناسی، فناوری اطلاعات، مدیریت دانش، زبان شناسی رایانشی، اصطلاح شناسی و مانند آن ها است.
این پیکره از مقاله های پژوهش نامه پردازش و مدیریت اطلاعات ساخته شده است و برای پژوهش هایی که نیازمند بهره گیری از پیکره های تخصصی هستند، ارزش و کاربرد بسیاری دارد.
هنگام بازیابی اطلاعات در پیکره پژوهش نامه، افزون بر نمایش واژه یا عبارتِ جستجو در بافت زبان، نام مقاله ای که آن واژه یا عبارت در آن به کار رفته است، موضوع مقاله، پدیدآوران مقاله و فراوانی واژه یا عبارت جستجو هم نمایش داده می شوند.
داده های این پیکره دارای برچسب اجزای واژگانی کلام (POS tag) هم هستند که در بسیاری از پردازش های زبان به کار می فرایند و مقوله واژه ها (مانند نام، صفت، قید، و …) را پیدا می نمایند.
منبع: خبرگزاری مهر