سامانه پیکره‌های متنی ایرانداک

درباره

یکی از روش‌های گردآوری منسجم داده‌ها، تهیه پیکره‌های زبانی است. پیکره، مجموعه‌ای نظام‌مند، رایانه‎ای، و درست از زبان است که برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. بسیاري از پژوهش‌های زبانشناختی و تصمیم‌گیری‌ها در برنامه‌ریزی زبانی، تنها با کاربرد یک پیکره زبانی امکان‌پذیر است. در پاسخ به نیاز پژوهشگران کشور در آسان‌سازی فرآیند پژوهش، پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، سامانه پیکره‌های ایرانداک (ساپا) را راه‌اندازی کرده و در دسترس همه پژوهشگران کشور گذارده است. اکنون سه پیکره در ساپا بارگذاری شده است: پیکره پژوهش‌نامه، که از متون مقاله‌های پژوهش‌نامه پردازش و مدیریت اطلاعات ساخته شده است، پکا، که از متون کتاب‌های دیجیتال ایرانداک ساخته شده است و پارسا، که از چکیده‌های پارساها ساخته شده است. دو پیکرة اول تک‌زبانه هستند و پارسا دوزبانه (فارسی-انگلیسی) است. پیکره پژوهش‌نامه و پکا، هر کدام به ترتیب، شامل بیش از چهار میلیون و 780 هزار واژه و سه میلیون و 329 هزار واژه است و پارسا شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره‌ها، متون عمومی نیست، بلکه دارای نوشته‌های بسیار تخصصی و میان‌رشته‌ای مانند علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، مدیریت دانش، زبان‌شناسی رایانشی، مدیریت اطلاعات و مانند آن‌هاست. بنابراین، برای پردازش‌هایی که نیازمند بهره‌گیری از نوشته‌های تخصصی باشند، بسیار ارزشمند هستند. همچنین به منظور افزایش کارایی پیکره‌ها، متون پیکره‌ها برچسب‌گذاری شده‌اند (برچسب‌گذاری اجزای کلام(POS)). این نوع برچسب‌دهی، عملی کاربردی در بسیاری از حوزه‌های پیشرفته‌تر پردازش زبان طبیعی از جمله ترجمه ماشینی، خطایاب، تبدیل متن به گفتار، بازیابی اطلاعات، موتورهای جستجو و کمک به مدل‌های آماری است.

درباره

ویژگی‌های پیکره

نوشته‌های بسیار تخصصی

جست‌وجوی کارا

برچسب‌های فراگیر