نسخه بتا

درباره

یکی از روش‌های گردآوری منسجم داده‌ها، تهیه پیکره‌های زبانی است. پیکره، مجموعه‌ای نظام‌مند، رایانه‎ای، و درست از زبان است که برای پژوهش‌های زبانی مورد استفاده قرار می‌گیرد. بسیاري از پژوهش‌های زبانشناختی و تصمیم‌گیری‌ها در برنامه‌ریزی زبانی، تنها با کاربرد یک پیکره زبانی امکان‌پذیر است. در پاسخ به نیاز پژوهشگران کشور در آسان‌سازی فرآیند پژوهش، پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، سامانه پیکره‌های ایرانداک (ساپا) را راه‌اندازی کرده و در دسترس همه پژوهشگران کشور گذارده است. اکنون سه پیکره در ساپا بارگذاری شده است: پیکره پژوهش‌نامه، که از متون مقاله‌های پژوهش‌نامه پردازش و مدیریت اطلاعات ساخته شده است، پکا، که از متون کتاب‌های دیجیتال ایرانداک ساخته شده است و پارسا، که از چکیده‌های پارساها ساخته شده است. دو پیکرة اول تک‌زبانه هستند و پارسا دوزبانه (فارسی-انگلیسی) است. پیکره پژوهش‌­نامه و پکا، هر کدام به ترتیب، شامل بیش از چهار میلیون و 780 هزار واژه و سه میلیون و 329 هزار واژه است و پارسا شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره‌ها، متون عمومی نیست، بلکه دارای نوشته‌های بسیار تخصصی و میان‌رشته‌ای مانند علم اطلاعات و دانش‌شناسی، فناوری اطلاعات، مدیریت دانش، زبان‌شناسی رایانشی، مدیریت اطلاعات و مانند آن‌هاست. بنابراین، برای پردازش‌هایی که نیازمند بهره‌گیری از نوشته‌های تخصصی باشند، بسیار ارزشمند هستند. همچنین به منظور افزایش کارایی پیکره‌ها، متون پیکره‌ها برچسب‌گذاری شده‌اند (برچسب‌گذاری اجزای کلام(POS)). این نوع برچسب‌دهی، عملی کاربردی در بسیاری از حوزه‌های پیشرفته‌تر پردازش زبان طبیعی از جمله ترجمه ماشینی، خطایاب، تبدیل متن به گفتار، بازیابی اطلاعات، موتورهای جستجو و کمک به مدل‌های آماری است.

ویژگی‌های پیکره

نوشته‌های بسیار تخصصی

پیکره متنی ایرانداک نزدیک به چهار میلیون و 780 هزار واژه دارد. درون‌مایه این پیکره همگانی نیست و دارای نوشته‌های بسیار تخصصی و میان‌رشته (مانند کتابداری و اطلاع‌رسانی، فناوری اطلاعات، مدیریت دانش، علم اطلاعات و دانش‌شناسی، زبان‌شناسی رایانشی، اصطلاح‌شناسی و مانند آن‌ها) است.

جست‌وجوی کارا

در بازیابی اطلاعات، افزون بر نمایش واژه یا عبارتِ جست‌وجو در بافت زبانی، نام مقاله‌ای که آن واژه یا عبارت در آن به کار رفته است، موضوع مقاله، پدیدآور(ان) مقاله، و فراوانی واژه یا عبارتِ جست‌وجو نیز نمایش داده می‌شوند.

برچسب‌های فراگیر

داده‌های پیکره دارای برچسب اجزای واژگانی کلام (POS tag) هستند که در بسیاری از پردازش‌های زبانی به کار می‌روند. این برچسب‌ها، مقولة واژه‌ها (مانند اسم، صفت، قید و ...) را مشخص می‌نمایند.

Ad edu
Ad pishine
Ad hamayesh
Ad edu