یکی از روشهای گردآوری منسجم دادهها، تهیه پیکرههای زبانی است. پیکره، مجموعهای نظاممند، رایانهای، و درست از زبان است که برای پژوهشهای زبانی مورد استفاده قرار میگیرد. بسیاري از پژوهشهای زبانشناختی و تصمیمگیریها در برنامهریزی زبانی، تنها با کاربرد یک پیکره زبانی امکانپذیر است. در پاسخ به نیاز پژوهشگران کشور در آسانسازی فرآیند پژوهش، پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، سامانه پیکرههای ایرانداک (ساپا) را راهاندازی کرده و در دسترس همه پژوهشگران کشور گذارده است. اکنون سه پیکره در ساپا بارگذاری شده است: پیکره پژوهشنامه، که از متون مقالههای پژوهشنامه پردازش و مدیریت اطلاعات ساخته شده است، پکا، که از متون کتابهای دیجیتال ایرانداک ساخته شده است و پارسا، که از چکیدههای پارساها ساخته شده است. دو پیکرة اول تکزبانه هستند و پارسا دوزبانه (فارسی-انگلیسی) است. پیکره پژوهشنامه و پکا، هر کدام به ترتیب، شامل بیش از چهار میلیون و 780 هزار واژه و سه میلیون و 329 هزار واژه است و پارسا شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکرهها، متون عمومی نیست، بلکه دارای نوشتههای بسیار تخصصی و میانرشتهای مانند علم اطلاعات و دانششناسی، فناوری اطلاعات، مدیریت دانش، زبانشناسی رایانشی، مدیریت اطلاعات و مانند آنهاست. بنابراین، برای پردازشهایی که نیازمند بهرهگیری از نوشتههای تخصصی باشند، بسیار ارزشمند هستند. همچنین به منظور افزایش کارایی پیکرهها، متون پیکرهها برچسبگذاری شدهاند (برچسبگذاری اجزای کلام(POS)). این نوع برچسبدهی، عملی کاربردی در بسیاری از حوزههای پیشرفتهتر پردازش زبان طبیعی از جمله ترجمه ماشینی، خطایاب، تبدیل متن به گفتار، بازیابی اطلاعات، موتورهای جستجو و کمک به مدلهای آماری است.
پیکره متنی ایرانداک نزدیک به چهار میلیون و 780 هزار واژه دارد. درونمایه این پیکره همگانی نیست و دارای نوشتههای بسیار تخصصی و میانرشته (مانند کتابداری و اطلاعرسانی، فناوری اطلاعات، مدیریت دانش، علم اطلاعات و دانششناسی، زبانشناسی رایانشی، اصطلاحشناسی و مانند آنها) است.
در بازیابی اطلاعات، افزون بر نمایش واژه یا عبارتِ جستوجو در بافت زبانی، نام مقالهای که آن واژه یا عبارت در آن به کار رفته است، موضوع مقاله، پدیدآور(ان) مقاله، و فراوانی واژه یا عبارتِ جستوجو نیز نمایش داده میشوند.
دادههای پیکره دارای برچسب اجزای واژگانی کلام (POS tag) هستند که در بسیاری از پردازشهای زبانی به کار میروند. این برچسبها، مقولة واژهها (مانند اسم، صفت، قید و ...) را مشخص مینمایند.