این پیکره، توسعهیافته «پیکره بیجنخان» است. پیکره بیجنخان، مجموعهای است از متون فارسی با بیش از دو میلیون واژه که با ۵۵۰ نوع برچسب اجزای واژگانی کلام (Part Of Speech: POS)، برچسبگذاری شدهاند. این پیکره شامل بیش از ۴۳۰۰ برچسب موضوعی چون سیاسی، تاریخی، و... برای متون بوده و در پژوهشکده پردازش هوشمند علائم تهیه شده است. پیکره متنی استاندارد زبان فارسی مجموعهای از متون نوشتاری و گفتاری زبان فارسی رسمی است و از منابعی مانند روزنامهها، سایتها و مستندات از قبل تایپ شده، جمعآوری و تصحیح شده، و برچسب خورده است. حجم این دادگان نزدیک به 100 میلیون کلمه است و از منابع گوناگون تهیه گردیده و دارای تنوع بسیار زیادی است. پیکره متنی زبان فارسی دارای ویژگیهای زیر است:
Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, and Masood Ghayoomi. 2011. "Lesson from Building a Persian Written Corpus: Peykare." Language Resources and Evolution 45 (2): 143-164.
این پیکره، مجموعهای است برای ذخیره، پردازش، و ارائه دادههای زبانی فارسی. این پایگاه دربرگیرنده پيکرههايی گوناگون در زبان فارسي است؛ پيکرههاي این پایگاه ميتوانند همواره روزآيند شوند. پايگاه دادگان زبان فارسي فراگير و متنوع و در واقع فراتر از يک يا چند پيکره خاص است و کاربران بر پايه نياز و هدف پژوهشي خود ميتوانند پيکره مناسب را از آن برگزينند. حتي پژوهندگان ميتوانند پيکرههاي اختصاصي خود را وارد پايگاه کنند و تحليلها و فهرستگيريهاي مورد نظر خود را انجام دهند. پايگاه دادگان زبان فارسي داراي متنهاي نشانهگذاري شده از جمله شناسنامه متن و برچسبهاي دستوري، آوايي، ريشهاي، و معنايي است. اين دادگان مجهز به نرمافزارهاي اختصاصي جستوجو، تقطيع، و تحليل متن است که ميتواند انواع فهرستهاي واژگاني، بسامدي، و آماري را ارائه کند. منابع به کار رفته در این پایگاه از گونههاي نوشتاری با استفاده از متنهاي معتبر و با رعايت معيارهاي مختلف نمونهگيري شدهاند و البته هيچگونه محدوديت و امساکي درباره آثار مهم ادبي و نويسندگان سرشناس و به ويژه صاحب سبک و تاثيرگذار اعمال نشده است؟؟؟. فهرستهاي مفصلي از همه منابع مهم نظم و نثر فارسي معاصر فراهم شده است. اين فهرستها جداگانه براي آثار شعري، داستاني، غيرداستاني، نمايشنامه و فيلمنامه، ادبيات کودکان، و نشريههاي ادواري و مجلات علمي، تخصصي، و ادبي فراهم گرديده است. شمار آثاري که در اين فهرستها قرار گرفتهاند، بيش از 1500 عنوان شده که پس از بررسي و کنار گذاشتن موارد مشابه، بيش از 500 عنوان براي درونداد پايگاه دادهها برگزيده شدهاند. نزدیک به 450 اثر داستاني و غيرداستاني نثر؛ 250 اثر شعري از شاعران معاصر؛ بیش از 80 عنوان مجله و نشريه علمي، ادبي، و تخصصی؛ نزدیک به 300 عنوان نمايشنامه و فيلمنامه،؛ 200 عنوان ادبيات کودک؛ چندين عنوان روزنامه و نشريه خبري؛ برخي از کتابهاي درسي دانشگاهي و دبيرستاني؛ برخي از کتابهاي دبستاني؛ نامههاي اداري و بخشنامهها؛ مجموعه کامل قوانين و مقررات؛ نشريهها و جزوههای پراکنده؛ پوسترها؛ ديوارنوشتهها؛ و مانند اینها ازجمله اين متون هستند.
دادگان فارسدات تلفنی (TFarsDat)، مجموعهای از عبارات و جملات است که گویندگان فارسیزبان از مناطق گوناگون کشور در تلفن گفتهاند. این دادگان در سطح واج (آوا) با دقت میلیثانیه تقطیع و برچسبدهی شده و به صورت فایلهای مجزا ذخیره گردیده است. تهیه این دادگان برای کانال ارتباطی تلفن، از اهمیت ویژهای برخوردار است.
Bijankhan, Mahmood, Javad Sheykhzadegan, Mahmood R. Roohani, Rahman Zarrintare, Seyyed Z. Ghasemi, and Mohammad E. Ghasedi. 2003. "Tfarsdat-The Telephone Farsi Speech Database." In Proceeding of EUROSPEECH, 1525-1528, Geneva, Switzerland.
این پیکره که نزدیک به 30.000 جمله از زبان فارسی معاصر را دارد، برچسبگذاری دستی شده است. این پیکره بر اساس مفهوم نقشهای معنایی فیلمور، لایهای از اطلاعات مربوط به رابطه محمول موضوع را به ساخت نحوی پیکره وابستگی اضافه میکند. در این مجموعه، افعال، اسمها، و صفتهای گزارهای به عنوان محمولهای جمله در نظر گرفته شده و بنا بر نوع رویدادشان، در جمله تعیین ظرفیت شدهاند. خروجی این پیکره بر اساس الگوی همایش زبانشناسی رایانهای و پردازش زبان طبیعی (CoNLL) آماده شده است. نقش-های معنایی استفاده شده در برچسبزنی معنایی شامل دو گروه برچسبهای موضوعی و برچسبهای نقشی هستند. برچسبهای موضوعی، ساخت ظرفیتی محمولهای جمله را به دست میدهند و برچسبهای نقشی، افزودههای توصیفگر فعل یا کل جمله را شامل میشوند. تعداد نقشهای معنایی 27 مورد و تعداد موضوعهای نقشی 15 مورد است. دو برچسب وجهنما و نفی هم به عنوان برچسب نقشی مورد استفاده قرار گرفته است. میرزایی، آزاده، و امیرسعید مولودی. 1393. «نخستین پیکره نقشهای معنایی در زبان فارسی.» علم زبان 2 (3):
48-29.
پیکره واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعهای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال، و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین تهیه شدهاند. نسخه اول این مجموعه که توسط پژوهشگران دانشگاه سوربن جدید فرانسه تهیه و عرضه شده شامل اطلاعات مربوط به بیش از ۶۰۰ فعل مرکب شامل همکرد «زدن» است.
Samvelian, Pollet, and Pegah Faghiri. 2013. "Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates." In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA. Association for Computational Linguistics, 11-20.
فارسنت پایگاه دانشی شامل اطلاعاتی درباره واژهها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آن¬ها، و روابط معنایی میان آنهاست. نسخۀ نخست فارسنت دارای بیش از ۱۷ هزار مدخل واژگانی از مقولههای اسم، فعل، و صفت است. روابط زیرپوشش در این نسخه، روابط درونمقولهای مطرح در وردنت انگلیسی (نسخه ۱ و ۲) با قابلیت اتصال به وردنتهای دیگر با نگاشت به وردنت پرینستون نسخۀ ۳٫۰ است. نسخه دوم فارسنت بیش از ۳۰ هزار مدخل واژگانی از مقولههای اسم، فعل، صفت، و قید دارد. افزون بر روابط درونمقولهای مطرح در وردنت انگلیسی (نسخه ۱ و ۲)، پنج رابطه میانمقولهای نیز مفاهیم را به هم پیوند میدهند و علاوه بر ویژگیهای در نظر گرفته شده برای واژهها، ویژگیهای نحوی، ساختواژی، و آوایی به واژهها و قاب و ساختار آرگومانی به افعال افزوده شدهاند. این وردنت نیز قابلیت اتصال به وردنتهای دیگر را با نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارسنت را آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی با حمايت پژوهشگاه ارتباطات و فناوری اطلاعات (مركز تحقيقات مخابرات ايران) درست کرده است.
Shamsfard, M, A. Hesabi, H. Fadaei, N. Mansoory, A. Famian, S. Bagherbeigi, E. Fekri et al. 2010. "Semi-Automatic Development of FarsNet: the Persian WordNet." In Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.
این پیکره، مجموعهای از 30000 جمله برچسب خورده با اطلاعات نحوی و ساختواژی است. این پیکره که نخستین پیکره وابستگی زبان فارسی است، میتواند به عنوان زیرساختی اساسی در پردازش رایانهای زبان فارسی به کار رود. همچنین اطلاعات این پیکره میتواند در پژوهشهای زبانشناختی و آموزش و یادگیری زبان فارسی به کار رود. مهمترین دلیل استفاده از دستور وابستگی در این پیکره نحوی نتایج رضایتبخش در یادگیری خودکار و سازگاری مناسب با طبیعت زبانهای بیترتیب، همچون زبان فارسی است. بیترتیب بودن زبان فارسی بدین معناست که بیشتر جملهها، ترتیبی ندارند. برای نمونه، جمله «من در مدرسه کتاب را به علی دادم» را به گونههای دیگر هم میتوان گفت، مانند «من در مدرسه به علی کتاب را دادم»، «من به علی در مدرسه کتاب را دادم»، یا «من کتاب را به علی در مدرسه دادم». پیکره وابستگی نحوی زبان فارسی، جملات پیکره برگرفته از منابع گوناگون از متون فارسی معاصر را در بر دارد. همه جملهها دارای برچسب روابط نحوی (بر مبنای دستور وابستگی) مانند فاعل، مفعول، مسند، مضافٌالیه، بدل، و... هستند. همه جملهها برچسب اطلاعات ساختواژی (برچسب اجزای واژگانی کلام (POS)) مانند فعل، اسم، صفت، قید، ضمیر، و... دارند. جملهها را تیمی از زبانشناسان باتجربه برچسب زده که در چند گام بازبینی شدهاند. دادههای پیکره به صورت تصادفی، به دادههای یادگیری (80% )، آزمون ( 10% )، و ارزیابی (10%) تقسیم شده است. همه جملهها 29982، همه واژهها 498081، همه واژههای یکتا 37618، میانگین درازی هر جمله 16/61، شمار فعلهای یکتا 4782، و میانگین حضور هر فعل 12/67 است.
Rasooli, Mohammad Sadegh., Manouchehr. Kouhestani, and Amirsaeid. Moloodi. 2013. "Development of a Persian Syntactic Dependency Treebank: In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.