سامانه پیکره‌های متنی ایرانداک

پیکره متنی زبان فارسی

این پیکره، توسعه‌یافته «پیکره بی‌جن‌خان» است. پیکره بی‌جن‌خان، مجموعه‌ای است از متون فارسی با بیش از دو میلیون واژه که با ۵۵۰ نوع برچسب اجزای واژگانی کلام (Part Of Speech: POS)، برچسب‌گذاری شده‌اند. این پیکره شامل بیش از ۴۳۰۰ برچسب موضوعی چون سیاسی، تاریخی، و... برای متون بوده و در پژوهشکده پردازش هوشمند علائم تهیه شده است. پیکره متنی استاندارد زبان فارسی مجموعه‌ای از متون نوشتاری و گفتاری زبان فارسی رسمی است و از منابعی مانند روزنامه‌ها، سایت‌ها و مستندات از قبل تایپ شده، جمع‌آوری و تصحیح شده، و برچسب خورده است. حجم این دادگان نزدیک به 100 میلیون کلمه است و از منابع گوناگون تهیه گردیده و دارای تنوع بسیار زیادی است. پیکره متنی زبان فارسی دارای ویژگی‌های زیر است:

جمع‌آوری و سازمان‌دهی متون نوشتاری و گفتاری رسمی زبان فارسی با حجم 100 میلیون کلمه؛
ویرایش نیمه‌خودکار اولیه متون؛
برچسب‌دهی نحوی‌معنایی کلمات برای 10 میلیون کلمه با استفاده از 882 برچسب به صورت دستی توسط دانشجویان رشته زبان‌شناسی بر اساس دستورالعمل؛
تهیه نویسه‌های UniCode و XML برای پرونده‌های متنی دادگان؛
امکان برچسب‌دهی گروه‌های نحوی؛
طبقه‌بندی هر پرونده بر حسب موضوع و منبع آن؛
پوشش موضوعات مختلف سیاسی، اجتماعی، اقتصادی، فرهنگی، و...؛
مجهز به یک نرم‌افزار آماری برای محاسبه و استخراج ویژگی‌های زبانی مانند توزیع احتمالی مشروط، واژگان بسامدی، شناسایی هم‌نگاره‌ها، هم‌آیندها، مطابقه‌ها، و ترتیب قاموسی با امکان گزارش‌گیری؛
طراحی یک زبان جست‌وجوی هوشمند.

Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, and Masood Ghayoomi. 2011. "Lesson from Building a Persian Written Corpus: Peykare." Language Resources and Evolution 45 (2): 143-164.

پایگاه دادگان زبان فارسی

این پیکره، مجموعه‌ای است برای ذخیره، پردازش، و ارائه داده‌های زبانی فارسی. این پایگاه دربرگیرنده پيکره‌هايی گوناگون در زبان فارسي است؛ پيکره‌هاي این پایگاه مي‌توانند همواره روزآيند شوند. پايگاه دادگان زبان فارسي فراگير و متنوع و در واقع فراتر از يک يا چند پيکره خاص است و کاربران بر پايه نياز و هدف پژوهشي خود مي‌توانند پيکره مناسب را از آن برگزينند. حتي پژوهندگان مي‌توانند پيکره‌هاي اختصاصي خود را وارد پايگاه کنند و تحليل‌ها و فهرست‌گيري‌هاي مورد نظر خود را انجام دهند. پايگاه دادگان زبان فارسي داراي متن‌هاي نشانه‌گذاري شده از جمله شناسنامه متن و‌ برچسب‌هاي دستوري، ‌آوايي، ‌ريشه‌اي، و معنايي است. اين دادگان مجهز به نرم‌افزارهاي اختصاصي جست‌وجو، تقطيع، و تحليل متن است که مي‌تواند انواع فهرست‌هاي واژگاني، ‌بسامدي، و آماري را ارائه کند. منابع به کار رفته در این پایگاه از گونه‌هاي نوشتاری با استفاده از متن‌هاي معتبر و با رعايت معيارهاي مختلف نمونه‌گيري شده‌اند و البته هيچ‌گونه محدوديت و امساکي درباره آثار مهم ادبي و نويسندگان سرشناس و به ويژه صاحب سبک و تاثير‌گذار اعمال نشده است؟؟؟. فهرست‌هاي مفصلي از همه منابع مهم نظم و نثر فارسي معاصر فراهم شده است. اين فهرست‌ها جداگانه براي آثار شعري، داستاني، ‌غيرداستاني، نمايشنامه و فيلمنامه، ادبيات کودکان، و ‌نشريه‌هاي ادواري و مجلات علمي، ‌تخصصي، و ادبي فراهم گرديده است. شمار آثاري که در اين فهرست‌ها قرار گرفته‌اند، بيش از 1500 عنوان شده که پس از بررسي و کنار گذاشتن موارد مشابه، ‌بيش از 500 عنوان براي درونداد پايگاه داده‌ها برگزيده شده‌اند. نزدیک به 450 اثر داستاني و غيرداستاني نثر؛ ‌250 اثر شعري از شاعران معاصر؛ بیش از ‌80 عنوان مجله و نشريه علمي، ادبي، و تخصصی؛‌ نزدیک به 300 عنوان نمايش‌نامه و فيلم‌نامه،؛ 200 عنوان ادبيات کودک؛ چندين عنوان روزنامه و نشريه خبري؛ برخي از کتاب‌هاي درسي دانشگاهي و دبيرستاني؛ ‌برخي از کتاب‌هاي دبستاني؛ نامه‌هاي اداري و بخشنامه‌ها؛ مجموعه کامل قوانين و مقررات؛ نشريه‌ها و جزوه‌های پراکنده؛ ‌پوسترها؛ ديوارنوشته‌ها؛ و مانند این‌ها ازجمله اين متون هستند.

فارس‌دات تلفنی

دادگان فارس‌دات تلفنی (TFarsDat)، مجموعه‌ای از عبارات و جملات است که گویندگان فارسی‌زبان از مناطق گوناگون کشور در تلفن گفته‌اند. این دادگان در سطح واج (آوا) با دقت میلی‌ثانیه تقطیع و برچسب‌دهی شده و به صورت فایل‌های مجزا ذخیره گردیده است. تهیه این دادگان برای کانال ارتباطی تلفن، از اهمیت ویژه‌ای برخوردار است.

Bijankhan, Mahmood‎, Javad Sheykhzadegan, Mahmood R. Roohani, Rahman Zarrintare, Seyyed Z. Ghasemi, and Mohammad‎ E. Ghasedi. 2003.‎ "Tfarsdat-The Telephone Farsi Speech Database."‎ In Proceeding of EUROSPEECH, 1525-1528, Geneva, Switzerland.

پیکره نقش‌های معنایی زبان فارسی

این پیکره که نزدیک به 30.000 جمله از زبان فارسی معاصر را دارد، برچسب‌گذاری دستی شده است. این پیکره بر اساس مفهوم نقش‌های معنایی فیلمور، لایه‌ای از اطلاعات مربوط به رابطه محمول موضوع را به ساخت نحوی پیکره وابستگی اضافه می‌کند. در این مجموعه، افعال، اسم‌ها، و صفت‌های گزاره‌ای به عنوان محمول‌های جمله در نظر گرفته شده و بنا بر نوع رویدادشان، در جمله تعیین ظرفیت شده‌اند. خروجی این پیکره بر اساس الگوی همایش زبان‌شناسی رایانه‌ای و پردازش زبان طبیعی (CoNLL) آماده شده است. نقش-های معنایی استفاده شده در برچسب‌زنی معنایی شامل دو گروه برچسب‌های موضوعی و برچسب‌های نقشی هستند. برچسب‌های موضوعی، ساخت ظرفیتی محمول‌های جمله را به دست می‌دهند و برچسب‌های نقشی، افزوده‌های توصیفگر فعل یا کل جمله را شامل می‌شوند. تعداد نقش‌های معنایی 27 مورد و تعداد موضوع‌های نقشی 15 مورد است. دو برچسب وجه‌نما و نفی هم به عنوان برچسب نقشی مورد استفاده قرار گرفته است. میرزایی، آزاده، و امیرسعید مولودی. 1393. «نخستین پیکره نقش‌های معنایی در زبان فارسی.» علم زبان 2 (3):

48-29.

پیکره واژگان نحوی و معنایی افعال مرکب فارسی (نسخه ۱.۰)

پیکره واژگان نحوی و معنایی افعال مرکب فارسی (PersPred) مجموعه‌ای است چندزبانه شامل اطلاعات نحوی و معنایی افعال مرکب زبان فارسی، ترجمه انگلیسی و فرانسوی افعال، و حداقل یک جمله مثال برای هر فعل. اطلاعات نحوی بر اساس دیدگاه گروس و اطلاعات معنایی بر اساس دیدگاه لوین تهیه شده‌اند. نسخه اول این مجموعه که توسط پژوهشگران دانشگاه سوربن جدید فرانسه تهیه و عرضه شده شامل اطلاعات مربوط به بیش از ۶۰۰ فعل مرکب شامل همکرد «زدن» است.

Samvelian, Pollet, and Pegah Faghiri.‎ 2013‎.‎ "Introducing PersPred, A Syntactic and Semantic Database for Persian Complex Predicates.‎" In Proceedings of the 9th Workshop on Multiword Expressions, Atlanta, Georgia, USA.‎ Association for Computational Linguistics, 11-20.

فارس‌نت (وردنت فارسی)

فارس‌نت پایگاه دانشی شامل اطلاعاتی درباره واژه‌ها و ترکیبات زبان (مفاهیم)، اطلاعات نحوی آن¬ها، و روابط معنایی میان آن‌هاست. نسخۀ نخست فارس‌نت دارای بیش از ۱۷ هزار مدخل واژگانی از مقوله‌های اسم، فعل، و صفت است. روابط زیرپوشش در این نسخه، روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۱ و ۲) با قابلیت اتصال به وردنت‌های دیگر با نگاشت به وردنت پرینستون نسخۀ ۳٫۰ است. نسخه دوم فارس‌نت بیش از ۳۰ هزار مدخل واژگانی از مقوله‌های اسم، فعل، صفت، و قید دارد. افزون بر روابط درون‌مقوله‌ای مطرح در وردنت انگلیسی (نسخه ۱ و ۲)، پنج رابطه میان‌مقوله‌ای نیز مفاهیم را به هم پیوند می‌دهند و علاوه بر ویژگی‌های در نظر گرفته شده برای واژه‌ها، ویژگی‌های نحوی، ساخت‌واژی، و آوایی به واژه‌ها و قاب و ساختار آرگومانی به افعال افزوده شده‌اند. این وردنت نیز قابلیت اتصال به وردنت‌های دیگر را با نگاشت به وردنت پرینستون نسخه ۳٫۰ داراست. مجموعه فارس‌نت را آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی با حمايت پژوهشگاه ارتباطات و فناوری اطلاعات (مركز تحقيقات مخابرات ايران) درست کرده است.

Shamsfard, M, A. Hesabi, H. Fadaei, N. Mansoory, A. Famian, S. Bagherbeigi, E. Fekri et al. 2010. "Semi-Automatic Development of FarsNet: the Persian WordNet." In Proceedings of 5th Global WordNet Conference (GWA). Mumbai, India.

پیکره وابستگی نحوی زبان فارسی

این پیکره، مجموعه‌ای از 30000 جمله برچسب‌ خورده با اطلاعات نحوی و ساخت‌واژی است. این پیکره که نخستین پیکره وابستگی زبان فارسی است، می‌تواند به عنوان زیرساختی اساسی در پردازش رایانه‌ای زبان فارسی به کار رود. همچنین اطلاعات این پیکره می‌تواند در پژوهش‌های زبان‌شناختی و آموزش و یادگیری زبان فارسی به کار رود. مهم‌ترین دلیل استفاده از دستور وابستگی در این پیکره نحوی نتایج رضایت‌بخش در یادگیری خودکار و سازگاری مناسب با طبیعت زبان‌های بی‌ترتیب، همچون زبان فارسی است. بی‌ترتیب بودن زبان فارسی بدین‌ معناست که بیشتر جمله‌ها، ترتیبی ندارند. برای نمونه، جمله «من در مدرسه کتاب را به علی دادم» را به گونه‌های دیگر هم می‌توان گفت، مانند «من در مدرسه به علی کتاب را دادم»، «من به علی در مدرسه کتاب را دادم»، یا «من کتاب را به علی در مدرسه دادم». پیکره وابستگی نحوی زبان فارسی، جملات پیکره برگرفته از منابع گوناگون از متون فارسی معاصر را در بر دارد. همه جمله‌ها دارای برچسب روابط نحوی (بر مبنای دستور وابستگی) مانند فاعل، مفعول، مسند، مضافٌ‌الیه، بدل، و... هستند. همه جمله‌ها برچسب اطلاعات ساخت‌واژی (برچسب اجزای واژگانی کلام (POS)) مانند فعل، اسم، صفت، قید، ضمیر، و... دارند. جمله‌ها را تیمی از زبان‌شناسان باتجربه برچسب زده‌ که در چند گام بازبینی شده‌اند. داده‌های پیکره به صورت تصادفی، به داده‌های یادگیری (80% )، آزمون ( 10% )، و ارزیابی (10%) تقسیم شده است. همه جمله‌ها 29982، همه واژه‌ها 498081، همه واژه‌های یکتا 37618، میانگین درازی هر جمله 16/61، شمار فعل‌های یکتا 4782، و میانگین حضور هر فعل 12/67 است.

Rasooli, Mohammad Sadegh., Manouchehr. Kouhestani, and Amirsaeid. Moloodi. 2013. "Development of a Persian Syntactic Dependency Treebank: In The 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL HLT): 306-314. Atlanta, USA.