پرش به محتوا

Named-entity recognition

از ویکی‌پدیا، دانشنامهٔ آزاد

شناسایی موجودیت‌های نام‌دار (NER) یکی از مراحل استخراج اطلاعات است که موجودیت‌های نام‌دار را در متن بدون ساختار شناسایی و به دسته‌هایی مانند نام افراد، سازمان‌ها، مکان‌ها و غیره طبقه‌بندی می‌کند. برای مثال، در جمله «علی در سال 1386، 300 سهم از شرکت کاله را خرید»، NER برچسب‌های «[علی]فرد»، «[کاله]سازمان» و «[1386]زمان» را مشخص می‌کند. در این مثال، سه کلمه دسته‌بندی شده‌اند[۱].

قوی‌ترین سیستم‌های پیشرفته NER در زبان انگلیسی عملکردی نزدیک به انسان دارند[۲].

پلتفرم‌های NER

[ویرایش]

مهمترین پلتفرم‌های برجسته NER شامل:

  • GATE به‌طور پیش‌فرض از تشخیص موجودیت نام‌گذاری‌شده (NER) در زبان‌ها و حوزه‌های گوناگون پشتیبانی می‌کند. این قابلیت از طریق یک رابط گرافیکی کاربرپسند و API جاوا در دسترس است و به‌راحتی قابل استفاده می‌باشد؛
  • OpenNLP که از دو روش قاعده‌محور و روش آماری برای تشخیص موجودیت نام‌گذاری‌شده (NER) بهره می‌برد؛
  • SpaCy از یک NER آماری سریع استفاده می‌کند و همچنین دارای یک ابزار متن‌باز بصری برای نمایش موجودیت‌های شناسایی‌شده در متن است؛
  • Transformers که از یادگیری عمیق برای طبقه‌بندی توکن‌ها استفاده می‌کند[۳][۴].

ارزیابی

[ویرایش]

برای ارزیابی عملکرد یک سیستم تشخیص موجودیت نام‌گذاری‌شده (NER)، معیارهای مختلفی تعریف شده‌اند که از جمله رایج‌ترین آن‌ها، دقت (precision)، بازخوانی (recall) و امتیاز F1 هستند. بااین‌حال، چالش‌هایی در نحوه دقیق محاسبه این مقادیر وجود دارد که ارزیابی را پیچیده می‌کند.

این معیارهای آماری معمولاً در تشخیص خطاهای سیستم عملکرد قابل قبولی دارند. بااین‌حال، NER ممکن است به روش‌های متعددی دچار خطا شود—هرچند بسیاری از این خطاها، کاملا خطا نیستند و نباید به‌عنوان خطای کامل ارزیابی شوند.

رویکردها

[ویرایش]

سیستم‌های NER از دو رویکرد اصلی استفاده می‌کنند: روش‌های مبتنی بر قوانین ادبی که دقت بالایی دارن اما این رویکرد پوشش کمی دارد و نیاز به ماه‌ها کار تخصصی دارد. رویکرد دوم، مدل‌های آماری است که به مجموعه‌های داده‌ای بزرگ که بصورت دستی برچسب‌گذاری شده باشند وابسته‌اند. روش‌های نیمه‌نظارتی نیز برای کاهش نیاز به برچسب‌گذاری دستی توسعه یافته‌اند[۵][۶].

مساله حوزه کاری

[ویرایش]

سیستم‌های NER در حوزه‌های مختلف عملکرد متفاوتی دارند و سیستمی که برای یک حوزه آموزش دیده است، در حوزه‌های دیگر عملکرد خوبی نخواهد داشت[۷]. مثلا در حوزه‌هایی مانند روزنامه‌نگاری یا گزارش‌های نظامی که برای آن‌ها آموزش دیده‌اند، بهترین نتیجه را می‌دهند، اما در حوزه‌های دیگر ضعیف عمل می‌کنند. از دهه 1990، توجه از متون خبری به متون غیررسمی مانند وبلاگ‌ها و رسانه‌های اجتماعی و همچنین حوزه‌های تخصصی مانند بیوانفورماتیک، که در آن شناسایی نام‌های ژن‌ها و مواد شیمیایی اهمیت دارد، معطوف شده است[۸].

چالش‌ها و پژوهش‌های کنونی

[ویرایش]

با وجود پیشرفت‌های چشمگیر در امتیازات MUC-7، مسئله NER همچنان حل‌نشده باقی مانده است. پژوهش‌ها بر یادگیری نیمه‌نظارتی، بهبود عملکرد در حوزه‌های مختلف و شناسایی دقیق‌تر انواع موجودیت‌ها متمرکز شده‌اند. جمع‌سپاری به تولید برچسب‌نویسی‌های با کیفیت کمک کرده[۹]، اما متون پرنویز مانند توییتر همچنان چالش‌برانگیز هستند[۱۰]. رویکردهای جدید شامل مدل‌های مبتنی بر گراف[۱۱] و «ویکی‌سازی»[۱۲] است که متن را به صفحات ویکی‌پدیا پیوند می‌دهد تا شناسایی موجودیت‌ها دقیق‌تر شود.

منابع

[ویرایش]
  1. Perzanowski, Dennis; Schultz, Alan C.; Adams, William; Marsh, Elaine; Bugajska, Magda (2001-01-01). "Building a Multimodal Human-Robot Interface". Fort Belvoir, VA. {{cite journal}}: Cite journal requires |journal= (help)
  2. «MUC 7 Proceedings». www-nlpir.nist.gov. دریافت‌شده در ۲۰۲۵-۰۴-۲۳.
  3. Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA, USA: Association for Computational Linguistics. doi:10.18653/v1/2020.emnlp-demos.6.
  4. Kariampuzha, William Z.; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji (2023-02-28). "Precision information extraction for rare disease epidemiology at scale". Journal of Translational Medicine (به انگلیسی). 21 (1). doi:10.1186/s12967-023-04011-y. ISSN 1479-5876. PMC 9972634. PMID 36855134.
  5. Lin, Dekang; Wu, Xiaoyun (2009). "Phrase clustering for discriminative learning". Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP '09. Morristown, NJ, USA: Association for Computational Linguistics. 2: 1030. doi:10.3115/1690219.1690290.
  6. Nothman, Joel; Ringland, Nicky; Radford, Will; Murphy, Tara; Curran, James R. (2013-01). "Learning multilingual named entity recognition from Wikipedia". Artificial Intelligence (به انگلیسی). 194: 151–175. doi:10.1016/j.artint.2012.03.006. {{cite journal}}: Check date values in: |date= (help)
  7. Scheljhout, Carla (2001). "Proper name extraction from non-journalistic texts". Computational Linguistics in the Netherlands 2000 (به انگلیسی): 147–159. doi:10.1163/9789004333901_011.
  8. "Patents". Scientific American. 10 (258supp): 4118–4118. 1880-12-11. doi:10.1038/scientificamerican12111880-4118csupp. ISSN 0036-8733.
  9. Zhai, Haijun; Lingren, Todd; Deleger, Louise; Li, Qi; Kaiser, Megan; Stoutenborough, Laura; Solti, Imre (2013-04-02). "Web 2.0-Based Crowdsourcing for High-Quality Gold Standard Development in Clinical Natural Language Processing". Journal of Medical Internet Research (به انگلیسی). 15 (4): e2426. doi:10.2196/jmir.2426.
  10. Baldwin, Timothy; de Marneffe, Marie-Catherine; Han, Bo; Kim, Young-Bum; Ritter, Alan; Xu, Wei (2015). "Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition" (به انگلیسی). Association for Computational Linguistics: 126–135. doi:10.18653/v1/W15-4319. {{cite journal}}: Cite journal requires |journal= (help)
  11. Han, Aaron Li-Feng; Zeng, Xiaodong; Wong, Derek F.; Chao, Lidia S. (2015-07). Yu, Liang-Chih; Sui, Zhifang; Zhang, Yue; Ng, Vincent (eds.). "Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model". Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing. Beijing, China: Association for Computational Linguistics: 15–20. doi:10.18653/v1/W15-3103. {{cite journal}}: Check date values in: |date= (help)
  12. Mihalcea, Rada; Csomai, Andras (2007-11-06). "Wikify! linking documents to encyclopedic knowledge". Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. CIKM '07. New York, NY, USA: Association for Computing Machinery: 233–242. doi:10.1145/1321440.1321475. ISBN 978-1-59593-803-9.