Named-entity recognition
شناسایی موجودیتهای نامدار (NER) یکی از مراحل استخراج اطلاعات است که موجودیتهای نامدار را در متن بدون ساختار شناسایی و به دستههایی مانند نام افراد، سازمانها، مکانها و غیره طبقهبندی میکند. برای مثال، در جمله «علی در سال 1386، 300 سهم از شرکت کاله را خرید»، NER برچسبهای «[علی]فرد»، «[کاله]سازمان» و «[1386]زمان» را مشخص میکند. در این مثال، سه کلمه دستهبندی شدهاند[۱].
قویترین سیستمهای پیشرفته NER در زبان انگلیسی عملکردی نزدیک به انسان دارند[۲].
پلتفرمهای NER
[ویرایش]مهمترین پلتفرمهای برجسته NER شامل:
- GATE بهطور پیشفرض از تشخیص موجودیت نامگذاریشده (NER) در زبانها و حوزههای گوناگون پشتیبانی میکند. این قابلیت از طریق یک رابط گرافیکی کاربرپسند و API جاوا در دسترس است و بهراحتی قابل استفاده میباشد؛
- OpenNLP که از دو روش قاعدهمحور و روش آماری برای تشخیص موجودیت نامگذاریشده (NER) بهره میبرد؛
- SpaCy از یک NER آماری سریع استفاده میکند و همچنین دارای یک ابزار متنباز بصری برای نمایش موجودیتهای شناساییشده در متن است؛
- Transformers که از یادگیری عمیق برای طبقهبندی توکنها استفاده میکند[۳][۴].
ارزیابی
[ویرایش]برای ارزیابی عملکرد یک سیستم تشخیص موجودیت نامگذاریشده (NER)، معیارهای مختلفی تعریف شدهاند که از جمله رایجترین آنها، دقت (precision)، بازخوانی (recall) و امتیاز F1 هستند. بااینحال، چالشهایی در نحوه دقیق محاسبه این مقادیر وجود دارد که ارزیابی را پیچیده میکند.
این معیارهای آماری معمولاً در تشخیص خطاهای سیستم عملکرد قابل قبولی دارند. بااینحال، NER ممکن است به روشهای متعددی دچار خطا شود—هرچند بسیاری از این خطاها، کاملا خطا نیستند و نباید بهعنوان خطای کامل ارزیابی شوند.
رویکردها
[ویرایش]سیستمهای NER از دو رویکرد اصلی استفاده میکنند: روشهای مبتنی بر قوانین ادبی که دقت بالایی دارن اما این رویکرد پوشش کمی دارد و نیاز به ماهها کار تخصصی دارد. رویکرد دوم، مدلهای آماری است که به مجموعههای دادهای بزرگ که بصورت دستی برچسبگذاری شده باشند وابستهاند. روشهای نیمهنظارتی نیز برای کاهش نیاز به برچسبگذاری دستی توسعه یافتهاند[۵][۶].
مساله حوزه کاری
[ویرایش]سیستمهای NER در حوزههای مختلف عملکرد متفاوتی دارند و سیستمی که برای یک حوزه آموزش دیده است، در حوزههای دیگر عملکرد خوبی نخواهد داشت[۷]. مثلا در حوزههایی مانند روزنامهنگاری یا گزارشهای نظامی که برای آنها آموزش دیدهاند، بهترین نتیجه را میدهند، اما در حوزههای دیگر ضعیف عمل میکنند. از دهه 1990، توجه از متون خبری به متون غیررسمی مانند وبلاگها و رسانههای اجتماعی و همچنین حوزههای تخصصی مانند بیوانفورماتیک، که در آن شناسایی نامهای ژنها و مواد شیمیایی اهمیت دارد، معطوف شده است[۸].
چالشها و پژوهشهای کنونی
[ویرایش]با وجود پیشرفتهای چشمگیر در امتیازات MUC-7، مسئله NER همچنان حلنشده باقی مانده است. پژوهشها بر یادگیری نیمهنظارتی، بهبود عملکرد در حوزههای مختلف و شناسایی دقیقتر انواع موجودیتها متمرکز شدهاند. جمعسپاری به تولید برچسبنویسیهای با کیفیت کمک کرده[۹]، اما متون پرنویز مانند توییتر همچنان چالشبرانگیز هستند[۱۰]. رویکردهای جدید شامل مدلهای مبتنی بر گراف[۱۱] و «ویکیسازی»[۱۲] است که متن را به صفحات ویکیپدیا پیوند میدهد تا شناسایی موجودیتها دقیقتر شود.
منابع
[ویرایش]- ↑ Perzanowski, Dennis; Schultz, Alan C.; Adams, William; Marsh, Elaine; Bugajska, Magda (2001-01-01). "Building a Multimodal Human-Robot Interface". Fort Belvoir, VA.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ «MUC 7 Proceedings». www-nlpir.nist.gov. دریافتشده در ۲۰۲۵-۰۴-۲۳.
- ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA, USA: Association for Computational Linguistics. doi:10.18653/v1/2020.emnlp-demos.6.
- ↑ Kariampuzha, William Z.; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji (2023-02-28). "Precision information extraction for rare disease epidemiology at scale". Journal of Translational Medicine (به انگلیسی). 21 (1). doi:10.1186/s12967-023-04011-y. ISSN 1479-5876. PMC 9972634. PMID 36855134.
- ↑ Lin, Dekang; Wu, Xiaoyun (2009). "Phrase clustering for discriminative learning". Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2 - ACL-IJCNLP '09. Morristown, NJ, USA: Association for Computational Linguistics. 2: 1030. doi:10.3115/1690219.1690290.
- ↑ Nothman, Joel; Ringland, Nicky; Radford, Will; Murphy, Tara; Curran, James R. (2013-01). "Learning multilingual named entity recognition from Wikipedia". Artificial Intelligence (به انگلیسی). 194: 151–175. doi:10.1016/j.artint.2012.03.006.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Scheljhout, Carla (2001). "Proper name extraction from non-journalistic texts". Computational Linguistics in the Netherlands 2000 (به انگلیسی): 147–159. doi:10.1163/9789004333901_011.
- ↑ "Patents". Scientific American. 10 (258supp): 4118–4118. 1880-12-11. doi:10.1038/scientificamerican12111880-4118csupp. ISSN 0036-8733.
- ↑ Zhai, Haijun; Lingren, Todd; Deleger, Louise; Li, Qi; Kaiser, Megan; Stoutenborough, Laura; Solti, Imre (2013-04-02). "Web 2.0-Based Crowdsourcing for High-Quality Gold Standard Development in Clinical Natural Language Processing". Journal of Medical Internet Research (به انگلیسی). 15 (4): e2426. doi:10.2196/jmir.2426.
- ↑ Baldwin, Timothy; de Marneffe, Marie-Catherine; Han, Bo; Kim, Young-Bum; Ritter, Alan; Xu, Wei (2015). "Shared Tasks of the 2015 Workshop on Noisy User-generated Text: Twitter Lexical Normalization and Named Entity Recognition" (به انگلیسی). Association for Computational Linguistics: 126–135. doi:10.18653/v1/W15-4319.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Han, Aaron Li-Feng; Zeng, Xiaodong; Wong, Derek F.; Chao, Lidia S. (2015-07). Yu, Liang-Chih; Sui, Zhifang; Zhang, Yue; Ng, Vincent (eds.). "Chinese Named Entity Recognition with Graph-based Semi-supervised Learning Model". Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing. Beijing, China: Association for Computational Linguistics: 15–20. doi:10.18653/v1/W15-3103.
{{cite journal}}
: Check date values in:|date=
(help) - ↑ Mihalcea, Rada; Csomai, Andras (2007-11-06). "Wikify! linking documents to encyclopedic knowledge". Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. CIKM '07. New York, NY, USA: Association for Computing Machinery: 233–242. doi:10.1145/1321440.1321475. ISBN 978-1-59593-803-9.