Повнотекстовий пошук

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

При пошуці документів[en], повнотекстовий пошук належить до методів пошуку окремого документа або колекції в повнотекстовій базі даних[en]. Повнотекстовий пошук відрізняється від пошуку на основі метаданих або по окремих частинах оригінального тексту, які представлені в базах даних (таких як заголовки, анотації, окремі розділи, або бібліографія).

У повнотекстовому пошуці, пошуковик аналізує всі слова в кожному збереженому документі, та намагається відповідати критеріям пошуку (наприклад, тексту визначеному користувачем). Методи повнотекстового пошуку стали поширеним в онлайн бібліографічних базах даних в 1990-х роках.[перевірити] Багато вебсайтів і додатків (таких як текстові процесори) забезпечують можливості повнотекстового пошуку. Деякі рушії вебпошукових систем, таких як AltaVista, використовують методи повнотекстового пошуку, в той час, як інші індексують тільки частини вебсторінок, перевіряються їх системами індексації.[1]

Індексація[ред. | ред. код]

При роботі з невеликою кількістю документів, цілком можливо, при повнотекстовому пошуку перевірити вміст всіх документів для кожного запиту. Така стратегія називається «послідовним скануванням[en]». Це приклад того, що роблять деякі інструменти, такі як команда grep, при пошуку.

Однак, коли кількість документів для пошуку потенційно велика, або кількість пошукових запитів для виконання є істотною, проблему повнотекстового пошуку часто розділяють на дві задачі: індексування і пошук. На етапі індексації відбувається сканування тексту усіх документів і складається список пошукових термінів (він часто називається показником, але більш правильно називати узгодженням). На етапі пошуку, при виконанні певного запиту, використовуєть тільки індекс, а не текст оригіналу.[2]

Індексатор робить запис в індексі для кожного терміна або слова в документі, і, можливо, занотовує його відносне положення в документі. Зазвичай індексатор буде ігнорувати стоп-слова (такі як «або» та «і»), які є загальними і недостатньо значущіми, щоб бути корисними при пошуку. Деякі індексатори також використовують мовні скорочення слів, які індексуються. Наприклад, слова «копав», «копала», і «копали» будуть занесені в індекс під єдиною концепцією слова «копати».

Посилання[ред. | ред. код]

  1. На практиці може бути важко визначити, як працює пошукова система. Алгоритми пошуку, які фактично використовуються службами вебпошуку, рідко повністю розкриваються, для запобігання підвищення штучної популярності у списках пошуку за допомогою пошукової оптимізації сайту.
  2. Capabilities of Full Text Search System. Архів оригіналу за 23 грудня 2010. Процитовано 19 вересня 2018.