Sketch Engine
- Медіафайли у Вікісховищі
Sketch Engine (англ. Sketch — ескіз; англ. Engine — двигун) — це програмне забезпечення для керування корпусами текстів та для аналізу текстів, розроблене компанією Lexical Computing Limited [Архівовано 9 квітня 2022 у Wayback Machine.] з 2003 року. Його мета — надати людям, які вивчають мовну поведінку (лексикографам, дослідникам з корпусної лінгвістики, перекладачам або тим, хто вивчає мову), можливість здійснювати пошук у великих текстових колекціях, роблячи складні та лінгвістично спрямовані пошукові запити. Sketch Engine отримав свою назву на честь однієї з ключових функцій, "нарис слова" (Word Sketch[en]): односторінковий, автоматичний підсумок граматичної та розмовної поведінки слова у даному корпусі текстів. Наразі він підтримує та надає корпуси понад 90 мовами[1].
Історія розвитку
Sketch Engine є продуктом компанії Lexical Computing Limited, заснованої в 2003-му році лексикографом і науковцем Адамом Кілгарріффом[2]. Він розпочав співпрацю з Павлом Рихли, вченим-комп'ютерником, який працює в Центрі обробки природних мов при Університеті Масарика[3] і розробником Manatee і Bonito (двох основних частин програмного пакета), і представив концепцію нарисів слова (англ. word sketches).
З того часу Sketch Engine є комерційним програмним забезпеченням, однак усі основні функції Manatee і Bonito, які були розроблені до 2003 року (і відтоді розширені), є вільно доступними за ліцензією GPL у пакеті NoSketch Engine. [Архівовано 7 травня 2016 у Wayback Machine.][голе посилання]
Особливості
- Нарис слова (word sketches[en]) – автоматичний підсумок граматичної та розмовної поведінки слова на одній сторінці
- Різниця в word sketch — порівнює та протиставляє два слова, аналізуючи їхнє зіставлення
- Розповсюджуваний Thesaurus — автоматизований тезаурус, який знаходить слова з подібним значенням або з'являються в тому ж/подібному контексті
- Пошук узгодженості — знаходить приклади словоформи, леми, фрази, тегу або складної структури
- Пошук спільної локації — аналіз спільної зустрічальності слів із відображенням найчастіших слів (до пошукового слова), які можна розглядати як кандидатів на збіг
- Списки слів — створює списки частот, які можна фільтрувати за складними критеріями
- n-grams — генерує частотні списки багатослівних виразів
- Термінологія / Вилучення ключових слів (як одномовних, так і двомовних) — автоматичне вилучення ключових слів і термінів із кількох слів із текстів (на основі частоти та лінгвістичних критеріїв)
- Діахронічний аналіз (Trends) — виявлення слів, частота вживання яких змінюється з часом (показати популярні слова)
- Побудова корпусу та керування ним — створюйте корпуси з Інтернету або завантажуйте тексти, включаючи тегування частини мови та лематизація, які можна використовувати як програмне забезпечення для аналізу даних
- Паралельний корпус (двомовний) — пошук прикладів перекладу (корпус EUR-Lex, корпус Europarl, корпус OPUS тощо) або створення паралельного корпусу з власних вирівняних текстів.
Опис
Sketch Engine складається з трьох основних компонентів: базової системи керування базою даних під назвою Manatee, веб-інтерфейсу пошуку під назвою Bonito та веб-інтерфейсу для створення корпусу та керування ним під назвою Corpus Architect.
Примітки
Посилання
- Список корпусів, доступних у Sketch Engine [Архівовано 31 березня 2022 у Wayback Machine.]
- www.sketchengine.eu — офіційний сайт «Sketch Engine».