SlideShare a Scribd company logo
Автоматическое выделение коллокаций М.В. Хохлова Кафедра математической лингвистики Факультет филологии и искусств Санкт-Петербургский государственный университет Институт лингвистических исследований РАН [email_address]
парадигматические  vs.  синтагматические отношения; совместная встречаемость; устойчивость; «Устойчивость сочетания относительно данного элемента измеряется вероятностью, с которой данный элемент предсказывает совместное появление остальных элементов сочетания (в определенном порядке относительно предсказывающего элемента» [Мельчук 1960: 73]
Информация об устойчивых сочетаниях не всегда последовательно отражается в толковых словарях . Граница между устойчивыми и свободными сочетаниями слов определяется достаточно субъективно . Порог устойчивости .
Коллокация (1) Коллокация –  1)  отношение между отдельными лексическими элементами в пределах синтаксической единицы ( The concise Oxford dictionary of linguistics  ) ; 2)  отношение, при котором  слова обычно (традиционно) употребляются вместе Ex .:  My  computer   hates  me ;   blond hair ,  as drunk as a lord .  Коллокация – это встречаемость двух или более слов в тексте на небольшом расстоянии друг относительно друга ( Sinclair  1991: 170); Коллокации данного слова – это указания того, где оно обычно, или традиционно, встречается ( Firth  1968: 181).  Коллокация – склонность слова к некоему окружению.
Коллокация (2) Коллокация – это несвободное, нефразеологическое, а привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка. Одним из ключевых свойств коллокаций является «невозможность предсказания таких сочетаний на основе значений входящих в них компонентов» [Борисова 1995а: 13].
Коллокация (3) частотные списки; диапазон; node –  ключевое слово collocate  – слово, встречающееся слева или справа от ключевого, коллокат
Мера  MI (mutual information , взаимной информации ) где  MI = mutual information; n –  ключевое   слово ; c  – коллокат; f ( n , c ) – частота встречаемости ключевого слова  n  в паре с коллокатом  с ; f ( n ),  f ( c ) – абсолютные (независимые) частоты ключевого слова  n  и слова  c  в корпусе (тексте); N  – общее число словоформ в корпусе (тексте).
Мера  t-score где n –  ключевое   слово ; c  – коллокат; f ( n , c ) – частота встречаемости ключевого слова  n  в паре с коллокатом  с ; f ( n ),  f ( c ) – абсолютные (независимые) частоты ключевого слова  n  и слова  c  в корпусе (тексте); N  – общее число словоформ в корпусе (тексте).
Log-likelihood где n –  ключевое   слово ; c  – коллокат; f ( n , c ) – частота встречаемости ключевого слова  n  в паре с коллокатом  с ; f ( n ),  f ( c ) – абсолютные (независимые) частоты ключевого слова  n  и слова  c  в корпусе (тексте); N  – общее число словоформ в корпусе (тексте).
Collocate   Corpus Freq   Joint Freq  Significance acutronics   3 3   10.661263 warsash   7 4 9.853828 calistoga   9 4 9.491222 pulteney   7 3 9.438749 repot   8 3 9.246085 kabuki   18 6 9.076143 autojumble   26 8 8.960654 equinox   45 13 8.869671 harbingers   23 6 8.722471 pulmonaria   13 3 8.545575 appalachian   22 5 8.523547 prune   146 28 8.278556 onions   421 80 8.265276 radish   20 3 7.924025 snowflake   23 3   7.722371 cabbage   248   30   7.613654 h5   25 3   7.602065 rite   88 10   7.523447 cabbages   62 7   7.514108 frosts   99   11   7.491022 Collocate   Corpus Freq   Joint Freq   Significance in   765730 1230 21.579153 early 13074 223 14.392161 the 2313407 2063 13.945517 summer 7201 186 13.311897 autumn 3160 156 12.333651 winter 4190 151 12.077496 late 8377 130 10.947733 next 23175 132 10.242625 flowers 2952 88 9.186370 onions 421   80 8.915185 last 45548 125 8.662813 until 16813 80 7.782663 [p] 753638 643 6.991340 and 1129483 907 6.940583 flowering   539   45   6.658551 spring 3573 46   6.456783 mind 11052 52   6.263996 during 17418 58   6.202442 loaded 606 37   6.021198 water 13608 50   5.881829 Пример результата для слова  spring  (упорядочены по значению  MI) Пример результата для слова  spring  (упорядочены по значению  t - score )
Корпусы текстов для поиска коллокаций http://www.collins.co.uk/Corpus/CorpusSearch.aspx
Корпусы текстов для поиска коллокаций http://corpus1.leeds.ac.uk/ruscorpora.html
Корпусы текстов для поиска коллокаций http://aot.ru/demo/bigrams.html
Корпусы текстов для поиска коллокаций  (Sketch Engine)
Корпусы текстов для поиска коллокаций  (Sketch Engine)
Спасибо за внимание!

More Related Content

PDF
Антон Ланцов. Язык J
PPTX
Claim mei 2011
PDF
Введение в проблематику ИИ
PDF
Лингвисты в поле (Linguists in the field)
PDF
Ян Малаховски. Введение в Agda
PPT
«Зачем», «что» и «как» в исследовании коллокаций.
PPT
collocations in search
PPT
Словари словосочетаний
Антон Ланцов. Язык J
Claim mei 2011
Введение в проблематику ИИ
Лингвисты в поле (Linguists in the field)
Ян Малаховски. Введение в Agda
«Зачем», «что» и «как» в исследовании коллокаций.
collocations in search
Словари словосочетаний

Similar to Collocation Extraction (8)

PDF
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
PDF
Лукьяненко. Извлечение коллокаций из текста
PDF
Constr spb2015
PPT
лекция 5 тема 1
PPTX
применение шаблонов при выделении 2коллокаций
PPT
Двуязычные словари
PPTX
Корпус современного американского английского
PDF
Фвтоматическая кластеризация значений многозначных слов
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Лукьяненко. Извлечение коллокаций из текста
Constr spb2015
лекция 5 тема 1
применение шаблонов при выделении 2коллокаций
Двуязычные словари
Корпус современного американского английского
Фвтоматическая кластеризация значений многозначных слов
Ad

More from NLPseminar (20)

PPTX
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
PPTX
Events
PPTX
Tomita
PPT
бетин
PDF
Andreev
PPTX
клышинский
PDF
конф ии и ея гаврилова
PPTX
кудрявцев V3
PPT
rubashkin
PPTX
Vlasova
PDF
Ageev
PPSX
Khomitsevich
PPTX
акинина осмоловская
PDF
Serebryakov
PPT
потапов
PPT
molchanov(promt)
PDF
белканова
PDF
Skatov
PPTX
гвоздикин
PPT
веселов
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Events
Tomita
бетин
Andreev
клышинский
конф ии и ея гаврилова
кудрявцев V3
rubashkin
Vlasova
Ageev
Khomitsevich
акинина осмоловская
Serebryakov
потапов
molchanov(promt)
белканова
Skatov
гвоздикин
веселов
Ad

Collocation Extraction

  • 1. Автоматическое выделение коллокаций М.В. Хохлова Кафедра математической лингвистики Факультет филологии и искусств Санкт-Петербургский государственный университет Институт лингвистических исследований РАН [email_address]
  • 2. парадигматические vs. синтагматические отношения; совместная встречаемость; устойчивость; «Устойчивость сочетания относительно данного элемента измеряется вероятностью, с которой данный элемент предсказывает совместное появление остальных элементов сочетания (в определенном порядке относительно предсказывающего элемента» [Мельчук 1960: 73]
  • 3. Информация об устойчивых сочетаниях не всегда последовательно отражается в толковых словарях . Граница между устойчивыми и свободными сочетаниями слов определяется достаточно субъективно . Порог устойчивости .
  • 4. Коллокация (1) Коллокация – 1) отношение между отдельными лексическими элементами в пределах синтаксической единицы ( The concise Oxford dictionary of linguistics ) ; 2) отношение, при котором слова обычно (традиционно) употребляются вместе Ex .: My computer hates me ; blond hair , as drunk as a lord . Коллокация – это встречаемость двух или более слов в тексте на небольшом расстоянии друг относительно друга ( Sinclair 1991: 170); Коллокации данного слова – это указания того, где оно обычно, или традиционно, встречается ( Firth 1968: 181). Коллокация – склонность слова к некоему окружению.
  • 5. Коллокация (2) Коллокация – это несвободное, нефразеологическое, а привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка. Одним из ключевых свойств коллокаций является «невозможность предсказания таких сочетаний на основе значений входящих в них компонентов» [Борисова 1995а: 13].
  • 6. Коллокация (3) частотные списки; диапазон; node – ключевое слово collocate – слово, встречающееся слева или справа от ключевого, коллокат
  • 7. Мера MI (mutual information , взаимной информации ) где MI = mutual information; n – ключевое слово ; c – коллокат; f ( n , c ) – частота встречаемости ключевого слова n в паре с коллокатом с ; f ( n ), f ( c ) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
  • 8. Мера t-score где n – ключевое слово ; c – коллокат; f ( n , c ) – частота встречаемости ключевого слова n в паре с коллокатом с ; f ( n ), f ( c ) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
  • 9. Log-likelihood где n – ключевое слово ; c – коллокат; f ( n , c ) – частота встречаемости ключевого слова n в паре с коллокатом с ; f ( n ), f ( c ) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте); N – общее число словоформ в корпусе (тексте).
  • 10. Collocate Corpus Freq Joint Freq Significance acutronics 3 3 10.661263 warsash 7 4 9.853828 calistoga 9 4 9.491222 pulteney 7 3 9.438749 repot 8 3 9.246085 kabuki 18 6 9.076143 autojumble 26 8 8.960654 equinox 45 13 8.869671 harbingers 23 6 8.722471 pulmonaria 13 3 8.545575 appalachian 22 5 8.523547 prune 146 28 8.278556 onions 421 80 8.265276 radish 20 3 7.924025 snowflake 23 3 7.722371 cabbage 248 30 7.613654 h5 25 3 7.602065 rite 88 10 7.523447 cabbages 62 7 7.514108 frosts 99 11 7.491022 Collocate Corpus Freq Joint Freq Significance in 765730 1230 21.579153 early 13074 223 14.392161 the 2313407 2063 13.945517 summer 7201 186 13.311897 autumn 3160 156 12.333651 winter 4190 151 12.077496 late 8377 130 10.947733 next 23175 132 10.242625 flowers 2952 88 9.186370 onions 421 80 8.915185 last 45548 125 8.662813 until 16813 80 7.782663 [p] 753638 643 6.991340 and 1129483 907 6.940583 flowering 539 45 6.658551 spring 3573 46 6.456783 mind 11052 52 6.263996 during 17418 58 6.202442 loaded 606 37 6.021198 water 13608 50 5.881829 Пример результата для слова spring (упорядочены по значению MI) Пример результата для слова spring (упорядочены по значению t - score )
  • 11. Корпусы текстов для поиска коллокаций http://www.collins.co.uk/Corpus/CorpusSearch.aspx
  • 12. Корпусы текстов для поиска коллокаций http://corpus1.leeds.ac.uk/ruscorpora.html
  • 13. Корпусы текстов для поиска коллокаций http://aot.ru/demo/bigrams.html
  • 14. Корпусы текстов для поиска коллокаций (Sketch Engine)
  • 15. Корпусы текстов для поиска коллокаций (Sketch Engine)