SlideShare a Scribd company logo
Âåðèôèêàöèÿ àâòîðîâ, èñïîëüçóÿ

                       ìíîãîìåðíûé ïîäõîä



      Authorship Verication, using the Multivariate Analysis Approach
                                   c   Å.Ñâåðäëîâ


                                         2009




                                       Àííîòàöèÿ
         Îïèñàí ìåòîä ðåøåíèÿ çàäà÷è âåðèôèêàöèè àâòîðîâ ïî ðóññêèì òåêñòàì,
      èñïîëüçóÿ ìíîãîìåðíûé ïîäõîä (Multivariate Analysis Approach).




1     Ïîñòàíîâêà çàäà÷è
Êîðîòêî  çàäà÷à ñòàâèòñÿ òàê: èìååòñÿ ñïèñîê àâòîðîâ è íàïèñàííûõ èìè òåêñòîâ.
Ïðèõîäÿùèé íîâûé òåêñò ïîäïèñàí îäíèì èç èìåí â ñïèñêå. Íóæíî âûÿñíèòü,
äåéñòâèòåëüíî ëè óêàçàííûé àâòîð íàïèñàë ýòîò òåêñò? Îïèñàíèå ýòîé çàäà÷è ìîæíî
âèäåòü òàêæå â [1, 2, 3, 4, 5, 6, 7] è ìíîãèõ äðóãèõ èñòî÷íèêàõ.



2     Ìåòîä
2.1    Îáùåå îïèñàíèå

Ìåòîä çàêëþ÷àåòñÿ â êîìáèíèðîâàíèè ðàçëè÷íûõ ñâîéñòâ òåêñòà ñ öåëüþ ðàçðåøåíèÿ
ïðîáëåìû àâòîðñòâà òåêñòà (â äàííîì ñëó÷àå, âåðèôèêàöèÿ àâòîðîâ). Ýòîò ìåòîä áûë
îïèñàí â [1].


2.2    Îïèñàíèå âèäà òåêñòîâ

Îöåíêà ìåòîäà ïðîèçâîäèëàñü òàê æå êàê è â [7]. Äëÿ ýêñïåðèìåíòîâ áûëè âçÿòû 261
ðóññêèé òåêñò (ôàíòàñòèêà), êàæäûé ≈100kB, ≈25 ñòðàíèö. Èç íèõ 180 ñ ñàéòà:
http://www.lib.ru/    
                      áèáëèîòåêà Ìàêñèìà Ìîøêîâà. Îñòàëüíûå, èç ñâîáîäíî
ðàñïðîñòðàíÿåìîãî èñòî÷íèêà òåêñòîâ. Ñîçäàíû áûëè 200 ìîäåëåé äëÿ 100 àâòîðîâ,
à òàêæå ìîäåëü ÿçûêà. Âî âñåõ òåêñòàõ ðåãèñòð áóêâ íå ó÷èòûâàëñÿ, áîëüøèå áóêâû
áûëè çàìåíåíû ìàëåíüêèìè, à òàêæå áûëà ñäåëàíà çàìåíà âñåõ ¼, œ íà å.
2.3    Òèïû ïàðàìåòðîâ

2.3.1 Óíèãðàììû áóêâ
Ðàññìîòðèì 10 íàèáîëåå ÷àñòîòíûõ áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà, è îäèí
çíàê:
à, â, ä, å, è, ê, ë, ì, í, î,,
ãäå - âñå áóêâû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ
â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ áóêâ, êðîìå óêàçàííûõ.
     Ïóñòü DU A - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà1 , âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 11 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.

2.3.2 Áèãðàììû áóêâ
Ðàññìîòðèì 46 íàèáîëåå ÷àñòîòíûõ ïàð áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà (¼
ñ÷èòàåì ðàâíûì å, ïîýòîìó âñåãî 1024 ïàðû áóêâ) è îäèí çíàê:
òî, íî, ñò, íà, íå, ïî, àë, ðà, êî, ðî, íè, ãî, ëè, åí, îò, åð, îâ, ïð, êà, îñ, ëî,
ðå, îë, âî, åë, òü, îð, îì, îí, ëà, çà, åò, èë, òà, âà, òå, âå, îä, îã, äå, ëå, ñÿ,
äà, àò, åñ, ðè, ,
ãäå - âñå ïàðû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ
â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð áóêâ, êðîìå óêàçàííûõ.
     Ïóñòü DBA - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 47 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.

2.3.3 Óíèãðàììû ÷àñòåé ðå÷è
Ðàññìîòðèì 5 íàèáîëåå ÷àñòîòíûõ ÷àñòåé ðå÷è (êðîìå ñîþçà) - íàéäåíû, èñïîëüçóÿ
ìîäåëü ÿçûêà, è îäèí çíàê:
ñóùåñòâèòåëüíîå, ãëàãîë, ïðè÷àñòèå, ïðåäëîã, ÷àñòèöà,         ,
ãäå   - âñå ÷àñòè ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü
ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ÷àñòåé ðå÷è, êðîìå
óêàçàííûõ.
    Ïóñòü DU P - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 6 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.

2.3.4 Áèãðàììû ÷àñòåé ðå÷è
Ðàññìîòðèì 23 íàèáîëåå ÷àñòîòíûå ïàðû ÷àñòåé ðå÷è - íàéäåíû, èñïîëüçóÿ ìîäåëü
ÿçûêà, è îäèí çíàê:
ïðåäëîã-ñóùåñòâèòåëüíîå, ïðèëàãàòåëüíîå-ñóùåñòâèòåëüíîå,
ñóùåñòâèòåëüíîå-ãëàãîë, ÷àñòèöà-ãëàãîë, ñóùåñòâèòåëüíîå-÷àñòèöà,
ñóùåñòâèòåëüíîå-ñóùåñòâèòåëüíîå, ãëàãîë-ïðåäëîã, ñóùåñòâèòåëüíîå-ïðåäëîã,
  1  Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòè
ðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x)  0}. Òîãäà
ðàññòîÿíèåì Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà
 (P, G) =    ln (p(x)/g(x)) P (dx) =       ln (p(x)/g(x))p(x) · µ(dx) [8]
          N                           N
Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi } èç N ýëåìåíòîâ
          P                       P



àíàëîãîì ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà
 (P, G) = i=1 [ln (p(xi )/g(xi )) p(xi )], ãäå ∀i = 1 . . . N p(xi ) = 0, g(xi ) = 0.
            N




                                              2
ãëàãîë-ñóùåñòâèòåëüíîå, ìåñòîèìåíèå-ãëàãîë, ãëàãîë-÷àñòèöà,
íàðå÷èå-ãëàãîë, ÷àñòèöà-ñóùåñòâèòåëüíîå, ÷àñòèöà-÷àñòèöà,
(ìåñòîèìåíèå_ïðèëàãàòåëüíîå)-ñóùåñòâèòåëüíîå, ïðåäëîã-ïðèëàãàòåëüíîå,
ãëàãîë-ãëàãîë, ãëàãîë-ìåñòîèìåíèå, ÷àñòèöà-íàðå÷èå, ÷àñòèöà-ìåñòîèìåíèå,
ïðåäëîã-ìåñòîèìåíèå, ñóùåñòâèòåëüíîå-íàðå÷èå,
ñóùåñòâèòåëüíîå-ïðèëàãàòåëüíîå, ,             2

ãäå - âñå ïàðû ÷àñòåé ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà(ñîîòâåòñòâåííî, è âåðîÿòíîñòü
ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð ÷àñòåé ðå÷è, êðîìå
óêàçàííûõ.
    Ïóñòü DBP - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 24 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.


2.3.5 Ðàñïðåäåëåíèå äëèí ñëîâ â áóêâàõ
Âñå ñëîâà ðàçáèâàåì íà 10 ãðóïï, èñïîëüçóÿ èõ äëèíó â áóêâàõ
(äëèíû îò 1 äî 9 - íàèáîëåå ÷àñòûå â ÿçûêå  íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):
äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,
äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà 10
    Ïóñòü DW C - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 10 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.


2.3.6 Ðàñïðåäåëåíèå äëèí ïðåäëîæåíèé â ñëîâàõ
Âñå ïðåäëîæåíèÿ ðàçáèâàåì íà 25 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ
(äëèíû îò 1 äî 24 - íàèáîëåå ÷àñòûå â ÿçûêå  íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):
äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,
äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà = 10,
äëèíà = 11, äëèíà = 12, äëèíà = 13, äëèíà = 14, äëèíà = 15,
äëèíà = 16, äëèíà = 17, äëèíà = 18, äëèíà = 19, äëèíà = 20,
äëèíà = 21, äëèíà = 22, äëèíà = 23, äëèíà = 24, äëèíà 25
    Ïóñòü DSW - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 25 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.


2.3.7 Ðàñïðåäåëåíèå äëèí ïàðàãðàôîâ â ïðåäëîæåíèÿõ
Âñå ïàðàãðàôû ðàçáèâàåì íà 7 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ
(äëèíû îò 1 äî 6 - íàèáîëåå ÷àñòûå â ÿçûêå  íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà):
äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5,
äëèíà = 6, äëèíà 7
    Ïóñòü DP S - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà
ðàñïðåäåëåíèÿõ ýòèõ 7 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.

  2ïðèëàãàòåëüíîå èìååò 3 ñòåïåíè ñðàâíåíèÿ: íàïðèìåð,   ïðî÷íûé, ïðî÷íåå, ïðî÷íåéøèé       .
Çäåñü, ïðèëàãàòåëüíûå â ñðàâíèòåëüíîé è ïðåâîñõîäíîé ñòåïåíÿõ ìû íå áåðåì. Ìåñòîèìåíèå ìîæåò
áûòü êàê ìåñòîèìåíèåì_ñóùåñòâèòåëüíûì( ), òàê è ìåñòîèìåíèåì_ïðèëàãàòåëüíûì(
                                         îí                                       íèêàêîé ).
                                              3
2.3.8 Ïðîñòåéøèå õàðàêòåðèñòèêè ñëîâ
      • Ýìîöèîíàëüíûå ñëîâà.
        DE = |ES − EK |/EL , ãäå ES , EK , EL - âåðîÿòíîñòè ïîÿâëåíèÿ ýìîöèîíàëüíûõ
        ñëîâ [9] â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

      • Âîçâðàòíûå ãëàãîëû.
        DV = |VS −VK |/VL , ãäå VS , VK , VL - âåðîÿòíîñòè ïîÿâëåíèÿ âîçâðàòíûõ ãëàãîëîâ
        [9] â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

      • Ãëàãîëû ñîâåðøåííîãî âèäà.
        DP = |PS −PK |/PL , ãäå PS , PK , PL - âåðîÿòíîñòè ïîÿâëåíèÿ ãëàãîëîâ ñîâåðøåííîãî
        âèäà â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî.

2.3.9 Ëåêñè÷åñêèé çàïàñ
Õîòåëîñü áû îöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà, èñõîäÿ èç äàííîãî òåêñòà. (Â
äàííîì ñëó÷àå ïðåäñòàâëÿåòñÿ âîçìîæíûì îöåíèòü òîëüêî êîëè÷åñòâî ñëîâ, êîòîðîå
ìîæåò áûòü óïîòðåáëåíî â òåêñòàõ îïðåäåëåííîãî òèïà. Çäåñü - ðóññêèé ÿçûê,
ôàíòàñòèêà). Ôîðìàëüíî, ýòî ìîæíî ñôîðìóëèðîâàòü òàê:
Ïóñòü M - êîíå÷íîå ìíîæåñòâî. Èç ýòîãî ìíîæåñòâà ïîñëåäîâàòåëüíî âûáèðàåì è
âîçâðàùàåì ïî îäíîìó ýëåìåíòó (äëÿ êàæäîãî ýëåìåíòà âåðîÿòíîñòü âûáîðà ðàâíà
1/|M |  ýëåìåíòû ìîãóò áûòü âûáðàíû ðàâíîâåðîÿòíî), ò.å. åñòü ñëó÷àéíàÿ ôóíêöèÿ
èç íàòóðàëüíûõ3 ÷èñåë â M  ξ : N → M . Ïóñòü f : N → N - ÷èñëî ðàçëè÷íûõ
ýëåìåíòîâ, âûáðàííûõ èç M íà êàæäîì øàãå, à g : N → N - ìèíèìàëüíîå ÷èñëî
øàãîâ, ïîñëå êîòîðûõ âûáðàíî íóæíîå ÷èñëî ðàçëè÷íûõ ýëåìåíòîâ.
Òîãäà f (n) ≈ |M | · (1 − e−n/|M | ), g(n) ≈ −|M | · ln(1 − n/|M |)
Ïîêàæåì ýòî:4
Ñïåðâà ñäåëàåì ýòî äëÿ g . Äîïóñòèì g : R → N, ò.å. äëèíà òåêñòà íåîáÿçàòåëüíî
äîëæíà áûòü öåëûì ÷èñëîì, çàìåíèì âñå íàòóðàëüíûå ÷èñëà íà âåùåñòâåííûå.
Èìåííî ýòî ïðèâîäèò íå ê ñòðîãîìó(=), à ïðèáëèæåííîìó(≈) ðàâåíñòâó. Ëåãêî
ïîíÿòü, ÷òî
                                dg(x)       1
                                      =
                                  dx    1 − x/|M |
Ïîëó÷èëè î÷åíü ïðîñòîå äèôôåðåíöèàëüíîå óðàâíåíèå. Åãî ðåøåíèåì ÿâëÿåòñÿ
g(x) = |M | · ln(1 − x/|M |); ïåðåõîäÿ îáðàòíî ê öåëûì ÷èñëàì ïîëó÷àåì âòîðîå
ïðèáëèæåííîå ðàâåíñòâî. f (x) = g(x)−1  îòñþäà, ïåðâîå ïðèáëèæåííîå ðàâåíñòâî.
Ãðàôèê ôóíêöèè f (n) âûãëÿäèò ïðèìåðíî òàê: (Ðèñ. 1). Áóäåì ñ÷èòàòü, ÷òî òåêñòû
ñëó÷àéíû. Åñëè ïðèíÿòü çà M ìíîæåñòâî âñåõ ñëîâ5 , òî ïîÿâëÿåòñÿ âîçìîæíîñòü
îöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà (íà ñàìîì äåëå, òîëüêî êîëè÷åñòâî ñëîâ, êîòîðûå
÷åëîâåê ñìîã áû óïîòðåáèòü â ïîäîáíîãî ðîäà òåêñòå) - ïîëó÷èì ÷èñëî L6 . Àíàëîãè÷íî,
ìîæíî îöåíèòü ÷èñëî ñóùåñòâèòåëüíûõ - S, ãëàãîëîâ - V, ïðèëàãàòåëüíûõ1 7 - A1 ,
  3  çäåñü íàòóðàëüíûå ÷èñëà íóìåðóþòñÿ ñ 1, ò.å N = {1, 2, 3, . . .}.
  4  ýòî íå àêêóðàòíûé âûâîä, à òîëüêî åãî ñõåìà , íî ïðè íåîáõîäèìîñòè ìîæíî ïåðåâåñòè ýòó
ñõåìó â àêêóðàòíûé âûâîä.
   5 ïîä ñëîâîì ïîíèìàåì ëåêñåìó.
   6 çäåñü ñëîâàðíûé çàïàñ ñîñòàâèë ≈ 5000 ñëîâ.
   7 íå â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè



                                              4
Ðèñ. 1: Ãðàôèê ôóíêöèè f (n)


ïðèëàãàòåëüíûõ2 8 - A2 , íàðå÷èé - D, ïðè÷àñòèé - P, ïðåäëîãîâ - R, ÷àñòèö - M,
êîëè÷åñòâåííûõ ÷èñëèòåëüíûõ - C, ïîðÿäêîâûõ ÷èñëèòåëüíûõ - O, ìåñòîèìåíèé_ïðèëàãàòåëüíûõ
- J. Íîðìèðóåì ýòè 12 ÷èñåë, ïðîñòî ïîäåëèâ êàæäîå èç íèõ íà èõ ñóììó.
     Ïóñòü DCH - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Õåëëèíãåðà9 , âçÿòûé íà ýòèõ ðàñïðåäåëåíèÿõ
ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ.



3       Ðåçóëüòàò
Èñïîëüçóÿ îïèñàííûå â 2.3 ïàðàìåòðû, ìîæíî çàäàòü ôóíêöèþ:


  D(t1 , t2 ) = 2·DU A (t1 , t2 )+2·DBA (t1 , t2 )+0,3 DU P (t1 , t2 )+0,15·DBP (t1 , t2 )+0,03·DW C (t1 , t2 )+
 +0,06·DSW (t1 , t2 )+0,03·DP S (t1 , t2 )+0,01·DE (t1 , t2 )+0,03·DV (t1 , t2 )+0,02·DP (t1 , t2 )+
 + 0,5 · DCH (t1 , t2 )
                                                                                                  (1)


t1 , t2  ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû, ñîîòâåòñòâåííî.
Èëè â 11-ìåðíîì ïðîñòðàíñòâå, ãäå êàæäîé ðàçìåðíîñòè ñîîòâåòñâóþò
DU A , DBA , DU P , DBP , DW C , DSW , DP S , DE , DV , DP , DCH 




    â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè
    8
    9Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòè
ðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x)  0}.,
NG - íîñèòåëü ðàñïðåäåëåíèÿ G : NG = {x : g(x)  0}. Òîãäà ðàññòîÿíèåì Õåëëèíãåðà ìåæäó
ðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà
 (P, G) =       ( p(x) − g(x))2 · µ(dx)[8]
          N   N
Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi } èç N ýëåìåíòîâ
          P    G



àíàëîãîì ðàññòîÿíèåì Õåëëèíãåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà
 (P, G) = i=1 ( p(x) − g(x))2 , ãäå ∀i = 1 . . . N p(xi ) = 0, g(xi ) = 0.
            N




                                                  5
 
                                                                  2
                                                               2 
                                                                    
                                                               0,3 
                                                                    
                                                               0,15 
                                                                    
                                                               0,03 
    ãèïåðïëîñêîñòü N · X = Θ ÿâëÿåòñÿ îòäåëÿþùåé, ãäå N =  0,06  ,
                                                                    
                                                                    
                                                               0,03 
                                                                    
                                                               0,01 
                                                                    
                                                               0,03 
                                                                    
                                                               0,02 
                                                                 0,5
à X = D(T1 , T2 ), ãäå T1 è T2 - ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû.10 Ïðîâåäÿ,
àíàëîãè÷íî [7] ýêñïåðèìåíò, ïîëó÷èì ROC11 , èçîáðàæåííóþ íà ðèñóíêå 2.



Èñïîëüçóÿ îöåíêó äîâåðèòåëüíûõ èíòåðâàëîâ              [10] 

c âåðîÿòíîñòüþ 0,95        EER = 0,16 ± 0,04,     Θ = 0,036 ± 0,007.



4         Çàêëþ÷åíèå
Áûëè ñäåëàíû ñëåäóþùèå äîïóùåíèÿ:
         • ïðåäïîëàãàåì, ÷òî ðàññìàòðèâàåìûå òåêñòû ñëó÷àéíû.
         • ïðåäïîëàãàåì, ÷òî îòäåëÿþùèì àâòîðîâ ìíîæåñòâîì ÿâëÿåòñÿ ãèïåðïëîñêîñòü
           N · X = Θ.
         • ïðåäïîëàãàåì, ÷òî ðàçìåðû òåêñòîâ ≈25 ñòðàíèö, ò.å. òåêñòû áîëüøèå.
Êðîìå òîãî, âåêòîð íîðìàëè ãèïåðïëîñêîñòè N , áûë íàéäåí ðóêàìè , ïîýòîìó
ðåçóëüòàò íå ÿâëÿåòñÿ ëó÷øèì. Âîçìîæíî, ïðè áîëåå êà÷åñòâåííîì âûáîðå
îòäåëÿþùåãî ìíîæåñòâà ðåçóëüòàò áûë áû ëó÷øå. Îäíîé èç âîçìîæíîñòåé ïîèñêà
ýòîãî ìíîæåñòâà áûëî áû èñïîëüçîâàíèå ñàìîîáó÷àþùèõñÿ ñèñòåì. Ñóùåñòâóåò áîëüøîå
êîëè÷åñòâî ðàáîò â ýòîé îáëàñòè  [11, 12, 13, 14, 15] è äð.
Øèðîêî ïðèìåíÿþòñÿ ñàìîîáó÷àþùèåñÿ ñèñòåìû è â îáëàñòè
Authorship Attribution  [1, 16, 17] è äð.
Èíòåðåñ ïðåäñòàâëÿåò, òàêæå, óìåíüøåíèå ðàçìåðîâ òåêñòîâ.
Âîçìîæíî òàêæå, óäàñòñÿ óëó÷øèòü ðåçóëüòàò, óñèëèâ àíàëèç âíóòðåííåé ñòðóêòóðû
òåêñòà, ò.ê. â ðåàëüíîñòè òåêñòû íå ÿâëÿþòñÿ ñëó÷àéíûìè.
     Åñëè N · X Θ, òî ñ÷èòàåì, ÷òî ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû íàïèñàíû îäíèì
    10
àâòîðîì, â ïðîòèâíîì ñëó÷àå  ðàçíûìè.
  11 ROC(Region of operating curve) - êðèâàÿ çàâèñèìîñòè FAR îò FRR.
FAR (False Acceptance Rate)  ïðîïóñê öåëè èëè âåðîÿòíîñòü òîãî, ÷òî ÷óæîé áóäåò ïðèíÿò çà
ñâîåãî.
FRR (False Rejection Rate)  ëîæíàÿ òðåâîãà èëè âåðîÿòíîñòü òîãî, ÷òî ñâîé áóäåò ïðèíÿò çà
÷óæîãî.
EER (Equal Error Rate)  òî÷êà ðàâåíñòâà FAR è FRR.
                                              6
Ðèñ. 2: ROC




     7
Ñïèñîê ëèòåðàòóðû
 [1] Moshe Koppel, Jonathan Schler, Shlomo Argamon. Computational Methods in
     Authorship Attribution. 2009.

 [2] Hans van Halteren. Linguistic Proling for Author Recognition and Verication.

 [3] Moshe Koppel, Jonathan Schler. Authorship Verication as a One-Class Classication
     Problem.

 [4] Daniel Pavelec, Luiz S. Oliveira, Edson Justino, Leonardo V. Batista. Using
     Conjunctions and Adverbs for Author Verication. 2008.

 [5] Benno Stein, Nedim Lipka, Sven Meyer zu Eissen. Meta Analysis within Authorship
     Verication. 2008.

 [6] Kim Luyckx, Walter Daelemans. Authorship Attribution and Verication with Many
     Authors and Limited Data. 2008.

 [7] Ñâåðäëîâ Å. Âåðèôèêàöèÿ àâòîðîâ ïðè ïîìîùè ñðàâíåíèÿ ñòàòèñòè÷åñêèõ
     õàðàêòåðèñòèê òåêñòîâ. 2009.

 [8] Áîðîâêîâ À.À. Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì., Èçä-âî ôèçèêî-ìàòåìàòè÷åñêîé
     ëèòåðàòóðû, 1984.

 [9] http://www.artint.ru/projects/frqlist.asp.×àñòîòíûé
     ñëîâàðü(Øàðîâ Ñ.À.). 2001.

[10] Øàïîðåâ Ñ.Ä. Ïðèêëàäíàÿ ñòàòèñòèêà. ÑÏá, Áàëòèéñêèé ãîñóäàðñòâåííûé
     òåõíè÷åñêèé óíèâåðñèòåò, 2003.

[11] Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Second Edition.
     Springer-Verlag New York, Inc. 1999.

[12] Vladimir N. Vapnik. Statistical learulng theory. Second Edition. Jolm Wiley  Sons,
     Inc. 1998.

[13] Òàðõîâ Ä.À. Íàó÷íàÿ ñåðèÿ Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå.Íåéðîííûå
     ñåòè, ìîäåëè è àëãîðèòìû. Ì., ÈÏÐÆÐ, 2005.

[14] Ãàëóøêèí À.È. Íàó÷íàÿ ñåðèÿ Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå.Òåîðèÿ
     íåéðîííûõ ñèñòåì. Ì., ÈÏÐÆÐ, 2000.

[15] Ãîëîâêî Â.À. Íåéðîííûå ñåòè: îáó÷åíèå, îðãàíèçàöèÿ è ïðèìåíåíèå. Ì.,
     ÈÏÐÆÐ, 2000.

[16] Daniel Pavelec, Edson Justino, and Luiz S. Oliveira. Author Identication using
     Stylometric Features. Inteligencia Articial, Revista Iberoamericana de Inteligencia
     Articial. Vol 11, No 36 (2007), pp. 59-65.

[17] Patrick Juola. Authorship Attribution. Foundations and Trends     in Information
     Retrieval Vol. 1, No. 3 (2006), 233334.


                                           8

More Related Content

PDF
Проектирование и анализ расписания движения поездов на основе макс-плюс алгеб...
PDF
решебник и гдз по математике за 1 класс петерсон, 2011 год
PDF
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
PDF
основы квалификации преступений
PDF
geom_9_merzlyak
PDF
9 геом мерзляк_полонский_2009_рус
PDF
Систематизация двухмерных моделей в краткосрочном бизнес-образовании
PDF
8 a i 2016_ros
Проектирование и анализ расписания движения поездов на основе макс-плюс алгеб...
решебник и гдз по математике за 1 класс петерсон, 2011 год
гдз. 1 класс. к учебн. дорофеева, миракова 2011 104с
основы квалификации преступений
geom_9_merzlyak
9 геом мерзляк_полонский_2009_рус
Систематизация двухмерных моделей в краткосрочном бизнес-образовании
8 a i 2016_ros

What's hot (11)

PDF
9 алг мерзляк_полонский_2009_рус
PDF
решебник и гдз по математике за 1 класс моро, 2011 год
PDF
PDF
8 g i 2016
PDF
1275 математика. справочник. 2013 -160с
PDF
20130216 machinelearning khachay_lecture01
PDF
34909 53238e8eb3a8661792a40171069d2379
PDF
Òîãòìîë ã¿éäëèéí ìàøèíû á¿òýö õèéö
PDF
Òðàíñôîðìàòîðûí àæèëëàõ çàð÷èì
PDF
5mm2013 130913045236-phpapp02
PDF
решебник и гдз по математике за 1 класс истомина, 2011 год
9 алг мерзляк_полонский_2009_рус
решебник и гдз по математике за 1 класс моро, 2011 год
8 g i 2016
1275 математика. справочник. 2013 -160с
20130216 machinelearning khachay_lecture01
34909 53238e8eb3a8661792a40171069d2379
Òîãòìîë ã¿éäëèéí ìàøèíû á¿òýö õèéö
Òðàíñôîðìàòîðûí àæèëëàõ çàð÷èì
5mm2013 130913045236-phpapp02
решебник и гдз по математике за 1 класс истомина, 2011 год
Ad

Viewers also liked (20)

PPTX
Presentatie dag 1
PPTX
акинина осмоловская
PPT
Intro to Social Media Academy
PPTX
2011.08 marketing principles
PPTX
Sustainability 04 CESA
PDF
Schulich MBA 4 Myths of Digital Marketing
PPTX
Smacad hiring asmm-2011
PPSX
Khomitsevich
PDF
SemanticAnalyzer
PDF
Mobilize Donors in Digital
PPTX
Boekpresentatie (HAN)
PPTX
MM.2011.2.2
PPT
потапов
PPTX
Workshop sociale media voor Facilitair Bedrijf
PDF
S3 Buzz Marketing For Startups
PDF
Studietaak Zoeken En Vinden
PDF
これからの「アジャイル」の話をしよう ――今を生き延びるための開発手法とスキル (関西バージョン)
PPTX
2011.04 Marketing Management
PPT
00 summer research-global-economies
PDF
Presentatie dag 1
акинина осмоловская
Intro to Social Media Academy
2011.08 marketing principles
Sustainability 04 CESA
Schulich MBA 4 Myths of Digital Marketing
Smacad hiring asmm-2011
Khomitsevich
SemanticAnalyzer
Mobilize Donors in Digital
Boekpresentatie (HAN)
MM.2011.2.2
потапов
Workshop sociale media voor Facilitair Bedrijf
S3 Buzz Marketing For Startups
Studietaak Zoeken En Vinden
これからの「アジャイル」の話をしよう ――今を生き延びるための開発手法とスキル (関西バージョン)
2011.04 Marketing Management
00 summer research-global-economies
Ad

More from NLPseminar (20)

PPTX
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
PPTX
Events
PPTX
Tomita
PPT
бетин
PDF
Andreev
PPTX
клышинский
PDF
конф ии и ея гаврилова
PPTX
кудрявцев V3
PPT
rubashkin
PPTX
Vlasova
PDF
Ageev
PDF
Serebryakov
PPT
molchanov(promt)
PDF
белканова
PDF
Skatov
PPTX
гвоздикин
PPT
веселов
PPTX
Mitsov
PPT
Maleev
PPTX
Compreno_Starostin
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
Events
Tomita
бетин
Andreev
клышинский
конф ии и ея гаврилова
кудрявцев V3
rubashkin
Vlasova
Ageev
Serebryakov
molchanov(promt)
белканова
Skatov
гвоздикин
веселов
Mitsov
Maleev
Compreno_Starostin

Mult An App

  • 1. Âåðèôèêàöèÿ àâòîðîâ, èñïîëüçóÿ ìíîãîìåðíûé ïîäõîä Authorship Verication, using the Multivariate Analysis Approach c Å.Ñâåðäëîâ 2009 Àííîòàöèÿ Îïèñàí ìåòîä ðåøåíèÿ çàäà÷è âåðèôèêàöèè àâòîðîâ ïî ðóññêèì òåêñòàì, èñïîëüçóÿ ìíîãîìåðíûé ïîäõîä (Multivariate Analysis Approach). 1 Ïîñòàíîâêà çàäà÷è Êîðîòêî çàäà÷à ñòàâèòñÿ òàê: èìååòñÿ ñïèñîê àâòîðîâ è íàïèñàííûõ èìè òåêñòîâ. Ïðèõîäÿùèé íîâûé òåêñò ïîäïèñàí îäíèì èç èìåí â ñïèñêå. Íóæíî âûÿñíèòü, äåéñòâèòåëüíî ëè óêàçàííûé àâòîð íàïèñàë ýòîò òåêñò? Îïèñàíèå ýòîé çàäà÷è ìîæíî âèäåòü òàêæå â [1, 2, 3, 4, 5, 6, 7] è ìíîãèõ äðóãèõ èñòî÷íèêàõ. 2 Ìåòîä 2.1 Îáùåå îïèñàíèå Ìåòîä çàêëþ÷àåòñÿ â êîìáèíèðîâàíèè ðàçëè÷íûõ ñâîéñòâ òåêñòà ñ öåëüþ ðàçðåøåíèÿ ïðîáëåìû àâòîðñòâà òåêñòà (â äàííîì ñëó÷àå, âåðèôèêàöèÿ àâòîðîâ). Ýòîò ìåòîä áûë îïèñàí â [1]. 2.2 Îïèñàíèå âèäà òåêñòîâ Îöåíêà ìåòîäà ïðîèçâîäèëàñü òàê æå êàê è â [7]. Äëÿ ýêñïåðèìåíòîâ áûëè âçÿòû 261 ðóññêèé òåêñò (ôàíòàñòèêà), êàæäûé ≈100kB, ≈25 ñòðàíèö. Èç íèõ 180 ñ ñàéòà: http://www.lib.ru/ áèáëèîòåêà Ìàêñèìà Ìîøêîâà. Îñòàëüíûå, èç ñâîáîäíî ðàñïðîñòðàíÿåìîãî èñòî÷íèêà òåêñòîâ. Ñîçäàíû áûëè 200 ìîäåëåé äëÿ 100 àâòîðîâ, à òàêæå ìîäåëü ÿçûêà. Âî âñåõ òåêñòàõ ðåãèñòð áóêâ íå ó÷èòûâàëñÿ, áîëüøèå áóêâû áûëè çàìåíåíû ìàëåíüêèìè, à òàêæå áûëà ñäåëàíà çàìåíà âñåõ ¼, œ íà å.
  • 2. 2.3 Òèïû ïàðàìåòðîâ 2.3.1 Óíèãðàììû áóêâ Ðàññìîòðèì 10 íàèáîëåå ÷àñòîòíûõ áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà, è îäèí çíàê: à, â, ä, å, è, ê, ë, ì, í, î,, ãäå - âñå áóêâû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ áóêâ, êðîìå óêàçàííûõ. Ïóñòü DU A - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà1 , âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 11 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.2 Áèãðàììû áóêâ Ðàññìîòðèì 46 íàèáîëåå ÷àñòîòíûõ ïàð áóêâ - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà (¼ ñ÷èòàåì ðàâíûì å, ïîýòîìó âñåãî 1024 ïàðû áóêâ) è îäèí çíàê: òî, íî, ñò, íà, íå, ïî, àë, ðà, êî, ðî, íè, ãî, ëè, åí, îò, åð, îâ, ïð, êà, îñ, ëî, ðå, îë, âî, åë, òü, îð, îì, îí, ëà, çà, åò, èë, òà, âà, òå, âå, îä, îã, äå, ëå, ñÿ, äà, àò, åñ, ðè, , ãäå - âñå ïàðû, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð áóêâ, êðîìå óêàçàííûõ. Ïóñòü DBA - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 47 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.3 Óíèãðàììû ÷àñòåé ðå÷è Ðàññìîòðèì 5 íàèáîëåå ÷àñòîòíûõ ÷àñòåé ðå÷è (êðîìå ñîþçà) - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà, è îäèí çíàê: ñóùåñòâèòåëüíîå, ãëàãîë, ïðè÷àñòèå, ïðåäëîã, ÷àñòèöà, , ãäå - âñå ÷àñòè ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà (ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ÷àñòåé ðå÷è, êðîìå óêàçàííûõ. Ïóñòü DU P - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 6 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.4 Áèãðàììû ÷àñòåé ðå÷è Ðàññìîòðèì 23 íàèáîëåå ÷àñòîòíûå ïàðû ÷àñòåé ðå÷è - íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà, è îäèí çíàê: ïðåäëîã-ñóùåñòâèòåëüíîå, ïðèëàãàòåëüíîå-ñóùåñòâèòåëüíîå, ñóùåñòâèòåëüíîå-ãëàãîë, ÷àñòèöà-ãëàãîë, ñóùåñòâèòåëüíîå-÷àñòèöà, ñóùåñòâèòåëüíîå-ñóùåñòâèòåëüíîå, ãëàãîë-ïðåäëîã, ñóùåñòâèòåëüíîå-ïðåäëîã, 1 Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòè ðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x) 0}. Òîãäà ðàññòîÿíèåì Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà (P, G) = ln (p(x)/g(x)) P (dx) = ln (p(x)/g(x))p(x) · µ(dx) [8] N N Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi } èç N ýëåìåíòîâ P P àíàëîãîì ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà (P, G) = i=1 [ln (p(xi )/g(xi )) p(xi )], ãäå ∀i = 1 . . . N p(xi ) = 0, g(xi ) = 0. N 2
  • 3. ãëàãîë-ñóùåñòâèòåëüíîå, ìåñòîèìåíèå-ãëàãîë, ãëàãîë-÷àñòèöà, íàðå÷èå-ãëàãîë, ÷àñòèöà-ñóùåñòâèòåëüíîå, ÷àñòèöà-÷àñòèöà, (ìåñòîèìåíèå_ïðèëàãàòåëüíîå)-ñóùåñòâèòåëüíîå, ïðåäëîã-ïðèëàãàòåëüíîå, ãëàãîë-ãëàãîë, ãëàãîë-ìåñòîèìåíèå, ÷àñòèöà-íàðå÷èå, ÷àñòèöà-ìåñòîèìåíèå, ïðåäëîã-ìåñòîèìåíèå, ñóùåñòâèòåëüíîå-íàðå÷èå, ñóùåñòâèòåëüíîå-ïðèëàãàòåëüíîå, , 2 ãäå - âñå ïàðû ÷àñòåé ðå÷è, êðîìå óêàçàííûõ - ÷àñòîòà(ñîîòâåòñòâåííî, è âåðîÿòíîñòü ïîÿâëåíèÿ â òåêñòå) ðàâíà ñóììå ÷àñòîò(âåðîÿòíîñòåé) âñåõ ïàð ÷àñòåé ðå÷è, êðîìå óêàçàííûõ. Ïóñòü DBP - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 24 çíàêîâ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.5 Ðàñïðåäåëåíèå äëèí ñëîâ â áóêâàõ Âñå ñëîâà ðàçáèâàåì íà 10 ãðóïï, èñïîëüçóÿ èõ äëèíó â áóêâàõ (äëèíû îò 1 äî 9 - íàèáîëåå ÷àñòûå â ÿçûêå íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà): äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5, äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà 10 Ïóñòü DW C - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 10 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.6 Ðàñïðåäåëåíèå äëèí ïðåäëîæåíèé â ñëîâàõ Âñå ïðåäëîæåíèÿ ðàçáèâàåì íà 25 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ (äëèíû îò 1 äî 24 - íàèáîëåå ÷àñòûå â ÿçûêå íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà): äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5, äëèíà = 6, äëèíà = 7, äëèíà = 8, äëèíà = 9, äëèíà = 10, äëèíà = 11, äëèíà = 12, äëèíà = 13, äëèíà = 14, äëèíà = 15, äëèíà = 16, äëèíà = 17, äëèíà = 18, äëèíà = 19, äëèíà = 20, äëèíà = 21, äëèíà = 22, äëèíà = 23, äëèíà = 24, äëèíà 25 Ïóñòü DSW - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 25 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2.3.7 Ðàñïðåäåëåíèå äëèí ïàðàãðàôîâ â ïðåäëîæåíèÿõ Âñå ïàðàãðàôû ðàçáèâàåì íà 7 ãðóïï, èñïîëüçóÿ èõ äëèíó â ñëîâàõ (äëèíû îò 1 äî 6 - íàèáîëåå ÷àñòûå â ÿçûêå íàéäåíû, èñïîëüçóÿ ìîäåëü ÿçûêà): äëèíà = 1, äëèíà = 2, äëèíà = 3, äëèíà = 4, äëèíà = 5, äëèíà = 6, äëèíà 7 Ïóñòü DP S - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Êóëüáàêà-Ëåéáëåðà, âçÿòûé íà ðàñïðåäåëåíèÿõ ýòèõ 7 ãðóïï ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 2ïðèëàãàòåëüíîå èìååò 3 ñòåïåíè ñðàâíåíèÿ: íàïðèìåð, ïðî÷íûé, ïðî÷íåå, ïðî÷íåéøèé . Çäåñü, ïðèëàãàòåëüíûå â ñðàâíèòåëüíîé è ïðåâîñõîäíîé ñòåïåíÿõ ìû íå áåðåì. Ìåñòîèìåíèå ìîæåò áûòü êàê ìåñòîèìåíèåì_ñóùåñòâèòåëüíûì( ), òàê è ìåñòîèìåíèåì_ïðèëàãàòåëüíûì( îí íèêàêîé ). 3
  • 4. 2.3.8 Ïðîñòåéøèå õàðàêòåðèñòèêè ñëîâ • Ýìîöèîíàëüíûå ñëîâà. DE = |ES − EK |/EL , ãäå ES , EK , EL - âåðîÿòíîñòè ïîÿâëåíèÿ ýìîöèîíàëüíûõ ñëîâ [9] â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî. • Âîçâðàòíûå ãëàãîëû. DV = |VS −VK |/VL , ãäå VS , VK , VL - âåðîÿòíîñòè ïîÿâëåíèÿ âîçâðàòíûõ ãëàãîëîâ [9] â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî. • Ãëàãîëû ñîâåðøåííîãî âèäà. DP = |PS −PK |/PL , ãäå PS , PK , PL - âåðîÿòíîñòè ïîÿâëåíèÿ ãëàãîëîâ ñîâåðøåííîãî âèäà â ïîäîçðèòåëüíîì , èçâåñòíîì òåêñòàõ è ÿçûêå, ñîîòâåòñòâåííî. 2.3.9 Ëåêñè÷åñêèé çàïàñ Õîòåëîñü áû îöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà, èñõîäÿ èç äàííîãî òåêñòà. ( äàííîì ñëó÷àå ïðåäñòàâëÿåòñÿ âîçìîæíûì îöåíèòü òîëüêî êîëè÷åñòâî ñëîâ, êîòîðîå ìîæåò áûòü óïîòðåáëåíî â òåêñòàõ îïðåäåëåííîãî òèïà. Çäåñü - ðóññêèé ÿçûê, ôàíòàñòèêà). Ôîðìàëüíî, ýòî ìîæíî ñôîðìóëèðîâàòü òàê: Ïóñòü M - êîíå÷íîå ìíîæåñòâî. Èç ýòîãî ìíîæåñòâà ïîñëåäîâàòåëüíî âûáèðàåì è âîçâðàùàåì ïî îäíîìó ýëåìåíòó (äëÿ êàæäîãî ýëåìåíòà âåðîÿòíîñòü âûáîðà ðàâíà 1/|M | ýëåìåíòû ìîãóò áûòü âûáðàíû ðàâíîâåðîÿòíî), ò.å. åñòü ñëó÷àéíàÿ ôóíêöèÿ èç íàòóðàëüíûõ3 ÷èñåë â M ξ : N → M . Ïóñòü f : N → N - ÷èñëî ðàçëè÷íûõ ýëåìåíòîâ, âûáðàííûõ èç M íà êàæäîì øàãå, à g : N → N - ìèíèìàëüíîå ÷èñëî øàãîâ, ïîñëå êîòîðûõ âûáðàíî íóæíîå ÷èñëî ðàçëè÷íûõ ýëåìåíòîâ. Òîãäà f (n) ≈ |M | · (1 − e−n/|M | ), g(n) ≈ −|M | · ln(1 − n/|M |) Ïîêàæåì ýòî:4 Ñïåðâà ñäåëàåì ýòî äëÿ g . Äîïóñòèì g : R → N, ò.å. äëèíà òåêñòà íåîáÿçàòåëüíî äîëæíà áûòü öåëûì ÷èñëîì, çàìåíèì âñå íàòóðàëüíûå ÷èñëà íà âåùåñòâåííûå. Èìåííî ýòî ïðèâîäèò íå ê ñòðîãîìó(=), à ïðèáëèæåííîìó(≈) ðàâåíñòâó. Ëåãêî ïîíÿòü, ÷òî dg(x) 1 = dx 1 − x/|M | Ïîëó÷èëè î÷åíü ïðîñòîå äèôôåðåíöèàëüíîå óðàâíåíèå. Åãî ðåøåíèåì ÿâëÿåòñÿ g(x) = |M | · ln(1 − x/|M |); ïåðåõîäÿ îáðàòíî ê öåëûì ÷èñëàì ïîëó÷àåì âòîðîå ïðèáëèæåííîå ðàâåíñòâî. f (x) = g(x)−1 îòñþäà, ïåðâîå ïðèáëèæåííîå ðàâåíñòâî. Ãðàôèê ôóíêöèè f (n) âûãëÿäèò ïðèìåðíî òàê: (Ðèñ. 1). Áóäåì ñ÷èòàòü, ÷òî òåêñòû ñëó÷àéíû. Åñëè ïðèíÿòü çà M ìíîæåñòâî âñåõ ñëîâ5 , òî ïîÿâëÿåòñÿ âîçìîæíîñòü îöåíèòü ëåêñè÷åñêèé çàïàñ ÷åëîâåêà (íà ñàìîì äåëå, òîëüêî êîëè÷åñòâî ñëîâ, êîòîðûå ÷åëîâåê ñìîã áû óïîòðåáèòü â ïîäîáíîãî ðîäà òåêñòå) - ïîëó÷èì ÷èñëî L6 . Àíàëîãè÷íî, ìîæíî îöåíèòü ÷èñëî ñóùåñòâèòåëüíûõ - S, ãëàãîëîâ - V, ïðèëàãàòåëüíûõ1 7 - A1 , 3 çäåñü íàòóðàëüíûå ÷èñëà íóìåðóþòñÿ ñ 1, ò.å N = {1, 2, 3, . . .}. 4 ýòî íå àêêóðàòíûé âûâîä, à òîëüêî åãî ñõåìà , íî ïðè íåîáõîäèìîñòè ìîæíî ïåðåâåñòè ýòó ñõåìó â àêêóðàòíûé âûâîä. 5 ïîä ñëîâîì ïîíèìàåì ëåêñåìó. 6 çäåñü ñëîâàðíûé çàïàñ ñîñòàâèë ≈ 5000 ñëîâ. 7 íå â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè 4
  • 5. Ðèñ. 1: Ãðàôèê ôóíêöèè f (n) ïðèëàãàòåëüíûõ2 8 - A2 , íàðå÷èé - D, ïðè÷àñòèé - P, ïðåäëîãîâ - R, ÷àñòèö - M, êîëè÷åñòâåííûõ ÷èñëèòåëüíûõ - C, ïîðÿäêîâûõ ÷èñëèòåëüíûõ - O, ìåñòîèìåíèé_ïðèëàãàòåëüíûõ - J. Íîðìèðóåì ýòè 12 ÷èñåë, ïðîñòî ïîäåëèâ êàæäîå èç íèõ íà èõ ñóììó. Ïóñòü DCH - äèñêðåòíûé àíàëîã ðàññòîÿíèÿ Õåëëèíãåðà9 , âçÿòûé íà ýòèõ ðàñïðåäåëåíèÿõ ó ïîäîçðèòåëüíîãî è èçâåñòíîãî òåêñòîâ. 3 Ðåçóëüòàò Èñïîëüçóÿ îïèñàííûå â 2.3 ïàðàìåòðû, ìîæíî çàäàòü ôóíêöèþ: D(t1 , t2 ) = 2·DU A (t1 , t2 )+2·DBA (t1 , t2 )+0,3 DU P (t1 , t2 )+0,15·DBP (t1 , t2 )+0,03·DW C (t1 , t2 )+ +0,06·DSW (t1 , t2 )+0,03·DP S (t1 , t2 )+0,01·DE (t1 , t2 )+0,03·DV (t1 , t2 )+0,02·DP (t1 , t2 )+ + 0,5 · DCH (t1 , t2 ) (1) t1 , t2 ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû, ñîîòâåòñòâåííî. Èëè â 11-ìåðíîì ïðîñòðàíñòâå, ãäå êàæäîé ðàçìåðíîñòè ñîîòâåòñâóþò DU A , DBA , DU P , DBP , DW C , DSW , DP S , DE , DV , DP , DCH â ñðàâíèòåëüíîé èëè ïðåâîñõîäíîé ñòåïåíè 8 9Ïóñòü P è G - äâà àáñîëþòíî íåïðåðûâíûõ ðàñïðåäåëåíèÿ îòíîñèòåëüíî ìåðû µ. Èõ ïëîòíîñòè ðàâíû, ñîîòâåòñòâåííî, p(x) è g(x). NP - íîñèòåëü ðàñïðåäåëåíèÿ P : NP = {x : p(x) 0}., NG - íîñèòåëü ðàñïðåäåëåíèÿ G : NG = {x : g(x) 0}. Òîãäà ðàññòîÿíèåì Õåëëèíãåðà ìåæäó ðàñïðåäåëåíèÿìè P è G íàçûâàåòñÿ âåëè÷èíà (P, G) = ( p(x) − g(x))2 · µ(dx)[8] N N Ñîîòâåòñòâåííî, äëÿ äèñêðåòíûõ ðàñïðåäåëåíèé, çàäàííûõ íà ìíîæåñòâå {xi } èç N ýëåìåíòîâ P G àíàëîãîì ðàññòîÿíèåì Õåëëèíãåðà ìåæäó ðàñïðåäåëåíèÿìè P è G ÿâëÿåòñÿ âåëè÷èíà (P, G) = i=1 ( p(x) − g(x))2 , ãäå ∀i = 1 . . . N p(xi ) = 0, g(xi ) = 0. N 5
  • 6.   2  2     0,3     0,15     0,03  ãèïåðïëîñêîñòü N · X = Θ ÿâëÿåòñÿ îòäåëÿþùåé, ãäå N =  0,06  ,      0,03     0,01     0,03     0,02  0,5 à X = D(T1 , T2 ), ãäå T1 è T2 - ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû.10 Ïðîâåäÿ, àíàëîãè÷íî [7] ýêñïåðèìåíò, ïîëó÷èì ROC11 , èçîáðàæåííóþ íà ðèñóíêå 2. Èñïîëüçóÿ îöåíêó äîâåðèòåëüíûõ èíòåðâàëîâ [10] c âåðîÿòíîñòüþ 0,95 EER = 0,16 ± 0,04, Θ = 0,036 ± 0,007. 4 Çàêëþ÷åíèå Áûëè ñäåëàíû ñëåäóþùèå äîïóùåíèÿ: • ïðåäïîëàãàåì, ÷òî ðàññìàòðèâàåìûå òåêñòû ñëó÷àéíû. • ïðåäïîëàãàåì, ÷òî îòäåëÿþùèì àâòîðîâ ìíîæåñòâîì ÿâëÿåòñÿ ãèïåðïëîñêîñòü N · X = Θ. • ïðåäïîëàãàåì, ÷òî ðàçìåðû òåêñòîâ ≈25 ñòðàíèö, ò.å. òåêñòû áîëüøèå. Êðîìå òîãî, âåêòîð íîðìàëè ãèïåðïëîñêîñòè N , áûë íàéäåí ðóêàìè , ïîýòîìó ðåçóëüòàò íå ÿâëÿåòñÿ ëó÷øèì. Âîçìîæíî, ïðè áîëåå êà÷åñòâåííîì âûáîðå îòäåëÿþùåãî ìíîæåñòâà ðåçóëüòàò áûë áû ëó÷øå. Îäíîé èç âîçìîæíîñòåé ïîèñêà ýòîãî ìíîæåñòâà áûëî áû èñïîëüçîâàíèå ñàìîîáó÷àþùèõñÿ ñèñòåì. Ñóùåñòâóåò áîëüøîå êîëè÷åñòâî ðàáîò â ýòîé îáëàñòè [11, 12, 13, 14, 15] è äð. Øèðîêî ïðèìåíÿþòñÿ ñàìîîáó÷àþùèåñÿ ñèñòåìû è â îáëàñòè Authorship Attribution [1, 16, 17] è äð. Èíòåðåñ ïðåäñòàâëÿåò, òàêæå, óìåíüøåíèå ðàçìåðîâ òåêñòîâ. Âîçìîæíî òàêæå, óäàñòñÿ óëó÷øèòü ðåçóëüòàò, óñèëèâ àíàëèç âíóòðåííåé ñòðóêòóðû òåêñòà, ò.ê. â ðåàëüíîñòè òåêñòû íå ÿâëÿþòñÿ ñëó÷àéíûìè. Åñëè N · X Θ, òî ñ÷èòàåì, ÷òî ïîäîçðèòåëüíûé è èçâåñòíûé òåêñòû íàïèñàíû îäíèì 10 àâòîðîì, â ïðîòèâíîì ñëó÷àå ðàçíûìè. 11 ROC(Region of operating curve) - êðèâàÿ çàâèñèìîñòè FAR îò FRR. FAR (False Acceptance Rate) ïðîïóñê öåëè èëè âåðîÿòíîñòü òîãî, ÷òî ÷óæîé áóäåò ïðèíÿò çà ñâîåãî. FRR (False Rejection Rate) ëîæíàÿ òðåâîãà èëè âåðîÿòíîñòü òîãî, ÷òî ñâîé áóäåò ïðèíÿò çà ÷óæîãî. EER (Equal Error Rate) òî÷êà ðàâåíñòâà FAR è FRR. 6
  • 8. Ñïèñîê ëèòåðàòóðû [1] Moshe Koppel, Jonathan Schler, Shlomo Argamon. Computational Methods in Authorship Attribution. 2009. [2] Hans van Halteren. Linguistic Proling for Author Recognition and Verication. [3] Moshe Koppel, Jonathan Schler. Authorship Verication as a One-Class Classication Problem. [4] Daniel Pavelec, Luiz S. Oliveira, Edson Justino, Leonardo V. Batista. Using Conjunctions and Adverbs for Author Verication. 2008. [5] Benno Stein, Nedim Lipka, Sven Meyer zu Eissen. Meta Analysis within Authorship Verication. 2008. [6] Kim Luyckx, Walter Daelemans. Authorship Attribution and Verication with Many Authors and Limited Data. 2008. [7] Ñâåðäëîâ Å. Âåðèôèêàöèÿ àâòîðîâ ïðè ïîìîùè ñðàâíåíèÿ ñòàòèñòè÷åñêèõ õàðàêòåðèñòèê òåêñòîâ. 2009. [8] Áîðîâêîâ À.À. Ìàòåìàòè÷åñêàÿ ñòàòèñòèêà. Ì., Èçä-âî ôèçèêî-ìàòåìàòè÷åñêîé ëèòåðàòóðû, 1984. [9] http://www.artint.ru/projects/frqlist.asp.×àñòîòíûé ñëîâàðü(Øàðîâ Ñ.À.). 2001. [10] Øàïîðåâ Ñ.Ä. Ïðèêëàäíàÿ ñòàòèñòèêà. ÑÏá, Áàëòèéñêèé ãîñóäàðñòâåííûé òåõíè÷åñêèé óíèâåðñèòåò, 2003. [11] Vladimir N. Vapnik. The Nature of Statistical Learning Theory. Second Edition. Springer-Verlag New York, Inc. 1999. [12] Vladimir N. Vapnik. Statistical learulng theory. Second Edition. Jolm Wiley Sons, Inc. 1998. [13] Òàðõîâ Ä.À. Íàó÷íàÿ ñåðèÿ Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå.Íåéðîííûå ñåòè, ìîäåëè è àëãîðèòìû. Ì., ÈÏÐÆÐ, 2005. [14] Ãàëóøêèí À.È. Íàó÷íàÿ ñåðèÿ Íåéðîêîìïüþòåðû è èõ ïðèìåíåíèå.Òåîðèÿ íåéðîííûõ ñèñòåì. Ì., ÈÏÐÆÐ, 2000. [15] Ãîëîâêî Â.À. Íåéðîííûå ñåòè: îáó÷åíèå, îðãàíèçàöèÿ è ïðèìåíåíèå. Ì., ÈÏÐÆÐ, 2000. [16] Daniel Pavelec, Edson Justino, and Luiz S. Oliveira. Author Identication using Stylometric Features. Inteligencia Articial, Revista Iberoamericana de Inteligencia Articial. Vol 11, No 36 (2007), pp. 59-65. [17] Patrick Juola. Authorship Attribution. Foundations and Trends in Information Retrieval Vol. 1, No. 3 (2006), 233334. 8