Поиск неестественных текстов
description
Transcript of Поиск неестественных текстов
![Page 1: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/1.jpg)
Поиск неестественных текстов
Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский
Яндекс, Лаборатория комбинаторных и вероятностных методов
RCDL’2009
![Page 2: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/2.jpg)
Постановка задачи
Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.
![Page 3: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/3.jpg)
Машинная модификация
документа
• текст является результатом работы синонимайзера или иной системы уникализации контента;
• текст является результатом перевода с иностранного языка на русский.
![Page 4: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/4.jpg)
Пример работы синонимайзера
Однако потом пришла перестройка, а за ней – капитализм.
Однако далее пришла переделывание, а после ней – господин купон.
превращается в
Фраза
![Page 5: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/5.jpg)
Функция Cor
Пусть A и B – пара слов русского языка.
P(AB) – частота пары слов AB в русском языке, P(A) и P(B) – частоты слов A и B соответственно. Рассматриваются лишь 2000 самых частых слов.
Число Cor(A,B) измеряет характерность пары AB для языка.
)BP(
)ABP(
)AP(
)ABP()B,ACor(
![Page 6: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/6.jpg)
Распределение пар по CorЧетыре столбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами.
1> Cor ≥ 0.1 115 92 87 76
0.1> Cor ≥ 0.01 502 350 317 309
0.01> Cor ≥ 0.001 341 291 219 290
0.001> Cor ≥ 0.0001 98 148 73 159
0.0001> Cor ≥ 0.00001 12 18 19 39
0.00001> Cor ≥ 0.000001 2 3 2 6
Cor = 0 0 0 0 2
![Page 7: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/7.jpg)
Методы решения исходной задачи
1. Сравнение с данными из заведомо хороших текстов.
2. Машинное обучение с использованием гистограммы текста по Cor в качестве источника факторов.
![Page 8: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/8.jpg)
Сравнение с заведомо хорошими текстами
Пусть N(T) – число редких пар в T.
Для машинно сгенерированных или модифицированных текстов N(T) больше, чем для нормальных текстов примерно той же длины.
![Page 9: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/9.jpg)
Статистика P(T)
M(T) – среднее число редких пар в 10 ближайших к T по длине текстах T0, … , T9 из выборки хороших документов;
D(T) – дисперсия, соответствующая выборке чиселN(T0), … , N(T9).
)(/))()(()( TDTMTNTP
![Page 10: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/10.jpg)
Параметры длины
10 близких к T текстов выбираются в трехмерном пространстве параметров (L1, L2, L3) с евклидовой метрикой, где
L1 – число всех пар слов в T, L2 – число пар слов из 10000 самых частых слов русского языка, L3 – число пар слов из 2000 самых частых слов русского языка.
![Page 11: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/11.jpg)
Результаты – 1
P(T) было вычислено для:• 41298 текстов из базы ruscorpora, • 165 неестественных текстов.
Результаты: точность – 97.7%, полнота – 41.5%.
Критерий: P(T) ≥ 3.0.
![Page 12: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/12.jpg)
Машинное обучение
• Алгоритм: Gradient Boosting Machine (TreeNet);
• Обучающая выборка: 2000 оригинальных и 250 неестественных текстов;
• Тестовая выборка: 500 оригинальных и 245 неестественных текстов.
![Page 13: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/13.jpg)
• точность – 99.00%• полнота – 77.95%
• точность – 95.00%• полнота – 90.61%
Результаты – 2
![Page 14: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/14.jpg)
Сравнение с известными подходами
• Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly “Detecting spam web pages through content analysis”
• точность – 99.00%• полнота – 90.61%
• точность – 95.00%• полнота – 96.73%
![Page 15: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/15.jpg)
• точность – 99.00%• полнота – 93.06%
• точность – 95.00%• полнота – 97.95%
Совместные результаты
При ошибке в 1% ловится около четверти оставшегося спама
![Page 16: Поиск неестественных текстов](https://reader036.fdocuments.es/reader036/viewer/2022082407/56813028550346895d95b524/html5/thumbnails/16.jpg)
Спасибо!