Алгоритм, придуманный авторами этой научной работы, анализирует, сколько раз любое слово из текста встречается вместе с другими словами в рассказах и новостных сообщениях. Полученные данные впоследствии сравнивали. Таким образом, ученые разработали алгоритм, который позволяет компьютеру отличать новостные сообщения от художественных текстов, а именно рассказов.
Оказалось, что для вымышленных и правдивых текстов этот показатель заметно отличается. Исследователи проверили созданную ими методику при помощи 400 новостных заметок, случайным образом выбранных с новостного сайта, и 400 случайных рассказов из базы электронной библиотеки. Чтобы исключить влияние исторических особенностей языка, авторы выбирали для анализа произведения писателей XX века, передает .
Для новостных заметок точность угадывания составила 69,1 процента с погрешностью 1,22 процента, а для рассказов - 73,8 процента с погрешностью 5,15 процента.
Кстати, недавно другой коллектив ученых представил еще одну работу, в которой были продемонстрированы возможности использования компьютера для анализа текстов. Исследователи разработали алгоритм, при помощи которого компьютер смог расшифровать один из мертвых языков семитской группы за несколько часов.