Башкирская Википедия через призму
компьютерно-лингвистического анализа

От редакции
ТЧК стали викиучными с появлением русской Википедии в 2002, но мы объявили об этом лишь в 2018, через 5 лет после выхода викиучной статьи Бориса Орехова. И публикуем ее только сейчас, в преддверии Дня Знаний и 35 годовщины со дня выхода I тома ТЧК. Считаем, что автор преподнес нам подарок, предложив эту публикацию. Мы благодарны Борису Орехову, автору многочисленных научных публикаций в серьезных лингвистических источниках, опубликовавшему это исследование только на своем сайте: нас часто упрекают в сплошном копипасте. Мы считаем эту публикацию оригинальной.

e-lub
29 Aug 21

УДК 800:81`42

Иконка: Аннотация Борис Орехов

Башкирская Википедия

Интернет-энциклопедия Википедия представляет собой ценнейший источник сведений; прежде всего, сведений об окружающем мире. Особенный интерес этого ресурса в том, что он создаётся энтузиастами и потому открытый и бесплатный. Википедия создаётся одновременно на многих языках, и для башкирского языка соответствующий раздел энциклопедии имеет особенный статус как один из основных сайтов на башкирском, а, следовательно, как одна из крупнейших оцифрованных текстовых коллекций на этом языке. В наших отчётах о мониторинге башнета мы уже говорили о том, какое место башкирская Википедия занимает в башкирском сегменте Интернета.
Иконка: К содержанию

Количественное описание

По состоянию на 22 августа 2013 башкирский раздел Википедии содержит 30694 статьи. Зарегистрировано 8673 участника, из них 39 совершили какое-либо действие за последние 30 дней, 8 участников имеют статус администратора. Общее число правок составляет 410845.

Занимает 77 место по количеству статей среди всех разделов. По количеству статей, которые должны быть в каждом разделе Википедии, башкирский раздел занимает 102 место.
Иконка: К содержанию

Данные о Википедии

#
Код
Язык
Статей
Страниц
Правок
Участников/в т.ч. активных
77
30694
7.9
64873
410845
8672/39

Взятая в совокупности башкирская Википедия содержит 13889117 символов с пробелами или 12023002 символа без пробелов. В этом массиве точка встречается 181418 раз, а запятая 124100 раз. Собственно слов на башкирском языке насчитывается 1734031. Таким образом, средняя длина башкирского слова в символах составляет 6,38.

Средняя длина слова в слогах составляет 2,68. При этом слов чётной длины 939901, т.е. 54,20%, слов нечётной длины, соответственно, 749734 и 43,24%.

Более детально:

      1-сложное: 187661   11,11%,
      2-сложное: 594278   33,17%,
      3-сложное: 496657   29,37%,
      4-сложное: 313168   18,53%,
      5-сложное:   62654     3,71%,
      6-сложное:   31844     1,88%,
      7-сложное:     2626     0,16%,
      8-сложное:       611     0,04%,
      9-сложное:       136     0,01%.

 
Наиболее длинные слова:

      автобиографияһынан,
      автобиографияһында,
      агломерацияларының,
      антидемократическая,
      ассимиляциялаштырылған,
      ассоциациялаштырыла,
      базельуниверситетына,
      высокотехнологичные,
      геннотерапевтического,
      гидромеханизациялау,
      гидроэлектростанциялар,
      гидроэлектростанцияларҙа,
      гидроэлектростанцияларҙың
      деидеологизации,
      демилитаризацияланған,
      демобилизацияланып,
      деревообрабатывающая,
      детерминацияланмаған,
      диалектологияһының,
      задокументированную,
      идентификацияланған,
      идентификацияланғандар,
      интернационализация,
      исемдәгепровинцияһының,
      квалификацияларына,
      классификациялағанда,
      классификациялағандағы,
      классификациялаштырыусы,
      кодификациялаштырылған,
      кодификациялаштырылмаған,
      концентрационлагерҙарға,
      көнсығышфилософияһының,
      көтмәгәндәсәләмәтлеге,
      лабораторияларында,
      лесоперерабатывающее,
      механизациялаштыра,
      механизациялаштырыу,
      микобактерияларына,
      мобилизацияланыуын,
      модификацияланғанға,
      модификацияланмаған,
      нацияинациональная,
      николаевкайылғаһының,
      палеонтологическими,
      радиокомпаниеһында,
      реабилитациялана,
      реабилитацияланған,
      реабилитацияланғандан,
      революционерҙарына,
      регенерацияланғандарға,
      региондаметталлургия,
      рекомбинацияләнгәндә,
      реорганизацияланған,
      реорганизациялауҙан,
      самофинансирование,
      санэпидемстанцияһында,
      специализацияларҙы,
      специализациялары,
      специализацияһының,
      стилдәгеархитектуравәкиле,
      телерадиокомпание,
      телерадиокомпаниеһы,
      телерадиокомпаниеһында,
      характеристикаларына,
      характеристикаларының,
      цивилизацияларының,
      электростанцияһындағы,
      электроэнергетикала,
      юриспруденцияһындағы.

Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается:

         слов твердого варианта:       934870   53,91%,
         слов мягкого варианта:         494902   28,54%,
         слов смешанного варианта: 304259   17,55%
 

Здесь представлен частотный список двухбуквенных сочетаний.

Анализ лексики продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью некоторых лексем, списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без обвязки. Тем не менее, вершину частотного списка словоформ заняли значимые слова

         йылға,
         бассейны,
         һыу,
 

в то время как ожидавшиеся на этих позициях служебные слова не поднялись выше VII и VIII места. По всей видимости, нужно учитывать, что из более чем 30000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой ботозаливки, т.е. автоматизированного создания страниц и загрузки или изменения информации на страницах. В правилах русской Википедии отмечается, что ботостатьи — это

массовое создание однотипных статей, не требующих творческого вклада автора, с помощью специальных программ или вручную. Однотипными являются статьи на одну и ту же тему, содержащие минимум авторского вклада, которые создаются по заранее написанному шаблону с подстановкой в него данных, доступных по совместимой с Википедией лицензией. Массовыми являются заливки однотипных статей в количестве более 30 штук в быстром темпе — начиная от 15 — 20 статей в сутки. Однако даже если создание статей идёт в меньшем темпе, но имеются обоснованные претензии к их содержанию, необходимо приостановить массовое создание статей и приступить к поиску консенсуса. Также заливкой следует считать массовый перенос в Википедию статей из энциклопедий и справочников, перешедших в общественное достояние или распространяемых на условиях свободных лицензий, совместимых с CC-BY-SA.
     Заливки статей допустимы только после предварительного обсуждения и одобрения сообществом.

Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.

Слова состоят из 11057755 букв. Частотный список букв выглядит следующим образом:

Буква
Количество
Буква
Количество
Буква
Количество
Буква
Количество
а
1253934
ы
1007270
л
739682
н
701853
ә
603839
е
570352
р
498337
с
477542
й
471303
т
1007270
к
400596
ғ
382681
у
380874
о
378274
м
319008
б
307608
и
258089
һ
253648
д
209634
ҡ
184225
ш
165459
г
128140
ө
104721
ү
100250
в
90965
я
84517
ҙ
82061
п
68613
ң
66219
х
65771
ь
65486
ч
49075
ҫ
34559
ж
29890
з
26916
э
21245
ю
20908
ц
14926
ф
14851
ъ
2580
Буква
Количество
щ
1058

Иконка: К содержанию

Словоформы

Top-20 самых частотных в Википедии словоформ:

Словоформа
Количество
Словоформа
Количество
Словоформа
Количество
Словоформа
Количество
йылға
122849
бассейны
85709
һыу
64261
км
38644
рәсәй
33245
йылғаһы
30299
тиклем
28871
буйынса
25968
урынлашҡан
23200
дәүләт
20786
хужалығы
20257
бәләкәй
20231
оҙонлоғо
20152
ҡушыла
20068
аға
20064
округында
20035
мәғлүмәте
20029
биләмәләрендә
20029
реестры
20025
өлкәһе
20018

Расширенный перечень словоформ см. здесь.
Иконка: К содержанию

Лексемы

Мы также обработали тексты башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.

Top-20 самых частотных в Википедии лексем:

Лексема
Количество
Лексема
Количество
Лексема
Количество
Лексема
Количество
йылға S
183338
йыл S
134404
бассейн S
88594
һыу S
64529
рәсәй S
44293
км S
38645
ҡу V
36577
ҡуш V
36311
тиклем POST
28871
буйынса POST
25968
мәғлүмәт S
22628
дәүләт S
20975
хужа S
20406
бәләкәй ADJ
20302
биләмә S
20199
округ S
20194
оҙон S
20194
ағ V
20168
ҡуш ADJ
20159
участка S
20043

Расширенный перечень лексем см. здесь.

Статистика по частям речи:

      существительное: 1200388,
      глагол:                      293293,
      адъектив:                 156162,
      послелог:                   67428,
      союз:                          22293,
      местоимение:            16623,
      числительное: 14242,
      частица:             9952,
      междометие:     1534.

Статистика глагольных времён:

      настоящее время:                               120795,
      прошедшее неопределённое время:  42779,
      прошедшее определённое время: 10249,
      будущее неопределённое время:    2004,
      будущее определённое время: 139.

Статистика падежей существительных:

      основной:                491052,
      дательный:              193911,
      местно-временной:  67492,
      родительный: 42569,
      исходный:       23264,
      винительный: 21847,
 
      абессив: 486.

Иконка: К содержанию

Результаты

Мы представили результаты детального компьютерно-лингвистического анализа башкирской Википедии по состоянию на 22 августа 2013. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.

Текст публикуется по nevmenandr.net

Иконка: К содержанию

Добавить комментарий

Ваш адрес email не будет опубликован.