От редакции
29 Aug 21
Борис Орехов
Башкирская Википедия
Интернет-энциклопедия Википедия представляет собой ценнейший источник сведений; прежде всего, сведений об окружающем мире. Особенный интерес этого ресурса в том, что он создаётся энтузиастами и потому открытый и бесплатный. Википедия создаётся одновременно на многих языках, и для башкирского языка соответствующий раздел энциклопедии имеет особенный статус как один из основных сайтов на башкирском, а, следовательно, как одна из крупнейших оцифрованных текстовых коллекций на этом языке. В наших отчётах о мониторинге башнета мы уже говорили о том, какое место башкирская Википедия занимает в башкирском сегменте Интернета.
Количественное описание
По состоянию на 22 августа 2013 башкирский раздел Википедии содержит 30694 статьи. Зарегистрировано 8673 участника, из них 39 совершили какое-либо действие за последние 30 дней, 8 участников имеют статус администратора. Общее число правок составляет 410845.
Занимает 77 место по количеству статей среди всех разделов. По количеству статей, которые должны быть в каждом разделе Википедии, башкирский раздел занимает 102 место.
Данные о Википедии
# | Код | Язык | Статей | Страниц | Правок | Участников/в т.ч. активных | |
77 | 30694 | 7.9 | 64873 | 410845 | 8672/39 |
Взятая в совокупности башкирская Википедия содержит 13889117 символов с пробелами или 12023002 символа без пробелов. В этом массиве точка встречается 181418 раз, а запятая 124100 раз. Собственно слов на башкирском языке насчитывается 1734031. Таким образом, средняя длина башкирского слова в символах составляет 6,38.
Средняя длина слова в слогах составляет 2,68. При этом слов чётной длины 939901, т.е. 54,20%, слов нечётной длины, соответственно, 749734 и 43,24%.
Более детально:
✓ 2-сложное: 594278 33,17%,
✓ 3-сложное: 496657 29,37%,
✓ 4-сложное: 313168 18,53%,
✓ 5-сложное: 62654 3,71%,
✓ 6-сложное: 31844 1,88%,
✓ 7-сложное: 2626 0,16%,
✓ 8-сложное: 611 0,04%,
✓ 9-сложное: 136 0,01%.
Наиболее длинные слова:
✓ автобиографияһында,
✓ агломерацияларының,
✓ антидемократическая,
✓ ассимиляциялаштырылған,
✓ ассоциациялаштырыла,
✓ базельуниверситетына,
✓ высокотехнологичные,
✓ геннотерапевтического,
✓ гидромеханизациялау,
✓ гидроэлектростанциялар,
✓ гидроэлектростанцияларҙа,
✓ гидроэлектростанцияларҙың
✓ деидеологизации,
✓ демилитаризацияланған,
✓ демобилизацияланып,
✓ деревообрабатывающая,
✓ детерминацияланмаған,
✓ диалектологияһының,
✓ задокументированную,
✓ идентификацияланған,
✓ идентификацияланғандар,
✓ интернационализация,
✓ исемдәгепровинцияһының,
✓ квалификацияларына,
✓ классификациялағанда,
✓ классификациялағандағы,
✓ классификациялаштырыусы,
✓ кодификациялаштырылған,
✓ кодификациялаштырылмаған,
✓ концентрационлагерҙарға,
✓ көнсығышфилософияһының,
✓ көтмәгәндәсәләмәтлеге,
✓ лабораторияларында,
✓ лесоперерабатывающее,
✓ механизациялаштыра,
✓ механизациялаштырыу,
✓ микобактерияларына,
✓ мобилизацияланыуын,
✓ модификацияланғанға,
✓ модификацияланмаған,
✓ нацияинациональная,
✓ николаевкайылғаһының,
✓ палеонтологическими,
✓ радиокомпаниеһында,
✓ реабилитациялана,
✓ реабилитацияланған,
✓ реабилитацияланғандан,
✓ революционерҙарына,
✓ регенерацияланғандарға,
✓ региондаметталлургия,
✓ рекомбинацияләнгәндә,
✓ реорганизацияланған,
✓ реорганизациялауҙан,
✓ самофинансирование,
✓ санэпидемстанцияһында,
✓ специализацияларҙы,
✓ специализациялары,
✓ специализацияһының,
✓ стилдәгеархитектуравәкиле,
✓ телерадиокомпание,
✓ телерадиокомпаниеһы,
✓ телерадиокомпаниеһында,
✓ характеристикаларына,
✓ характеристикаларының,
✓ цивилизацияларының,
✓ электростанцияһындағы,
✓ электроэнергетикала,
✓ юриспруденцияһындағы.
Какая часть слов подчиняется закону гармонии гласных? В Википедии насчитывается:
✓ слов мягкого варианта: 494902 28,54%,
✓ слов смешанного варианта: 304259 17,55%
Здесь представлен частотный список двухбуквенных сочетаний.
Анализ лексики продемонстрировал, что Википедия — это специфический тип текстов, на который, по всей видимости, ощутимо влияют жанровые особенности. Так, если в прошлый раз мы уже сталкивались с аномальной частотностью некоторых лексем, списывая это на повторяющиеся элементы в оформлении интернет-страниц, то при текущем анализе в рассмотрение брался только основной текст без обвязки. Тем не менее, вершину частотного списка словоформ заняли значимые слова
✓ бассейны,
✓ һыу,
в то время как ожидавшиеся на этих позициях служебные слова не поднялись выше VII и VIII места. По всей видимости, нужно учитывать, что из более чем 30000 статей далеко не все представляют собой законченные тексты на естественном языке. Часть из них стали результатом так называемой ботозаливки, т.е. автоматизированного создания страниц и загрузки или изменения информации на страницах. В правилах русской Википедии отмечается, что ботостатьи — это
массовое создание однотипных статей, не требующих творческого вклада автора, с помощью специальных программ или вручную. Однотипными являются статьи на одну и ту же тему, содержащие минимум авторского вклада, которые создаются по заранее написанному шаблону с подстановкой в него данных, доступных по совместимой с Википедией лицензией. Массовыми являются заливки однотипных статей в количестве более 30 штук в быстром темпе — начиная от 15 — 20 статей в сутки. Однако даже если создание статей идёт в меньшем темпе, но имеются обоснованные претензии к их содержанию, необходимо приостановить массовое создание статей и приступить к поиску консенсуса. Также заливкой следует считать массовый перенос в Википедию статей из энциклопедий и справочников, перешедших в общественное достояние или распространяемых на условиях свободных лицензий, совместимых с CC-BY-SA.
Заливки статей допустимы только после предварительного обсуждения и одобрения сообществом.
Этим и объясняются аномалии верхней части частотного списка. Если с точки зрения частотности тексты Википедии стали так слабо походить на естественный язык, то администраторам, по всей видимости, стоит снизить темп автоматического создания новых статей и задуматься над традиционным ручным наполнением энциклопедии.
Слова состоят из 11057755 букв. Частотный список букв выглядит следующим образом:
Буква | Количество | Буква | Количество | Буква | Количество | Буква | Количество |
а | 1253934 | ы | 1007270 | л | 739682 | н | 701853 |
ә | 603839 | е | 570352 | р | 498337 | с | 477542 |
й | 471303 | т | 1007270 | к | 400596 | ғ | 382681 |
у | 380874 | о | 378274 | м | 319008 | б | 307608 |
и | 258089 | һ | 253648 | д | 209634 | ҡ | 184225 |
ш | 165459 | г | 128140 | ө | 104721 | ү | 100250 |
в | 90965 | я | 84517 | ҙ | 82061 | п | 68613 |
ң | 66219 | х | 65771 | ь | 65486 | ч | 49075 |
ҫ | 34559 | ж | 29890 | з | 26916 | э | 21245 |
ю | 20908 | ц | 14926 | ф | 14851 | ъ | 2580 |
Буква | Количество | ||||||
щ | 1058 |
Словоформы
Top-20 самых частотных в Википедии словоформ:
Словоформа | Количество | Словоформа | Количество | Словоформа | Количество | Словоформа | Количество |
йылға | 122849 | бассейны | 85709 | һыу | 64261 | км | 38644 |
рәсәй | 33245 | йылғаһы | 30299 | тиклем | 28871 | буйынса | 25968 |
урынлашҡан | 23200 | дәүләт | 20786 | хужалығы | 20257 | бәләкәй | 20231 |
оҙонлоғо | 20152 | ҡушыла | 20068 | аға | 20064 | округында | 20035 |
мәғлүмәте | 20029 | биләмәләрендә | 20029 | реестры | 20025 | өлкәһе | 20018 |
Расширенный перечень словоформ см. здесь.
Лексемы
Мы также обработали тексты башкирской Википедии с помощью нашего морфологического анализатора, склеив леммы и составив статистику для уверенно распознанных форм. К сожалению, данные весьма приблизительны из-за неразрешённой в ряде случаев омонимии.
Top-20 самых частотных в Википедии лексем:
Лексема | Количество | Лексема | Количество | Лексема | Количество | Лексема | Количество |
йылға S | 183338 | йыл S | 134404 | бассейн S | 88594 | һыу S | 64529 |
рәсәй S | 44293 | км S | 38645 | ҡу V | 36577 | ҡуш V | 36311 |
тиклем POST | 28871 | буйынса POST | 25968 | мәғлүмәт S | 22628 | дәүләт S | 20975 |
хужа S | 20406 | бәләкәй ADJ | 20302 | биләмә S | 20199 | округ S | 20194 |
оҙон S | 20194 | ағ V | 20168 | ҡуш ADJ | 20159 | участка S | 20043 |
Расширенный перечень лексем см. здесь.
Статистика по частям речи:
✓ глагол: 293293,
✓ адъектив: 156162,
✓ послелог: 67428,
✓ союз: 22293,
✓ местоимение: 16623,
✓ числительное: 14242,
✓ частица: 9952,
✓ междометие: 1534.
Статистика глагольных времён:
✓ прошедшее неопределённое время: 42779,
✓ прошедшее определённое время: 10249,
✓ будущее неопределённое время: 2004,
✓ будущее определённое время: 139.
Статистика падежей существительных:
✓ дательный: 193911,
✓ местно-временной: 67492,
✓ родительный: 42569,
✓ исходный: 23264,
✓ винительный: 21847,
✓ абессив: 486.
Результаты
Мы представили результаты детального компьютерно-лингвистического анализа башкирской Википедии по состоянию на 22 августа 2013. Предполагаем, что эти результаты могут быть и полезны для прикладных разработок, и просто занимательны.