От sas
К Alexeich
Дата 20.08.2023 08:51:53
Рубрики Современность;

Re: Ход наступления...

>Ответ на Ваши вопросы как надо потянет на публикацию,
Что, даже ответ на просьбу указать публикацию про частотность фамилий тоже тянет на отдельную публикацию?

> я, естественно, жтим заниматься не будут. Так что считайте "сигму" равной "поллаптя" :)
А лапоть-то, лапоть, чему равен?

От Alexeich
К sas (20.08.2023 08:51:53)
Дата 21.08.2023 00:54:15

Re: Ход наступления...

>Что, даже ответ на просьбу указать публикацию про частотность фамилий тоже тянет на отдельную публикацию?

Нет, не требует, но, гешным делом, не могу отыскать ссылку на "картотечное распределение" по русским фамилиям, откуда я взял ок. 10% для "а" и "б". Попробую все же найти, ибо самого одолевают сомнения.

>> я, естественно, жтим заниматься не будут. Так что считайте "сигму" равной "поллаптя" :)
>А лапоть-то, лапоть, чему равен?

? Двум сигмам, очевидно.

От sas
К Alexeich (21.08.2023 00:54:15)
Дата 21.08.2023 01:04:18

Re: Ход наступления...



>>> я, естественно, жтим заниматься не будут. Так что считайте "сигму" равной "поллаптя" :)
>>А лапоть-то, лапоть, чему равен?
>
>? Двум сигмам, очевидно.
Рекурсия вместе с примериванием погонов КО. Красиво, да. Пользы, правда, никакой.

От Alexeich
К sas (21.08.2023 01:04:18)
Дата 21.08.2023 01:59:19

Re: Ход наступления...

Вот тут человек не поленился. в отличие от меня, грешного. 7.8% - нижняя оценка "А" + "Б" по Украине. Размер лаптя - менее 2.2%.

https://www.vif2ne.su/nvk/forum/0/co/3049131.htm

От sas
К Alexeich (21.08.2023 01:59:19)
Дата 21.08.2023 07:06:42

Re: Ход наступления...

>Вот тут человек не поленился. в отличие от меня, грешного. 7.8% - нижняя оценка "А" + "Б" по Украине. Размер лаптя - менее 2.2%.

>
https://www.vif2ne.su/nvk/forum/0/co/3049131.htm
Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"? Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100. Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.

От Alexeich
К sas (21.08.2023 07:06:42)
Дата 21.08.2023 12:03:50

Re: Ход наступления...

>Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"?

Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия) но "по памяти" для русских фамилий (как я и написал ранее) 2 первые буквы дают ок. 10%, так что что совой об столб, что столбом об сову.

> Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100.

"Хвост" распределения дает сравнительно небольшую добавку.

>Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.

Потому-то и "лаптя", а не "доверительного интервала".

От sas
К Alexeich (21.08.2023 12:03:50)
Дата 21.08.2023 13:01:16

Re: Ход наступления...

>>Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"?
>
>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.

> но "по памяти" для русских фамилий (как я и написал ранее) 2 первые буквы дают ок. 10%, так что что совой об столб, что столбом об сову.
Так нас не интересуют "русские" фамилии. Нас, собственно, и "украинские" фамилии тоже не интересуют. Интересуют фамилии "граждан Украины".

>> Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100.
>
>"Хвост" распределения дает сравнительно небольшую добавку.
На текущий момент нам неизвестно, какую добавку даст "хвост", т.к. мы даже не знаем, какая часть от общего населения Украины оказалась в этих 100 фамилиях.

>>Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.
>
>Потому-то и "лаптя", а не "доверительного интервала".
А какая разница, как называется "лапоть"?

От tarasv
К sas (21.08.2023 13:01:16)
Дата 21.08.2023 16:43:37

Re: Ход наступления...

>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.

Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (21.08.2023 16:43:37)
Дата 21.08.2023 22:58:40

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.
А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.


От tarasv
К sas (21.08.2023 22:58:40)
Дата 22.08.2023 00:45:59

Re: Ход наступления...

>А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.

Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период. Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И. Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

К 21.8% 22.7% 1.05
М 11.6% 12.1% 1.05
П 11.3% 10.1% 0.9
Б 7.8% 8.2% 1.05
Т 7.3% 7.6% 1.05
Ш 6.3% 6.6% 1.05
С 5.3% 5.6% 1.05
...
І 3.2% 0.8% 0.23

читд. События 14го года на частоты первых букв фамилий повлияли мало.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (22.08.2023 00:45:59)
Дата 22.08.2023 22:28:19

Допустим, Ваши данные точны

Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

От tarasv
К sas (22.08.2023 22:28:19)
Дата 23.08.2023 01:52:47

Re: Допустим, Ваши...

>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

В первую сотню попала 21 буква, нет А Е У Ц Ч

К 21.8%
М 11.6%
П 11.3%
Б 7.8%
Т 7.3%
Ш 6.3%
С 5.3%
Г 4.2%
Р 3.6%
В 3.5%
І 3.2%
Л 3.2%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.8%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 01:52:47)
Дата 23.08.2023 10:34:10

Спасибо большое.

>>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?
>
>В первую сотню попала 21 буква, нет А Е У Ц Ч

>К 21.8%
>М 11.6%
>П 11.3%
>Б 7.8%
>Т 7.3%
>Ш 6.3%
>С 5.3%
>Г 4.2%
>Р 3.6%
>В 3.5%
>І 3.2%
>Л 3.2%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.8%
>Ж 0.7%

В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор. Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

От tarasv
К sas (23.08.2023 10:34:10)
Дата 23.08.2023 19:18:01

Re: Спасибо большое.

>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.

Да, оно явно перекошенное.

>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

К 21.3%
М 11.4%
П 11%
Б 7.6%
Т 7.1%
Ш 6.2%
С 5.2%
Г 4.1%
Р 3.5%
В 3.5%
І 3.2%
Л 3.1%
А 2.4%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.7%
Ж 0.7%


Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 19:18:01)
Дата 23.08.2023 19:51:05

Re: Спасибо большое.

>>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.
>
> Да, оно явно перекошенное.

>>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.
>
> Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

>К 21.3%
>М 11.4%
>П 11%
>Б 7.6%
>Т 7.1%
>Ш 6.2%
>С 5.2%
>Г 4.1%
>Р 3.5%
>В 3.5%
>І 3.2%
>Л 3.1%
>А 2.4%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.7%
>Ж 0.7%

Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
2. От какой численности считались проценты?

От tarasv
К sas (23.08.2023 19:51:05)
Дата 23.08.2023 22:10:44

Re: Спасибо большое.

>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?

исходная первая сотня плюс 8 новых на А. Они очень плотно идут за первой сотней по числу носителей. Первая сотня заканчивается на 19,5 тыс носителей, а первая на А 17.3 тыс. Среднее по А 11.5 тыс.

>2. От какой численности считались проценты?

от суммы носителей по всем 108 записям.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 22:10:44)
Дата 23.08.2023 23:09:39

Re: Спасибо большое.

>>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
>
> исходная первая сотня плюс 8 новых на А.
А там в исходной сотне для каждой буквы больше 8 фамилий? Если нет, то выборка КМК получается некорректно собранной...

>>2. От какой численности считались проценты?
>
> от суммы носителей по всем 108 записям.
А, понятно. Просто у вас после округлений где-то по 2,2 - 2,3% потерялись.

От sas
К tarasv (22.08.2023 00:45:59)
Дата 22.08.2023 10:07:49

Re: Ход наступления...


> Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период.
Вот только были не только Ивановы.

> Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И.
Вангуйте, кто же запрещает.
>Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Было больше.
> Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

>К 21.8% 22.7% 1.05
>М 11.6% 12.1% 1.05
>П 11.3% 10.1% 0.9
>Б 7.8% 8.2% 1.05
>Т 7.3% 7.6% 1.05
>Ш 6.3% 6.6% 1.05
>С 5.3% 5.6% 1.05
>...
>І 3.2% 0.8% 0.23

> читд. События 14го года на частоты первых букв фамилий повлияли мало.
Нет. Это пока всего лишь гипотеза. Писать ЧИТД ВЫ сможете, если предоставите соответствующие данные по состоянию на год так 2015. А лучше на 2021. Это не говоря уже о том, что в базе, как писалось выше, только 3,4 млн человек.

От Андрей
К tarasv (21.08.2023 16:43:37)
Дата 21.08.2023 18:29:05

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Может это
https://sevabashirov.livejournal.com/326306.html на что-то сгодится.

>Орфографический словарь читал - не помогает :)
Приходите к нам с мечом, не пожалеете.