ВИФ2 NE: Ветка : Re: Ход наступления...

От	sas
К	Alexeich
Дата	21.08.2023 01:04:18
Рубрики	Современность;

Re: Ход наступления...

>>> я, естественно, жтим заниматься не будут. Так что считайте "сигму" равной "поллаптя" :)
>>А лапоть-то, лапоть, чему равен?
>
>? Двум сигмам, очевидно.
Рекурсия вместе с примериванием погонов КО. Красиво, да. Пользы, правда, никакой.

От	Alexeich
К	sas (21.08.2023 01:04:18)
Дата	21.08.2023 01:59:19

Re: Ход наступления...

Вот тут человек не поленился. в отличие от меня, грешного. 7.8% - нижняя оценка "А" + "Б" по Украине. Размер лаптя - менее 2.2%.

https://www.vif2ne.su/nvk/forum/0/co/3049131.htm

От	sas
К	Alexeich (21.08.2023 01:59:19)
Дата	21.08.2023 07:06:42

Re: Ход наступления...

>Вот тут человек не поленился. в отличие от меня, грешного. 7.8% - нижняя оценка "А" + "Б" по Украине. Размер лаптя - менее 2.2%.

> https://www.vif2ne.su/nvk/forum/0/co/3049131.htm
Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"? Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100. Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.

От	Alexeich
К	sas (21.08.2023 07:06:42)
Дата	21.08.2023 12:03:50

Re: Ход наступления...

>Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"?

Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия) но "по памяти" для русских фамилий (как я и написал ранее) 2 первые буквы дают ок. 10%, так что что совой об столб, что столбом об сову.

> Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100.

"Хвост" распределения дает сравнительно небольшую добавку.

>Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.

Потому-то и "лаптя", а не "доверительного интервала".

От	sas
К	Alexeich (21.08.2023 12:03:50)
Дата	21.08.2023 13:01:16

Re: Ход наступления...

>>Там у человека для начала "украинские" фамилии или "фамилии граждан Украины"?
>
>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.

> но "по памяти" для русских фамилий (как я и написал ранее) 2 первые буквы дают ок. 10%, так что что совой об столб, что столбом об сову.
Так нас не интересуют "русские" фамилии. Нас, собственно, и "украинские" фамилии тоже не интересуют. Интересуют фамилии "граждан Украины".

>> Плюс он там жалуется, что Лучше было бы первых 250-300, а не первые 100.
>
>"Хвост" распределения дает сравнительно небольшую добавку.
На текущий момент нам неизвестно, какую добавку даст "хвост", т.к. мы даже не знаем, какая часть от общего населения Украины оказалась в этих 100 фамилиях.

>>Плюс общее количество граждан, учтенных в данной сотне, тоже неизвестно. Как Вы, при таких исходных, умудрились еще и "размер лаптя" посчитать мне решительно непонятно.
>
>Потому-то и "лаптя", а не "доверительного интервала".
А какая разница, как называется "лапоть"?

От	tarasv
К	sas (21.08.2023 13:01:16)
Дата	21.08.2023 16:43:37

Re: Ход наступления...

>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.

Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (21.08.2023 16:43:37)
Дата	21.08.2023 22:58:40

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.
А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.

От	tarasv
К	sas (21.08.2023 22:58:40)
Дата	22.08.2023 00:45:59

Re: Ход наступления...

>А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.

Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период. Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И. Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

К 21.8% 22.7% 1.05
М 11.6% 12.1% 1.05
П 11.3% 10.1% 0.9
Б 7.8% 8.2% 1.05
Т 7.3% 7.6% 1.05
Ш 6.3% 6.6% 1.05
С 5.3% 5.6% 1.05
...
І 3.2% 0.8% 0.23

читд. События 14го года на частоты первых букв фамилий повлияли мало.

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (22.08.2023 00:45:59)
Дата	22.08.2023 22:28:19

Допустим, Ваши данные точны

Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

От	tarasv
К	sas (22.08.2023 22:28:19)
Дата	23.08.2023 01:52:47

Re: Допустим, Ваши...

>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

В первую сотню попала 21 буква, нет А Е У Ц Ч

К 21.8%
М 11.6%
П 11.3%
Б 7.8%
Т 7.3%
Ш 6.3%
С 5.3%
Г 4.2%
Р 3.6%
В 3.5%
І 3.2%
Л 3.2%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.8%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 01:52:47)
Дата	23.08.2023 10:34:10

Спасибо большое.

>>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?
>
>В первую сотню попала 21 буква, нет А Е У Ц Ч

>К 21.8%
>М 11.6%
>П 11.3%
>Б 7.8%
>Т 7.3%
>Ш 6.3%
>С 5.3%
>Г 4.2%
>Р 3.6%
>В 3.5%
>І 3.2%
>Л 3.2%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.8%
>Ж 0.7%

В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор. Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

От	tarasv
К	sas (23.08.2023 10:34:10)
Дата	23.08.2023 19:18:01

Re: Спасибо большое.

>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.

Да, оно явно перекошенное.

>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

К 21.3%
М 11.4%
П 11%
Б 7.6%
Т 7.1%
Ш 6.2%
С 5.2%
Г 4.1%
Р 3.5%
В 3.5%
І 3.2%
Л 3.1%
А 2.4%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.7%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 19:18:01)
Дата	23.08.2023 19:51:05

Re: Спасибо большое.

>>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.
>
> Да, оно явно перекошенное.

>>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.
>
> Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

>К 21.3%
>М 11.4%
>П 11%
>Б 7.6%
>Т 7.1%
>Ш 6.2%
>С 5.2%
>Г 4.1%
>Р 3.5%
>В 3.5%
>І 3.2%
>Л 3.1%
>А 2.4%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.7%
>Ж 0.7%

Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
2. От какой численности считались проценты?

От	tarasv
К	sas (23.08.2023 19:51:05)
Дата	23.08.2023 22:10:44

Re: Спасибо большое.

>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?

исходная первая сотня плюс 8 новых на А. Они очень плотно идут за первой сотней по числу носителей. Первая сотня заканчивается на 19,5 тыс носителей, а первая на А 17.3 тыс. Среднее по А 11.5 тыс.

>2. От какой численности считались проценты?

от суммы носителей по всем 108 записям.

Орфографический словарь читал - не помогает :)

От	sas
К	tarasv (23.08.2023 22:10:44)
Дата	23.08.2023 23:09:39

Re: Спасибо большое.

>>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
>
> исходная первая сотня плюс 8 новых на А.
А там в исходной сотне для каждой буквы больше 8 фамилий? Если нет, то выборка КМК получается некорректно собранной...

>>2. От какой численности считались проценты?
>
> от суммы носителей по всем 108 записям.
А, понятно. Просто у вас после округлений где-то по 2,2 - 2,3% потерялись.

От	sas
К	tarasv (22.08.2023 00:45:59)
Дата	22.08.2023 10:07:49

Re: Ход наступления...

> Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период.
Вот только были не только Ивановы.

> Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И.
Вангуйте, кто же запрещает.
>Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Было больше.
> Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

>К 21.8% 22.7% 1.05
>М 11.6% 12.1% 1.05
>П 11.3% 10.1% 0.9
>Б 7.8% 8.2% 1.05
>Т 7.3% 7.6% 1.05
>Ш 6.3% 6.6% 1.05
>С 5.3% 5.6% 1.05
>...
>І 3.2% 0.8% 0.23

> читд. События 14го года на частоты первых букв фамилий повлияли мало.
Нет. Это пока всего лишь гипотеза. Писать ЧИТД ВЫ сможете, если предоставите соответствующие данные по состоянию на год так 2015. А лучше на 2021. Это не говоря уже о том, что в базе, как писалось выше, только 3,4 млн человек.

От	Андрей
К	tarasv (21.08.2023 16:43:37)
Дата	21.08.2023 18:29:05

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Может это https://sevabashirov.livejournal.com/326306.html на что-то сгодится.

>Орфографический словарь читал - не помогает :)
Приходите к нам с мечом, не пожалеете.