От tarasv
К sas
Дата 21.08.2023 16:43:37
Рубрики Современность;

Re: Ход наступления...

>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.

Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (21.08.2023 16:43:37)
Дата 21.08.2023 22:58:40

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.
А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.


От tarasv
К sas (21.08.2023 22:58:40)
Дата 22.08.2023 00:45:59

Re: Ход наступления...

>А, 2011-2013... Тогда можно вычеркивать. Как Вы понимаете, с тех пор частотность, все той же фамилии Иванов для Украины несколько изменилась.

Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период. Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И. Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

К 21.8% 22.7% 1.05
М 11.6% 12.1% 1.05
П 11.3% 10.1% 0.9
Б 7.8% 8.2% 1.05
Т 7.3% 7.6% 1.05
Ш 6.3% 6.6% 1.05
С 5.3% 5.6% 1.05
...
І 3.2% 0.8% 0.23

читд. События 14го года на частоты первых букв фамилий повлияли мало.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (22.08.2023 00:45:59)
Дата 22.08.2023 22:28:19

Допустим, Ваши данные точны

Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

От tarasv
К sas (22.08.2023 22:28:19)
Дата 23.08.2023 01:52:47

Re: Допустим, Ваши...

>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?

В первую сотню попала 21 буква, нет А Е У Ц Ч

К 21.8%
М 11.6%
П 11.3%
Б 7.8%
Т 7.3%
Ш 6.3%
С 5.3%
Г 4.2%
Р 3.6%
В 3.5%
І 3.2%
Л 3.2%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.8%
Ж 0.7%

Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 01:52:47)
Дата 23.08.2023 10:34:10

Спасибо большое.

>>Тогда есть следующий вопрос: какой процент составляет последняя из букв, присутствующих в первой сотне фамилий, раз уж А там нет?
>
>В первую сотню попала 21 буква, нет А Е У Ц Ч

>К 21.8%
>М 11.6%
>П 11.3%
>Б 7.8%
>Т 7.3%
>Ш 6.3%
>С 5.3%
>Г 4.2%
>Р 3.6%
>В 3.5%
>І 3.2%
>Л 3.2%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.8%
>Ж 0.7%

В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор. Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

От tarasv
К sas (23.08.2023 10:34:10)
Дата 23.08.2023 19:18:01

Re: Спасибо большое.

>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.

Да, оно явно перекошенное.

>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.

Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

К 21.3%
М 11.4%
П 11%
Б 7.6%
Т 7.1%
Ш 6.2%
С 5.2%
Г 4.1%
Р 3.5%
В 3.5%
І 3.2%
Л 3.1%
А 2.4%
Д 2%
Х 1.9%
О 1.8%
Н 1.5%
Я 1.4%
Ю 0.9%
Ф 0.8%
З 0.7%
Ж 0.7%


Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 19:18:01)
Дата 23.08.2023 19:51:05

Re: Спасибо большое.

>>В этом случае получается, что данное распределение вряд ли можно использовать для экстраполяции общего объема базы Лостармор.
>
> Да, оно явно перекошенное.

>>Дело в том, что в ней количество записей на Б и на А соотносятся между собой примерно как 3,6 : 1. Т.е. для приведенного Вами распределения, если я не ошибся, это соответствовало бы примерно 2,13 %. т.е. месту между Л и Д.
>
> Скорее всего там и будет. К сожалению делать произвольные запросы к базе сайта нельзя. Я нашел способ получить 10 фамилий на произвольную букву. Какая сортировка не очень понятно. Для А у меня получилось 8 фамилий число носителей которых выглядит как из второй сотни самых распространенных. С ними получается

>К 21.3%
>М 11.4%
>П 11%
>Б 7.6%
>Т 7.1%
>Ш 6.2%
>С 5.2%
>Г 4.1%
>Р 3.5%
>В 3.5%
>І 3.2%
>Л 3.1%
>А 2.4%
>Д 2%
>Х 1.9%
>О 1.8%
>Н 1.5%
>Я 1.4%
>Ю 0.9%
>Ф 0.8%
>З 0.7%
>Ж 0.7%

Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
2. От какой численности считались проценты?

От tarasv
К sas (23.08.2023 19:51:05)
Дата 23.08.2023 22:10:44

Re: Спасибо большое.

>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?

исходная первая сотня плюс 8 новых на А. Они очень плотно идут за первой сотней по числу носителей. Первая сотня заканчивается на 19,5 тыс носителей, а первая на А 17.3 тыс. Среднее по А 11.5 тыс.

>2. От какой численности считались проценты?

от суммы носителей по всем 108 записям.

Орфографический словарь читал - не помогает :)

От sas
К tarasv (23.08.2023 22:10:44)
Дата 23.08.2023 23:09:39

Re: Спасибо большое.

>>Я вот сейчас немного не понял, как получена последняя выборка и проценты по ней. Два вопроса: 1. Как теперь осуществлялся выбор фамилий?
>
> исходная первая сотня плюс 8 новых на А.
А там в исходной сотне для каждой буквы больше 8 фамилий? Если нет, то выборка КМК получается некорректно собранной...

>>2. От какой численности считались проценты?
>
> от суммы носителей по всем 108 записям.
А, понятно. Просто у вас после округлений где-то по 2,2 - 2,3% потерялись.

От sas
К tarasv (22.08.2023 00:45:59)
Дата 22.08.2023 10:07:49

Re: Ход наступления...


> Я вижу со статистикой у вас плоховато, да и исходные данные вы не смотрели. Букв алфавита 3 десятка. Ивановых 2% от населения на тот период.
Вот только были не только Ивановы.

> Вангую изменения частот букв в третьем знаке (десятые доли процента) для всех букв кроме возможно И.
Вангуйте, кто же запрещает.
>Тем более что в Киеве Ивановых больше чем в Донецке, Луганске и Симферополе вместе взятых. А есть еще Харьков, Одесса и Днепр.
Было больше.
> Проверяем на имеющимся наборе данных. Отношение частот оригинальной выборки с ней же но без Ивановых и Поповых вообще. Других русских фамилий в первой сотне нет.

>К 21.8% 22.7% 1.05
>М 11.6% 12.1% 1.05
>П 11.3% 10.1% 0.9
>Б 7.8% 8.2% 1.05
>Т 7.3% 7.6% 1.05
>Ш 6.3% 6.6% 1.05
>С 5.3% 5.6% 1.05
>...
>І 3.2% 0.8% 0.23

> читд. События 14го года на частоты первых букв фамилий повлияли мало.
Нет. Это пока всего лишь гипотеза. Писать ЧИТД ВЫ сможете, если предоставите соответствующие данные по состоянию на год так 2015. А лучше на 2021. Это не говоря уже о том, что в базе, как писалось выше, только 3,4 млн человек.

От Андрей
К tarasv (21.08.2023 16:43:37)
Дата 21.08.2023 18:29:05

Re: Ход наступления...

>>>Хороший вопрос, возможна различная трактовка (т.к. на Украине принято смешивать эти понятия)
>>Вот поэтому-то и интересно. Т.к. если фамилии "украинские", то там будут отсутствовать всякие Бабаевы. Бабичевы и прочие Ивановы. А если там фамилии "граждан Украины", то частотность, например, фамилии Иванов, будет сильно зависеть от того, в границах какого года рассматривается Украина ЕВПОЧЯ.
>
> Я же написал что сайт работает по данным паспортной системы, то есть граждане. Данные 2011-2013 годов. Верхние 100 фамилий это 3.4 млн человек.

Может это
https://sevabashirov.livejournal.com/326306.html на что-то сгодится.

>Орфографический словарь читал - не помогает :)
Приходите к нам с мечом, не пожалеете.