Странности с сетью


Главная Форумы POWER Systems AIX/Hardware Странности с сетью

В этой теме 27 ответов, 7 участников, последнее обновление  Pavel Alexei 3 года/лет, 10 мес. назад.

  • Автор
    Сообщения
  • #19548

    Pavel Alexei
    Участник

    Сразу звиняюсь за возможное ламерство.
    Имееются 4 сервера, серии 710/730 с HEA карточкой в каждом. VM нету, по одному LPAR на каждом с полным набором ресурсов. Поменяли свич куда они подключены, со 100Mb на 1Gb портами. Было это еще месяц назад, но только сейчас проблемы заметили (а возможно проблемы не с этим связаны).
    Доступ по сети к серверам стало во первых медленно, во вторых ассиметричным.
    Копируем по FTP с сервера A на сервер B: ~700MB/sec. Копируем с сервера B на A — 400KB/sec. И такие «странности» были у 3-х серверов из 4. После перезагрузки еще один пришел в норму. 2 оставшихся перегружать сильно не хочется.
    Теперь непонятно, A) что происходит, и B) как бы это решить без перезагрузки.
    По errpt только DOWN,UP en0
    По entstat -d on0 все «чисто», интерфейсы в 1Gb, ошибок нет.
    На свичах тоже все «чисто»
    OS 6.1 TL6 SP2 (ну… какое есть)

  • #19549

    Alex
    Участник

    А чего хорошего показывает entstat -d на оба адаптера и no -a ?

  • #19550

    Pavel Alexei
    Участник

    https://drive.google.com/file/d/0B2UULgVZiiXSS3N0aE1IZEp4VGc/edit?usp=sharing
    «no» показывает одно и тоже на обеих серверах
    srv1 — типа «кривой», srv2 — типа «нормальный»

  • #19551

    Alex
    Участник

    Криминала не видно.

    Если из разряда пальцем в небо: посмотрите, что показывает про порты, в которые воткнут BC, коммутатор. Вроде на дворе не девяностые, а по-прежнему иногда натыкаюсь на проблемы с auto-negotiation, когда хост выставляет одну скорость, а коммутатор — другую.

    Ну и для tcp_sendspace/tcp_recvspace значения какие-то странные. Они сейчас даже в дефолтной установке 128K/64K и для увеличения производительности их рекомендуют повышать, а у вас 16K/16K.

  • #19552

    Pavel Alexei
    Участник

    На свичах тоже 1Gb FullDuplex.Ошибок поль.
    И вообще странно, как так получается, что скорости на том же сервере в обе отличаются. Получается что «брать» он берет хорошо, а вот «отдает» медленно. Я такого не представляю себе даже на «обычных» системах.
    А как можно «передернуть» сетевуху, не перегружая сервер?

  • #19553

    Michael
    Участник

    А как можно «передернуть» сетевуху, не перегружая сервер?

    Предполагаю, что только так: сделать нужному сетевому интерфейсу down, потом up…

  • #19554

    Oleg
    Участник

    а что за коммутатор?
    не мог там кто-то шейпинг на портах тестить, да и оставить конфигурацию?

  • #19555

    Pavel Alexei
    Участник

    я имел ввиду что-то более «серьезное».
    Хотя передернуть кабель в свиче тоже не помешает.

  • #19576

    На каждую Хеу случайно не повесили по несколько LPAR с агрегатом 802.3ad?

  • #19578

    Pavel Alexei
    Участник

    неа, там только по одному LPAR.
    Сегодня буду у клиента, попробую сначало передернуть линк.

  • #19590

    Pavel Alexei
    Участник

    дергал, не помогло. Буду договариваться перегружать.

  • #19662

    Pavel Alexei
    Участник

    Перегружать пока не дают.
    Сегодня заметил такое, что меня вввело ввобще в ступор.
    На все сервера несклолько недель назад поставил TSM клиентов (backup), и сегодня до меня дошло, что с такими скоростями хрен что должно backup-иться. Посмотрел логи, а там скорость в сотни мегабайт в секунду.
    TSM клиент с AIX с «проблемой» на TSM сервер передает данные сотнями MB в секунду.
    По FTP качаем с AIX на TSM сервер — сотни KB секунду. Захожу в настройки FTP (Far), там стоит passive. Меняю на Active — все летает.
    Ставлю FileZilla на тот же сервер. С ним уже пофигу, что passive, что active — медленно.
    Пробую pscp (putty) — летает.
    Пробую с linux достучаться до AIX. ftp (active, passive) — летает, scp — летает.
    Пробую с другого AIX. ftp (active, passive), scp — медленно.
    Я фигею.

  • #19663

    andrewk
    Участник

    FTP/SCP вообще надо забыть как средства тестирования скорости. Сейчас не 80е и не 90е. Если надо понять пропускную способность канала — iperf.

  • #19664

    Pavel Alexei
    Участник

    нееее. Тут вопрос не в этом. Меня не скорость смущает, а порядок разницы.
    Качаем passive FTP — 400-600KB/sec. Меняем на active FTP — уже 30-40MB/sec.
    Как говориться — почувствуй разницу.
    Все тесты показывают либо первую, либо вторую скорость, но в разных комбинациях по разному. Причем даже на той же паре серверов при том же протоколе. Как я писал, такое я получил на ftp из FAR. FileZilla FTP показывает всегда только первую, в KB/sec.
    Я подумал, что может есть проблемы с выбором портов, но вроже всегда где-то наверху, выше 50000.

  • #19667

    Alex
    Участник

    Если надо понять пропускную способность канала — iperf

    Нууу, это другая уже крайность. Работать то приходится с реальными приложениями, а не с абстрактной пропускной способностью.

    Пример из моей жизни: одна известная компания, от услуг которой в ряде случаев трудно отказаться, даёт гигабитный L2 канал из точки А в точку Б. В канале бегают разные вещи, от PPRC и NIM installation до тупого копирования файлов. И вот общая тенденция такая, что «чото медленно». При этом, результаты iperf-а неизменно прекрасны, канал утилизируется полностью.

    Инженеры «одной известной компании», видя такое дело, в решении проблемы совершенно не заинтересованы, заставить их дать статистику со своего оборудования или поучаствовать в тестировании, используя транзитное оборудование — невозмжоно. Если смотреть по косвенным признакам — ерунда какая-то, вроде описанной в треде выше.

    В-общем, вяло перепинывались так полгода, пока у них не сгорело что-то из транзитного оборудования. И после замены, внимание, всё стало так, как и должно быть, предсказуемо и одинаково.

    Так что тестировать c ftp/scp, конечно, не совсем правильно, но результаты тестирования должны укладываться в теорию. Мы ж тут все специалисты, нельзя позволить себе сослаться на фазу луны 😉 Если же результаты теорией не объясняются, — надо искать причины.

  • #19669

    Pavel Alexei
    Участник

    Ситуация тут значительно проще
    1 — все это «болтается» на 1 свиче!
    2 — статиску на свиче я вижу. Там все «чисто»
    3 — такая же картина была на другом серваке. После перезагрузки сервака все «починилось».
    4 — тупое передергивание кабеля не помогло.

  • #19670

    А нет ли проблем с днс и нет ли проблем с памятью: не уходит ли какой-то из концов (клиент, сервер) в своп?

  • #19671

    Pavel Alexei
    Участник

    DNS-а вообще там нет, памяти везьде море…..

  • #19672

    Вот может в этом и проблема, что ДНС нет — сервер пытается сделать резолв обратной зоны на входящее соединение, это довольно частая проблема.

    А по поводу мильёна памяти, вы как первый день замужем: поставь в AIX два терабайта, а он все равно при определённых условиях что-нибудь да положит в своп. У меня один раз bash в своп пападал из за того, что DBA выставил какую-то очень древнюю отладочную переменную по нотке от оракла.

  • #19673

    Pavel Alexei
    Участник

    А причем здесь DNS? Если бы были задержки при подключении — тогда да.
    А так скорость постоянная в течении всей сессии.
    > Качаем passive FTP — 400-600KB/sec. Меняем на active FTP — уже 30-40MB/sec.
    это при том же FTP клиенте. Меняем его на другой ftp клиент, имеем всегда 400-600KB/sec

  • #19674

    andrewk
    Участник

    а если по теме, что слово «HEA» говорит для меня все и сразу. И проверять бы я начал с анализа версий всех всевозможных Firmware и наличия APAR’ов в нужной версии AIX’а 😉

  • #19675

    Alex
    Участник

    Мне кажется, надо брать самый плохой случай (ну вот 400-600Кбпс) — и смотреть сессию, снятую tcpdump-ом.

  • #19676

    HEA фобия страшная штука 🙂

  • #19678

    Pavel Alexei
    Участник

    наделал кучу дампов. Стало еще хуже 🙂
    В комбинациях с «тормозами» видно, что после нескольких tcp window вдруг ящик с ftp клиент (не AIX с причиной а именно другая сторона) шлет ACK через 20ms, а не сразу. Причем видно что это просходит с опозданием на обеих сторонах.
    Почему такое не происходит в других случаях, я не смог понять 🙁

    P.S. загадочный мир электричества

  • #19679

    Pavel Alexei
    Участник

    запустил iperf. На виндовой машине сервер. Клиент на AIX.
    Запускает на «больном» AIX
    [code]bash-3.2# ./iperf -f K -c 10.127.126.26
    ————————————————————
    Client connecting to 10.127.126.26, TCP port 5001
    TCP window size: 17.1 KByte (default)
    ————————————————————
    [ 3] local 10.127.127.2 port 52649 connected with 10.127.126.26 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 11674 KBytes 1167 KBytes/sec

    bash-3.2# ./iperf -f K -w 64K -c 10.127.126.26
    ————————————————————
    Client connecting to 10.127.126.26, TCP port 5001
    TCP window size: 63.6 KByte (WARNING: requested 64.0 KByte)
    ————————————————————
    [ 3] local 10.127.127.2 port 38728 connected with 10.127.126.26 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1127028 KBytes 112702 KBytes/sec[/code]

    Сразу же «бьет» в глаза размер default windows — 17.1K
    Как только делаем window больше, все ок
    Теперь на «нормальном» AIX
    [code]bash-3.2# ./iperf -f K -c 10.127.127.26
    ————————————————————
    Client connecting to 10.127.127.26, TCP port 5001
    TCP window size: 64.2 KByte (default)
    ————————————————————
    [ 3] local 10.127.127.6 port 56061 connected with 10.127.127.26 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1098790 KBytes 109879 KBytes/sec

    bash-3.2# ./iperf -f K -w 17.1K -c 10.127.127.26
    ————————————————————
    Client connecting to 10.127.127.26, TCP port 5001
    TCP window size: 64.2 KByte (WARNING: requested 17.1 KByte)
    ————————————————————
    [ 3] local 10.127.127.6 port 60198 connected with 10.127.127.26 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1108334 KBytes 110833 KBytes/sec[/code]
    Видно что default window — 64.2K и все ок, но почему-то поменять не получилось.

  • #19681

    Pavel Alexei
    Участник

    thx to «asddsa»
    Поменял tcp_sendspace/tcp_recvspace на 128/64K
    Все полетело.
    надо было послушаться сразу.

  • #19692

    DanGer
    Участник

    А не пробовали запустить ftp-сервер в отладочном режиме? Может что прояснится.

  • #19697

    Pavel Alexei
    Участник

    Смотрел dump-ы tcpdump.
    Тогда ничего не понял. Потом уже заметил, что в в случаях, когда скрость была маленькая, то после нескольких tcp window на 17K, наступала пауза в 200ms. То ли AIX не слал ничего и через 200ms client слал ему ack, то ли AIX ждал пока клиент не пришлет ему ACK, который он получал только через 200ms, то еще почему. Но это не вяжется с tcp_nodelayack опцией. К тому же она как была выключенной, так и осталась. Я не так глубоко силен ни в теории ip, ни в AIX.

Для ответа в этой теме необходимо авторизоваться.