Странности с сетью

Главная Форумы POWER Systems AIX/Hardware Странности с сетью

Просмотр 27 веток ответов
  • Автор
    Сообщения
    • #19548
      Pavel Alexei
      Участник

      Сразу звиняюсь за возможное ламерство.
      Имееются 4 сервера, серии 710/730 с HEA карточкой в каждом. VM нету, по одному LPAR на каждом с полным набором ресурсов. Поменяли свич куда они подключены, со 100Mb на 1Gb портами. Было это еще месяц назад, но только сейчас проблемы заметили (а возможно проблемы не с этим связаны).
      Доступ по сети к серверам стало во первых медленно, во вторых ассиметричным.
      Копируем по FTP с сервера A на сервер B: ~700MB/sec. Копируем с сервера B на A – 400KB/sec. И такие “странности” были у 3-х серверов из 4. После перезагрузки еще один пришел в норму. 2 оставшихся перегружать сильно не хочется.
      Теперь непонятно, A) что происходит, и B) как бы это решить без перезагрузки.
      По errpt только DOWN,UP en0
      По entstat -d on0 все “чисто”, интерфейсы в 1Gb, ошибок нет.
      На свичах тоже все “чисто”
      OS 6.1 TL6 SP2 (ну… какое есть)

    • #19549
      Alex
      Участник

      А чего хорошего показывает entstat -d на оба адаптера и no -a ?

    • #19550
      Pavel Alexei
      Участник

      https://drive.google.com/file/d/0B2UULgVZiiXSS3N0aE1IZEp4VGc/edit?usp=sharing
      “no” показывает одно и тоже на обеих серверах
      srv1 – типа “кривой”, srv2 – типа “нормальный”

    • #19551
      Alex
      Участник

      Криминала не видно.

      Если из разряда пальцем в небо: посмотрите, что показывает про порты, в которые воткнут BC, коммутатор. Вроде на дворе не девяностые, а по-прежнему иногда натыкаюсь на проблемы с auto-negotiation, когда хост выставляет одну скорость, а коммутатор – другую.

      Ну и для tcp_sendspace/tcp_recvspace значения какие-то странные. Они сейчас даже в дефолтной установке 128K/64K и для увеличения производительности их рекомендуют повышать, а у вас 16K/16K.

    • #19552
      Pavel Alexei
      Участник

      На свичах тоже 1Gb FullDuplex.Ошибок поль.
      И вообще странно, как так получается, что скорости на том же сервере в обе отличаются. Получается что “брать” он берет хорошо, а вот “отдает” медленно. Я такого не представляю себе даже на “обычных” системах.
      А как можно “передернуть” сетевуху, не перегружая сервер?

    • #19553
      Michael
      Участник

      А как можно “передернуть” сетевуху, не перегружая сервер?

      Предполагаю, что только так: сделать нужному сетевому интерфейсу down, потом up…

    • #19554
      Oleg
      Участник

      а что за коммутатор?
      не мог там кто-то шейпинг на портах тестить, да и оставить конфигурацию?

    • #19555
      Pavel Alexei
      Участник

      я имел ввиду что-то более “серьезное”.
      Хотя передернуть кабель в свиче тоже не помешает.

    • #19576

      На каждую Хеу случайно не повесили по несколько LPAR с агрегатом 802.3ad?

    • #19578
      Pavel Alexei
      Участник

      неа, там только по одному LPAR.
      Сегодня буду у клиента, попробую сначало передернуть линк.

    • #19590
      Pavel Alexei
      Участник

      дергал, не помогло. Буду договариваться перегружать.

    • #19662
      Pavel Alexei
      Участник

      Перегружать пока не дают.
      Сегодня заметил такое, что меня вввело ввобще в ступор.
      На все сервера несклолько недель назад поставил TSM клиентов (backup), и сегодня до меня дошло, что с такими скоростями хрен что должно backup-иться. Посмотрел логи, а там скорость в сотни мегабайт в секунду.
      TSM клиент с AIX с “проблемой” на TSM сервер передает данные сотнями MB в секунду.
      По FTP качаем с AIX на TSM сервер – сотни KB секунду. Захожу в настройки FTP (Far), там стоит passive. Меняю на Active – все летает.
      Ставлю FileZilla на тот же сервер. С ним уже пофигу, что passive, что active – медленно.
      Пробую pscp (putty) – летает.
      Пробую с linux достучаться до AIX. ftp (active, passive) – летает, scp – летает.
      Пробую с другого AIX. ftp (active, passive), scp – медленно.
      Я фигею.

    • #19663
      andrewk
      Участник

      FTP/SCP вообще надо забыть как средства тестирования скорости. Сейчас не 80е и не 90е. Если надо понять пропускную способность канала – iperf.

    • #19664
      Pavel Alexei
      Участник

      нееее. Тут вопрос не в этом. Меня не скорость смущает, а порядок разницы.
      Качаем passive FTP – 400-600KB/sec. Меняем на active FTP – уже 30-40MB/sec.
      Как говориться – почувствуй разницу.
      Все тесты показывают либо первую, либо вторую скорость, но в разных комбинациях по разному. Причем даже на той же паре серверов при том же протоколе. Как я писал, такое я получил на ftp из FAR. FileZilla FTP показывает всегда только первую, в KB/sec.
      Я подумал, что может есть проблемы с выбором портов, но вроже всегда где-то наверху, выше 50000.

    • #19667
      Alex
      Участник

      Если надо понять пропускную способность канала – iperf

      Нууу, это другая уже крайность. Работать то приходится с реальными приложениями, а не с абстрактной пропускной способностью.

      Пример из моей жизни: одна известная компания, от услуг которой в ряде случаев трудно отказаться, даёт гигабитный L2 канал из точки А в точку Б. В канале бегают разные вещи, от PPRC и NIM installation до тупого копирования файлов. И вот общая тенденция такая, что “чото медленно”. При этом, результаты iperf-а неизменно прекрасны, канал утилизируется полностью.

      Инженеры “одной известной компании”, видя такое дело, в решении проблемы совершенно не заинтересованы, заставить их дать статистику со своего оборудования или поучаствовать в тестировании, используя транзитное оборудование – невозмжоно. Если смотреть по косвенным признакам – ерунда какая-то, вроде описанной в треде выше.

      В-общем, вяло перепинывались так полгода, пока у них не сгорело что-то из транзитного оборудования. И после замены, внимание, всё стало так, как и должно быть, предсказуемо и одинаково.

      Так что тестировать c ftp/scp, конечно, не совсем правильно, но результаты тестирования должны укладываться в теорию. Мы ж тут все специалисты, нельзя позволить себе сослаться на фазу луны 😉 Если же результаты теорией не объясняются, – надо искать причины.

    • #19669
      Pavel Alexei
      Участник

      Ситуация тут значительно проще
      1 – все это “болтается” на 1 свиче!
      2 – статиску на свиче я вижу. Там все “чисто”
      3 – такая же картина была на другом серваке. После перезагрузки сервака все “починилось”.
      4 – тупое передергивание кабеля не помогло.

    • #19670

      А нет ли проблем с днс и нет ли проблем с памятью: не уходит ли какой-то из концов (клиент, сервер) в своп?

    • #19671
      Pavel Alexei
      Участник

      DNS-а вообще там нет, памяти везьде море…..

    • #19672

      Вот может в этом и проблема, что ДНС нет – сервер пытается сделать резолв обратной зоны на входящее соединение, это довольно частая проблема.

      А по поводу мильёна памяти, вы как первый день замужем: поставь в AIX два терабайта, а он все равно при определённых условиях что-нибудь да положит в своп. У меня один раз bash в своп пападал из за того, что DBA выставил какую-то очень древнюю отладочную переменную по нотке от оракла.

    • #19673
      Pavel Alexei
      Участник

      А причем здесь DNS? Если бы были задержки при подключении – тогда да.
      А так скорость постоянная в течении всей сессии.
      > Качаем passive FTP – 400-600KB/sec. Меняем на active FTP – уже 30-40MB/sec.
      это при том же FTP клиенте. Меняем его на другой ftp клиент, имеем всегда 400-600KB/sec

    • #19674
      andrewk
      Участник

      а если по теме, что слово “HEA” говорит для меня все и сразу. И проверять бы я начал с анализа версий всех всевозможных Firmware и наличия APAR’ов в нужной версии AIX’а 😉

    • #19675
      Alex
      Участник

      Мне кажется, надо брать самый плохой случай (ну вот 400-600Кбпс) – и смотреть сессию, снятую tcpdump-ом.

    • #19676

      HEA фобия страшная штука 🙂

    • #19678
      Pavel Alexei
      Участник

      наделал кучу дампов. Стало еще хуже 🙂
      В комбинациях с “тормозами” видно, что после нескольких tcp window вдруг ящик с ftp клиент (не AIX с причиной а именно другая сторона) шлет ACK через 20ms, а не сразу. Причем видно что это просходит с опозданием на обеих сторонах.
      Почему такое не происходит в других случаях, я не смог понять 🙁

      P.S. загадочный мир электричества

    • #19679
      Pavel Alexei
      Участник

      запустил iperf. На виндовой машине сервер. Клиент на AIX.
      Запускает на “больном” AIX
      [code]bash-3.2# ./iperf -f K -c 10.127.126.26
      ————————————————————
      Client connecting to 10.127.126.26, TCP port 5001
      TCP window size: 17.1 KByte (default)
      ————————————————————
      [ 3] local 10.127.127.2 port 52649 connected with 10.127.126.26 port 5001
      [ ID] Interval Transfer Bandwidth
      [ 3] 0.0-10.0 sec 11674 KBytes 1167 KBytes/sec

      bash-3.2# ./iperf -f K -w 64K -c 10.127.126.26
      ————————————————————
      Client connecting to 10.127.126.26, TCP port 5001
      TCP window size: 63.6 KByte (WARNING: requested 64.0 KByte)
      ————————————————————
      [ 3] local 10.127.127.2 port 38728 connected with 10.127.126.26 port 5001
      [ ID] Interval Transfer Bandwidth
      [ 3] 0.0-10.0 sec 1127028 KBytes 112702 KBytes/sec[/code]

      Сразу же “бьет” в глаза размер default windows – 17.1K
      Как только делаем window больше, все ок
      Теперь на “нормальном” AIX
      [code]bash-3.2# ./iperf -f K -c 10.127.127.26
      ————————————————————
      Client connecting to 10.127.127.26, TCP port 5001
      TCP window size: 64.2 KByte (default)
      ————————————————————
      [ 3] local 10.127.127.6 port 56061 connected with 10.127.127.26 port 5001
      [ ID] Interval Transfer Bandwidth
      [ 3] 0.0-10.0 sec 1098790 KBytes 109879 KBytes/sec

      bash-3.2# ./iperf -f K -w 17.1K -c 10.127.127.26
      ————————————————————
      Client connecting to 10.127.127.26, TCP port 5001
      TCP window size: 64.2 KByte (WARNING: requested 17.1 KByte)
      ————————————————————
      [ 3] local 10.127.127.6 port 60198 connected with 10.127.127.26 port 5001
      [ ID] Interval Transfer Bandwidth
      [ 3] 0.0-10.0 sec 1108334 KBytes 110833 KBytes/sec[/code]
      Видно что default window – 64.2K и все ок, но почему-то поменять не получилось.

    • #19681
      Pavel Alexei
      Участник

      thx to “asddsa”
      Поменял tcp_sendspace/tcp_recvspace на 128/64K
      Все полетело.
      надо было послушаться сразу.

    • #19692
      DanGer
      Участник

      А не пробовали запустить ftp-сервер в отладочном режиме? Может что прояснится.

    • #19697
      Pavel Alexei
      Участник

      Смотрел dump-ы tcpdump.
      Тогда ничего не понял. Потом уже заметил, что в в случаях, когда скрость была маленькая, то после нескольких tcp window на 17K, наступала пауза в 200ms. То ли AIX не слал ничего и через 200ms client слал ему ack, то ли AIX ждал пока клиент не пришлет ему ACK, который он получал только через 200ms, то еще почему. Но это не вяжется с tcp_nodelayack опцией. К тому же она как была выключенной, так и осталась. Я не так глубоко силен ни в теории ip, ни в AIX.

Просмотр 27 веток ответов
  • Для ответа в этой теме необходимо авторизоваться.