MinUk.Dev
linux-debug/synchronization - minuk dev wiki

linux-debug/synchronization

created : Wed, 11 Nov 2020 00:07:13 +0900
modified : Wed, 09 Dec 2020 13:31:12 +0900

커널 동기화

  • 주요 개념 : critical section, race condition
  • SMP : symmetric multiprocessing

커널 동기화 기법

  • 스핀락과 뮤텍스
스핀락
  • 구현부가 상대적으로 간단하다

  • 아키텍쳐에 의존적인 코드로 구현

  • 휴면상태로 가지 않고 계속 기다림 (Busy-Wait)

  • spin_lock_irq(), spin_lock_irq_save()

  • spin_lock data structure

    typedef struct spinlock {
      union {
        struct raw_spinlock rlock;
      };
    } spinlock_t;
    typedef struct raw_spinlock {
      arch_spinlock_t raw_lock;
    #ifdef CONFIG_DEBUG_SPINLOCK
      unsigned int magic, owner_cpu;
      void *owner;
    #endif
    #ifdef CONFIG_DEBUG_LOCK_ALLOC
      struct lockdep_map dep_map;
    #endif
    } raw_spinlock_t;
    • 아키텍쳐마다 다른데, x86은 asm-generic의 qspinlock 을 사용한다.
    typedef struct qspinlock {
      union {
        atomic_t val;
    
      /*
    * By using the whole 2nd least significant byte for the
    * pending bit, we can allow better optimization of the lock
    * acquisition for the pending bit holder.
    */
    #ifdef __LITTLE_ENDIAN
        struct {
          u8	locked;
          u8	pending;
        };
        struct {
          u16	locked_pending;
          u16	tail;
        };
    #else
        struct {
          u16	tail;
          u16	locked_pending;
        };
        struct {
          u8	reserved[2];
          u8	pending;
          u8	locked;
        };
    #endif
      };
    } arch_spinlock_t;
  • 스핀락 사용 예제

    static __always_inline void spin_lock(spinlock_t *lock);
  • 스핀락 획득 과정

    1. 스핀락을 이미 획득했는지 판단 : lock instance의 next와 owner 필드를 확인한다.
    2. 스핀락을 획득한 후 바뀌는 자료구조 : next 값을 1증가 시킨다.
    3. 획득한 스핀락을 해제한 후 바뀌는 자료구조 : owner를 1만큼 증가시킨다.
  • 스핀락 구현부

    • spin_lock()

      static __alwyas_inline void spin_lock(spinlock_t *lock)
      {
        raw_spin_lock(&lock->rlock);
      }
    • raw_spin_lock()

      #define raw_spin_lock(lock) _raw_spin_lock(lock)
    • _raw_spin_lock()

      void __lock_func _raw_spin_lock(raw_spinlock_t *lock)
      {
        __raw_spin_lock(lock);
      }
    • __raw_spin_lock()

      static inline void __raw_spin_lock(raw_spinlock_t *lock)
      {
        preempt_disable();
        spin_acquire(&lock->dep_map, 0, 0, _RET_IP_);
        LOCK_CONTENDED(lock< do_raw_spin_trylock, do_raw_spin_lock);
      }
      • 스핀락을 획득 한 후 preempt_disable() 함수를 호출할 필요가 없다. 내부적으로 호출해준다.
    • do_raw_spin_lock()

      static inline void do_raw_spin_lock(raw_spinlock_t *lock) __acquires(lock)
      {
        __acquire(lock);
        arch_spin_lock(&lock->raw_lock);
      }
    • arch_spin_lock()

      #define arch_spin_lock(l)		queued_spin_lock(l)
      /**
       * queued_spin_lock - acquire a queued spinlock
       * @lock: Pointer to queued spinlock structure
       */
      static __always_inline void queued_spin_lock(struct qspinlock *lock)
      {
        u32 val;
      
        val = atomic_cmpxchg_acquire(&lock->val, 0, _Q_LOCKED_VAL);
        if (likely(val == 0))
          return;
        queued_spin_lock_slowpath(lock, val);
      }
      struct pv_lock_ops pv_lock_ops = {
      #ifdef CONFIG_SMP
        .queued_spin_lock_slowpath = native_queued_spin_lock_slowpath,
        .queued_spin_unlock = PV_CALLEE_SAVE(__native_queued_spin_unlock),
        .wait = paravirt_nop,
        .kick = paravirt_nop,
        .vcpu_is_preempted = PV_CALLEE_SAVE(__native_vcpu_is_preempted),
      #endif /* SMP */
      };
    • 이후부터는 링크를 참고했다. LWN.net

      • 간단하게 하면 0-1 비트는 4개의 entries로 per-cpu array 안에 들어있는 queue node의 index, 2-16은 cpu number + 1 로 (최대 cpu 개수는 16383)
      • ticket spinlock 보다 빠르며, [[NUMA]] 를 사용하는 여러개의 코어가 존재하는 곳에서 더욱더 적합하다.
      • 추가적인 링크는 큐 스핀락 여기를 참고하자.
  • [[assembly]]

  • 흐으으음… 책은 대부분 arm 아키텍쳐와 관련된 내용이 많네 스킵

스핀락 플러그인 함수
  • spin_lock_irq()

  • spin_unlock_irq()

    • 임계 영역에서 스핀락을 걸 때 인터럽트가 발생하지 않으면 좋겠다. 스핀락을 획득해 다른 모듈이 접근하지 못하는건 좋지만, 임계 영역에서 인터럽트 발생이 문제다.
  • 임계 영역의 코드 구간에서 인터럽트를 비활성화

  • spin_lock_irq()

    static __always_inline void spin_lock_irq(spinlock_t *lock)
    {
      raw_spin_lock_irq(&lock->rlock);
    }
  • raw_spin_lock_irq()

    static inline void __raw_spin_lock_irq(raw_spinlock_t *lock)
    {
      local_irq_disable();
      preempt_disable();
      spin_acquire(&lock->dep_map, 0, 0, _RET_IP_);
      LOCK_CONTENDED(lock, do_raw_spin_trylock, do_raw_spin_lock);
    }
  • __raw_spin_lock()

    static inline void __raw_spin_lock(raw_spinlock_t *lock)
    {
      preempt_disable();
      spin_acquire(&lock->dep_map, 0, 0, _RET_IP_);
      LOCK_CONTENDED(lock, do_raw_spin_trylock, do_raw_spin_lock);
    }
  • local_irq_disable()

    #define local_irq_disable() \
      do { raw_local_irq_disable(); trace_hardirqs_off(); } while (0)
  • raw_local_irq_disable()

    #define raw_local_irq_disable() arch_local_irq_disable()
  • arch_local_irq_disable()

    static inline notrace void arch_local_irq_disable(void)
    {
      PVOP_VCALLEE0(pv_irq_ops.irq_disable);
    }
    • irq_disable is driver specific.
      struct irq_chip i8259A_chip = {
        .name		= "XT-PIC",
        .irq_mask	= disable_8259A_irq,
        .irq_disable	= disable_8259A_irq,
        .irq_unmask	= enable_8259A_irq,
        .irq_mask_ack	= mask_and_ack_8259A,
      };
  • spin_unlock_irq()

    static inline void __raw_spin_unlock_irq(raw_spinlock_t *lock)
    {
      spin_release(&lock->dep_map, 1, _RET_IP_);
      do_raw_spin_unlock(lock);
      local_irq_enable();
      preempt_enable();
    }
  • local_irq_enable()

    #define local_irq_enable() \
      do { trace_hardirqs_on(); raw_local_irq_enable(); } while (0)
    
    #define raw_local_irq_enable() arch_local_irq_enable()
  • spin_lock_irqsave()/spin_unlock_irqrestore()

    • acquire spinlock, disable interrupt line, return interrupt state.
  • spin_lock_irq_save()

    #define spin_lock_irqsave(lock, flags)                  \
      do {                                                  \
        raw_spin_lock_irqsave(spinlock_check(lock), flags); \
      } while (0)
  • __raw_spin_lock_irqsave()

    static inline unsigned long __raw_spin_lock_irqsave(raw_spinlock_t *lock)
    {
      unsigned long lfags;
    
      local_irq_save(flags);
      preempt_disable();
      spin_acquire(&lock->dep_map, 0, 0, _RET_IP_);
    
    #ifdef CONFIG_LOCKDEP
      LOCK_CONTENDED(lock, do_raw_spin_trylock, do_raw_spin_lock);
    #else
      do_raw_spin_lock_falgs(lock, &flags);
    #endif
      return flags;
    }
Mutex?
  • mutex data structure

    struct mutex {
      atomic_long_t      owner;
      spinlock_t         wait_lock;
    #ifdef CONFIG_MUTEX_SPIN_ON_ONWER
      struct optimistic_spin_queue osq; /* Spinner MCS lock */
    #endif
      struct list_head   wait_list;
    #ifdef CONFIG_DEBUG_MUTEXES
      void               *magic;
    #endif
    #ifdef CONFIG_DEBUG_LOCK_ALLOC
      struct lockdep_map dep_map;
    #endif
    };
    • owner : 뮤텍스를 획득한 프로세스의 태스크 디스크립터 주소, 이 필드를 보고 잠겼는지 확인
    • wait_list : 뮤텍스를 기다리는 프로세스의 정보
    struct mutex_waiter {
      struct list_head      list;
      struct task_struct    *task;
      struct ww_acquire_ctx *ww_ctx;
    #ifdef CONFIG_DEBUG_MUTEXES
      void                  *magic;
    #endif
    }
    • list : 뮤텍스를 기다리는 잠든 프로세스 리스트
    • task : 뮤텍스를 기다리는 프로세스의 테스크 디스크립터 주소(???)
    • ww_ctx : wait/wound deadlock proof mutex 로 deadlock을 회피하여 뮤텍스 락을 처리하는 알고리즘에 사용
  • fastpath : 뮤텍스를 다른 프로세스가 이미 획득하지 않은 상태때 동작 방식

    • mutex 구조체의 owner 필드 점검

    • owner 가 0x0이니 뮤텍스를 다른 프로세스가 획득하지 않은 상태로 판단

    • 뮤텍스 자료구조인 mutex 구조체의 onwer 필드에 획득한 프로세스의 테스크 디스크립터 저장

    • mutex_lock()

    void __sched mutex_lock(struct mutex *lock)
    {
      might_sleep();
    
      if (!__mutex_trylock_fast(lock))
        __mutex_lock_slowpath(lock);
    }
    EXPORT_SYMBOL(mutex_lock);
    • __mutex_trylock_fast()
    static __always_inline bool __mutex_trylock_fast(struct mutex *lock)
    {
      unsigned long curr = (unsigned long)current;
    
      if (!atomic_long_cmpxchg_acquire(&lock->owner, 0UL, curr))
        return true;
    
      return false;
    }
    • __mutx_unlock_fast()
    static __always_inline bool_mutex_unlock_fast(struct mutex *lock)
    {
      unsigned long curr = (unsigned long)current;
    
      if (atomic_long_cmpxchg_release(&lock->owner, curr, 0UL) == curr)
        return true;
    
      return false;
    }
  • slowpath : 뮤텍스를 이미 획득해 휴면 상태에 진입한 후 깨어남

    • __mutex_lock_slowpath()
    static noinline void __sched
    __mutex_lock_slowpath(struct mutex *lock)
    {
      __mutex_lock(lock, TASK_UNINTERRUPTIBLE, 0, NULL, _RET_IP_);
    }
    • __mutex_lock()
    static int __sched
    __mutex_lock(struct mutex *lock, long state, unsgiend int subclass,
      struct lockdep_map *nest_lock, unsigned long ip)
    {
      return __mutex_lock_common(lock, state, subclass, nest_lock, ip, NULL, false);
    }
    • __mutex_lock_common()
    
    static __always_inline int __sched
    __mutex_lock_common(struct mutex *lock, long state, unsgiend int subclass,
      struct lockdep_map *nest_lock, unsigned long ip,
      struct ww_acquire_ctx *ww_ctx, const bool use_ww_ctx)
    {
      struct mutex_waiter waiter;
      bool first = false;
      struct ww_mutex *ww;
      int ret;
      /* skip */
      waiter.task = current;
    
      set_current_state(state);
      for (;;) {
        /* skip */
        spin_unlock(&lock->wait_lock);
        schedule_preempt_disabled();
        /* skip */
        set_current_state(state);
      }
      spin_lock(&lock->wait_lock);
    acquired:
      __set_current_state(TASK_RUNNING);
      /* skip */
      mutex_remove_waiter(lock, &waiter, current);
      if (likely(list_empty(&lock->wait_list)))
        __mutex_clear_flag(lock, MUTEX_FLAGS);
    
      debug_mutex_free_waiter(&waiter);
      /* skip */
    }
    • mutex_unlock()
    void __sched mutex_unlock(struct mutex *lock)
    {
    #ifndef CONFIG_DEBUG_LOCK_ALLOC
      if (__mutex_unlock_fast(lock))
        return;
    #endif
      __mutex_unlock_slowpath(lock, _RET_IP_);
    }
    • __mutex_unlock_slowpath(struct mutex *lock, unsigned long ip)
    struct noinline void __sched __mutex_unlock_slowpath(struct mutex *lock, unsgiend long ip)
    {
      struct task_struct *next = NULL;
      DEFINE_WAKE_Q(wake_q);
      unsigned long owner;
      /* skip */
      if (!list_empty(&lock->wait_list)) {
        /* get the first entry from the wait-list */
        struct mutex_waiter *waiter =
          list_first_entry(&lock->wait_list,
            struct mutex_waiter, list);
        next = waiter->task;
    
        debug_mutex_wake_waiter(lock, waiter);
        wake_q_add(&wake_q, next);
      }
      /* skip */
      wake_up_q(&wake_q);
    }

정리

  • 커널 동기화란 1개의 프로세스만 특정 코드 구간을 실행할 때 접근하거나 정해진 순서로 코드 구간을 실행하도록 설계하는 기업
  • 임계 영역은 2개 이상의 프로세스가 동시에 실행하면 동시 접근 문제를 일으킬 수 있는 코드 블록
  • 레이스 컨디션은 임계 영역에 두 개의 프로세스가 동시에 접근하는 상황
  • 레이스 컨디션이 발생하는 요인은 선점 스케줄링, 인터럽트 발생, SMP 시스템에서 2개 이상의 프로세스가 같은 코드를 싱행하는 상황 등
  • 레이스 컨디션 방지를 위해 선점 스케줄링이나 인터럽트 발생을 비활성화하거나 임계 영역에 락을 걸어야한다.
  • 리눅스 커널에서 가장 많이 쓰이는 커널 동기화 기법은 스핀락과 뮤텍스
  • 스핀락 획득을 시도할 때 __raw_tickets 구조체의 next 필드와 owner를 체크. next 와 owner가 동일하다면 스핀락을 획득한 적이 없으니 바로 획득 가능, next 필드가 owner 필드보다 크면 스핀락을 획득하기 전까지 계속 기다린다.
  • 뮤텍스 획득을 시도할 때 mutex 구조체의 owner 필드를 체크한다. owner 필드가 0이면 프로세스는 바로 뮤텍스를 획득. 뮤텍스 획득에 성공했다면 mutex 구조체의 owner에 테스크 디스크립터 주소를 저장한다.
  • 뮤텍스를 해제하는 프로세스는 뮤텍스 대기열을 체크하고 뮤텍스를 기다리며 잠든 프로세스를 깨운다. 이후 깨어난 프로세스는 뮤텍스를 획득한다.