performance-thread/common/lthread_sched.c

5af785ecSfengbojiang(姜凤波)/*
*d30ea906Sjfb8856606 * SPDX-License-Identifier: BSD-3-Clause
*d30ea906Sjfb8856606 * Copyright 2015 Intel Corporation.
*d30ea906Sjfb8856606 * Copyright 2012 Hasan Alayli <[email protected]>
5af785ecSfengbojiang(姜凤波) */
5af785ecSfengbojiang(姜凤波)
a9643ea8Slogwang#define RTE_MEM 1
a9643ea8Slogwang
a9643ea8Slogwang#include <stdio.h>
a9643ea8Slogwang#include <stdlib.h>
a9643ea8Slogwang#include <string.h>
a9643ea8Slogwang#include <stdint.h>
a9643ea8Slogwang#include <stddef.h>
a9643ea8Slogwang#include <limits.h>
a9643ea8Slogwang#include <inttypes.h>
a9643ea8Slogwang#include <unistd.h>
a9643ea8Slogwang#include <pthread.h>
a9643ea8Slogwang#include <fcntl.h>
a9643ea8Slogwang#include <sys/time.h>
a9643ea8Slogwang#include <sys/mman.h>
a9643ea8Slogwang#include <sched.h>
a9643ea8Slogwang
a9643ea8Slogwang#include <rte_prefetch.h>
a9643ea8Slogwang#include <rte_per_lcore.h>
a9643ea8Slogwang#include <rte_atomic.h>
a9643ea8Slogwang#include <rte_atomic_64.h>
a9643ea8Slogwang#include <rte_log.h>
a9643ea8Slogwang#include <rte_common.h>
a9643ea8Slogwang#include <rte_branch_prediction.h>
a9643ea8Slogwang
a9643ea8Slogwang#include "lthread_api.h"
a9643ea8Slogwang#include "lthread_int.h"
a9643ea8Slogwang#include "lthread_sched.h"
a9643ea8Slogwang#include "lthread_objcache.h"
a9643ea8Slogwang#include "lthread_timer.h"
a9643ea8Slogwang#include "lthread_mutex.h"
a9643ea8Slogwang#include "lthread_cond.h"
a9643ea8Slogwang#include "lthread_tls.h"
a9643ea8Slogwang#include "lthread_diag.h"
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * This file implements the lthread scheduler
a9643ea8Slogwang * The scheduler is the function lthread_run()
a9643ea8Slogwang * This must be run as the main loop of an EAL thread.
a9643ea8Slogwang *
a9643ea8Slogwang * Currently once a scheduler is created it cannot be destroyed
a9643ea8Slogwang * When a scheduler shuts down it is assumed that the application is terminating
a9643ea8Slogwang */
a9643ea8Slogwang
a9643ea8Slogwangstatic rte_atomic16_t num_schedulers;
a9643ea8Slogwangstatic rte_atomic16_t active_schedulers;
a9643ea8Slogwang
a9643ea8Slogwang/* one scheduler per lcore */
a9643ea8SlogwangRTE_DEFINE_PER_LCORE(struct lthread_sched *, this_sched) = NULL;
a9643ea8Slogwang
a9643ea8Slogwangstruct lthread_sched *schedcore[LTHREAD_MAX_LCORES];
a9643ea8Slogwang
a9643ea8Slogwangdiag_callback diag_cb;
a9643ea8Slogwang
a9643ea8Slogwanguint64_t diag_mask;
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang/* constructor */
2bfe3f2eSlogwangRTE_INIT(lthread_sched_ctor)
a9643ea8Slogwang{
a9643ea8Slogwang	memset(schedcore, 0, sizeof(schedcore));
a9643ea8Slogwang	rte_atomic16_init(&num_schedulers);
a9643ea8Slogwang	rte_atomic16_set(&num_schedulers, 1);
a9643ea8Slogwang	rte_atomic16_init(&active_schedulers);
a9643ea8Slogwang	rte_atomic16_set(&active_schedulers, 0);
a9643ea8Slogwang	diag_cb = NULL;
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwangenum sched_alloc_phase {
a9643ea8Slogwang	SCHED_ALLOC_OK,
a9643ea8Slogwang	SCHED_ALLOC_QNODE_POOL,
a9643ea8Slogwang	SCHED_ALLOC_READY_QUEUE,
a9643ea8Slogwang	SCHED_ALLOC_PREADY_QUEUE,
a9643ea8Slogwang	SCHED_ALLOC_LTHREAD_CACHE,
a9643ea8Slogwang	SCHED_ALLOC_STACK_CACHE,
a9643ea8Slogwang	SCHED_ALLOC_PERLT_CACHE,
a9643ea8Slogwang	SCHED_ALLOC_TLS_CACHE,
a9643ea8Slogwang	SCHED_ALLOC_COND_CACHE,
a9643ea8Slogwang	SCHED_ALLOC_MUTEX_CACHE,
a9643ea8Slogwang};
a9643ea8Slogwang
a9643ea8Slogwangstatic int
a9643ea8Slogwang_lthread_sched_alloc_resources(struct lthread_sched *new_sched)
a9643ea8Slogwang{
a9643ea8Slogwang	int alloc_status;
a9643ea8Slogwang
a9643ea8Slogwang	do {
a9643ea8Slogwang		/* Initialize per scheduler queue node pool */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_QNODE_POOL;
a9643ea8Slogwang		new_sched->qnode_pool =
a9643ea8Slogwang			_qnode_pool_create("qnode pool", LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->qnode_pool == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local ready queue */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_READY_QUEUE;
a9643ea8Slogwang		new_sched->ready = _lthread_queue_create("ready queue");
a9643ea8Slogwang		if (new_sched->ready == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local peer ready queue */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_PREADY_QUEUE;
a9643ea8Slogwang		new_sched->pready = _lthread_queue_create("pready queue");
a9643ea8Slogwang		if (new_sched->pready == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free lthread cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_LTHREAD_CACHE;
a9643ea8Slogwang		new_sched->lthread_cache =
a9643ea8Slogwang			_lthread_objcache_create("lthread cache",
a9643ea8Slogwang						sizeof(struct lthread),
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->lthread_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free stack cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_STACK_CACHE;
a9643ea8Slogwang		new_sched->stack_cache =
a9643ea8Slogwang			_lthread_objcache_create("stack_cache",
a9643ea8Slogwang						sizeof(struct lthread_stack),
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->stack_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free per lthread data cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_PERLT_CACHE;
a9643ea8Slogwang		new_sched->per_lthread_cache =
a9643ea8Slogwang			_lthread_objcache_create("per_lt cache",
a9643ea8Slogwang						RTE_PER_LTHREAD_SECTION_SIZE,
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->per_lthread_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free tls cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_TLS_CACHE;
a9643ea8Slogwang		new_sched->tls_cache =
a9643ea8Slogwang			_lthread_objcache_create("TLS cache",
a9643ea8Slogwang						sizeof(struct lthread_tls),
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->tls_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free cond var cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_COND_CACHE;
a9643ea8Slogwang		new_sched->cond_cache =
a9643ea8Slogwang			_lthread_objcache_create("cond cache",
a9643ea8Slogwang						sizeof(struct lthread_cond),
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->cond_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		/* Initialize per scheduler local free mutex cache */
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_MUTEX_CACHE;
a9643ea8Slogwang		new_sched->mutex_cache =
a9643ea8Slogwang			_lthread_objcache_create("mutex cache",
a9643ea8Slogwang						sizeof(struct lthread_mutex),
a9643ea8Slogwang						LTHREAD_PREALLOC);
a9643ea8Slogwang		if (new_sched->mutex_cache == NULL)
a9643ea8Slogwang			break;
a9643ea8Slogwang
a9643ea8Slogwang		alloc_status = SCHED_ALLOC_OK;
a9643ea8Slogwang	} while (0);
a9643ea8Slogwang
a9643ea8Slogwang	/* roll back on any failure */
a9643ea8Slogwang	switch (alloc_status) {
a9643ea8Slogwang	case SCHED_ALLOC_MUTEX_CACHE:
a9643ea8Slogwang		_lthread_objcache_destroy(new_sched->cond_cache);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_COND_CACHE:
a9643ea8Slogwang		_lthread_objcache_destroy(new_sched->tls_cache);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_TLS_CACHE:
a9643ea8Slogwang		_lthread_objcache_destroy(new_sched->per_lthread_cache);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_PERLT_CACHE:
a9643ea8Slogwang		_lthread_objcache_destroy(new_sched->stack_cache);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_STACK_CACHE:
a9643ea8Slogwang		_lthread_objcache_destroy(new_sched->lthread_cache);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_LTHREAD_CACHE:
a9643ea8Slogwang		_lthread_queue_destroy(new_sched->pready);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_PREADY_QUEUE:
a9643ea8Slogwang		_lthread_queue_destroy(new_sched->ready);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_READY_QUEUE:
a9643ea8Slogwang		_qnode_pool_destroy(new_sched->qnode_pool);
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_QNODE_POOL:
a9643ea8Slogwang		/* fall through */
a9643ea8Slogwang	case SCHED_ALLOC_OK:
a9643ea8Slogwang		break;
a9643ea8Slogwang	}
a9643ea8Slogwang	return alloc_status;
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Create a scheduler on the current lcore
a9643ea8Slogwang */
a9643ea8Slogwangstruct lthread_sched *_lthread_sched_create(size_t stack_size)
a9643ea8Slogwang{
a9643ea8Slogwang	int status;
a9643ea8Slogwang	struct lthread_sched *new_sched;
a9643ea8Slogwang	unsigned lcoreid = rte_lcore_id();
a9643ea8Slogwang
a9643ea8Slogwang	RTE_ASSERT(stack_size <= LTHREAD_MAX_STACK_SIZE);
a9643ea8Slogwang
a9643ea8Slogwang	if (stack_size == 0)
a9643ea8Slogwang		stack_size = LTHREAD_MAX_STACK_SIZE;
a9643ea8Slogwang
a9643ea8Slogwang	new_sched =
a9643ea8Slogwang	     rte_calloc_socket(NULL, 1, sizeof(struct lthread_sched),
a9643ea8Slogwang				RTE_CACHE_LINE_SIZE,
a9643ea8Slogwang				rte_socket_id());
a9643ea8Slogwang	if (new_sched == NULL) {
a9643ea8Slogwang		RTE_LOG(CRIT, LTHREAD,
a9643ea8Slogwang			"Failed to allocate memory for scheduler\n");
a9643ea8Slogwang		return NULL;
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang	_lthread_key_pool_init();
a9643ea8Slogwang
a9643ea8Slogwang	new_sched->stack_size = stack_size;
a9643ea8Slogwang	new_sched->birth = rte_rdtsc();
a9643ea8Slogwang	THIS_SCHED = new_sched;
a9643ea8Slogwang
a9643ea8Slogwang	status = _lthread_sched_alloc_resources(new_sched);
a9643ea8Slogwang	if (status != SCHED_ALLOC_OK) {
a9643ea8Slogwang		RTE_LOG(CRIT, LTHREAD,
a9643ea8Slogwang			"Failed to allocate resources for scheduler code = %d\n",
a9643ea8Slogwang			status);
a9643ea8Slogwang		rte_free(new_sched);
a9643ea8Slogwang		return NULL;
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang	bzero(&new_sched->ctx, sizeof(struct ctx));
a9643ea8Slogwang
a9643ea8Slogwang	new_sched->lcore_id = lcoreid;
a9643ea8Slogwang
a9643ea8Slogwang	schedcore[lcoreid] = new_sched;
a9643ea8Slogwang
a9643ea8Slogwang	new_sched->run_flag = 1;
a9643ea8Slogwang
a9643ea8Slogwang	DIAG_EVENT(new_sched, LT_DIAG_SCHED_CREATE, rte_lcore_id(), 0);
a9643ea8Slogwang
a9643ea8Slogwang	rte_wmb();
a9643ea8Slogwang	return new_sched;
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Set the number of schedulers in the system
a9643ea8Slogwang */
a9643ea8Slogwangint lthread_num_schedulers_set(int num)
a9643ea8Slogwang{
a9643ea8Slogwang	rte_atomic16_set(&num_schedulers, num);
a9643ea8Slogwang	return (int)rte_atomic16_read(&num_schedulers);
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Return the number of schedulers active
a9643ea8Slogwang */
a9643ea8Slogwangint lthread_active_schedulers(void)
a9643ea8Slogwang{
a9643ea8Slogwang	return (int)rte_atomic16_read(&active_schedulers);
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang/**
a9643ea8Slogwang * shutdown the scheduler running on the specified lcore
a9643ea8Slogwang */
a9643ea8Slogwangvoid lthread_scheduler_shutdown(unsigned lcoreid)
a9643ea8Slogwang{
a9643ea8Slogwang	uint64_t coreid = (uint64_t) lcoreid;
a9643ea8Slogwang
a9643ea8Slogwang	if (coreid < LTHREAD_MAX_LCORES) {
a9643ea8Slogwang		if (schedcore[coreid] != NULL)
a9643ea8Slogwang			schedcore[coreid]->run_flag = 0;
a9643ea8Slogwang	}
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/**
a9643ea8Slogwang * shutdown all schedulers
a9643ea8Slogwang */
a9643ea8Slogwangvoid lthread_scheduler_shutdown_all(void)
a9643ea8Slogwang{
a9643ea8Slogwang	uint64_t i;
a9643ea8Slogwang
a9643ea8Slogwang	/*
a9643ea8Slogwang	 * give time for all schedulers to have started
a9643ea8Slogwang	 * Note we use sched_yield() rather than pthread_yield() to allow
a9643ea8Slogwang	 * for the possibility of a pthread wrapper on lthread_yield(),
a9643ea8Slogwang	 * something that is not possible unless the scheduler is running.
a9643ea8Slogwang	 */
a9643ea8Slogwang	while (rte_atomic16_read(&active_schedulers) <
a9643ea8Slogwang	       rte_atomic16_read(&num_schedulers))
a9643ea8Slogwang		sched_yield();
a9643ea8Slogwang
a9643ea8Slogwang	for (i = 0; i < LTHREAD_MAX_LCORES; i++) {
a9643ea8Slogwang		if (schedcore[i] != NULL)
a9643ea8Slogwang			schedcore[i]->run_flag = 0;
a9643ea8Slogwang	}
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Resume a suspended lthread
a9643ea8Slogwang */
2bfe3f2eSlogwangstatic __rte_always_inline void
2bfe3f2eSlogwang_lthread_resume(struct lthread *lt);
a9643ea8Slogwangstatic inline void _lthread_resume(struct lthread *lt)
a9643ea8Slogwang{
a9643ea8Slogwang	struct lthread_sched *sched = THIS_SCHED;
a9643ea8Slogwang	struct lthread_stack *s;
a9643ea8Slogwang	uint64_t state = lt->state;
a9643ea8Slogwang#if LTHREAD_DIAG
a9643ea8Slogwang	int init = 0;
a9643ea8Slogwang#endif
a9643ea8Slogwang
a9643ea8Slogwang	sched->current_lthread = lt;
a9643ea8Slogwang
a9643ea8Slogwang	if (state & (BIT(ST_LT_CANCELLED) | BIT(ST_LT_EXITED))) {
a9643ea8Slogwang		/* if detached we can free the thread now */
a9643ea8Slogwang		if (state & BIT(ST_LT_DETACH)) {
a9643ea8Slogwang			_lthread_free(lt);
a9643ea8Slogwang			sched->current_lthread = NULL;
a9643ea8Slogwang			return;
a9643ea8Slogwang		}
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang	if (state & BIT(ST_LT_INIT)) {
a9643ea8Slogwang		/* first time this thread has been run */
a9643ea8Slogwang		/* assign thread to this scheduler */
a9643ea8Slogwang		lt->sched = THIS_SCHED;
a9643ea8Slogwang
a9643ea8Slogwang		/* allocate stack */
a9643ea8Slogwang		s = _stack_alloc();
a9643ea8Slogwang
a9643ea8Slogwang		lt->stack_container = s;
a9643ea8Slogwang		_lthread_set_stack(lt, s->stack, s->stack_size);
a9643ea8Slogwang
a9643ea8Slogwang		/* allocate memory for TLS used by this thread */
a9643ea8Slogwang		_lthread_tls_alloc(lt);
a9643ea8Slogwang
a9643ea8Slogwang		lt->state = BIT(ST_LT_READY);
a9643ea8Slogwang#if LTHREAD_DIAG
a9643ea8Slogwang		init = 1;
a9643ea8Slogwang#endif
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang	DIAG_EVENT(lt, LT_DIAG_LTHREAD_RESUMED, init, lt);
a9643ea8Slogwang
a9643ea8Slogwang	/* switch to the new thread */
a9643ea8Slogwang	ctx_switch(&lt->ctx, &sched->ctx);
a9643ea8Slogwang
a9643ea8Slogwang	/* If posting to a queue that could be read by another lcore
a9643ea8Slogwang	 * we defer the queue write till now to ensure the context has been
a9643ea8Slogwang	 * saved before the other core tries to resume it
a9643ea8Slogwang	 * This applies to blocking on mutex, cond, and to set_affinity
a9643ea8Slogwang	 */
a9643ea8Slogwang	if (lt->pending_wr_queue != NULL) {
a9643ea8Slogwang		struct lthread_queue *dest = lt->pending_wr_queue;
a9643ea8Slogwang
a9643ea8Slogwang		lt->pending_wr_queue = NULL;
a9643ea8Slogwang
a9643ea8Slogwang		/* queue the current thread to the specified queue */
a9643ea8Slogwang		_lthread_queue_insert_mp(dest, lt);
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang	sched->current_lthread = NULL;
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Handle sleep timer expiry
a9643ea8Slogwang*/
a9643ea8Slogwangvoid
a9643ea8Slogwang_sched_timer_cb(struct rte_timer *tim, void *arg)
a9643ea8Slogwang{
a9643ea8Slogwang	struct lthread *lt = (struct lthread *) arg;
a9643ea8Slogwang	uint64_t state = lt->state;
a9643ea8Slogwang
a9643ea8Slogwang	DIAG_EVENT(lt, LT_DIAG_LTHREAD_TMR_EXPIRED, &lt->tim, 0);
a9643ea8Slogwang
a9643ea8Slogwang	rte_timer_stop(tim);
a9643ea8Slogwang
a9643ea8Slogwang	if (lt->state & BIT(ST_LT_CANCELLED))
a9643ea8Slogwang		(THIS_SCHED)->nb_blocked_threads--;
a9643ea8Slogwang
a9643ea8Slogwang	lt->state = state | BIT(ST_LT_EXPIRED);
a9643ea8Slogwang	_lthread_resume(lt);
a9643ea8Slogwang	lt->state = state & CLEARBIT(ST_LT_EXPIRED);
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Returns 0 if there is a pending job in scheduler or 1 if done and can exit.
a9643ea8Slogwang */
a9643ea8Slogwangstatic inline int _lthread_sched_isdone(struct lthread_sched *sched)
a9643ea8Slogwang{
a9643ea8Slogwang	return (sched->run_flag == 0) &&
a9643ea8Slogwang			(_lthread_queue_empty(sched->ready)) &&
a9643ea8Slogwang			(_lthread_queue_empty(sched->pready)) &&
a9643ea8Slogwang			(sched->nb_blocked_threads == 0);
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Wait for all schedulers to start
a9643ea8Slogwang */
a9643ea8Slogwangstatic inline void _lthread_schedulers_sync_start(void)
a9643ea8Slogwang{
a9643ea8Slogwang	rte_atomic16_inc(&active_schedulers);
a9643ea8Slogwang
a9643ea8Slogwang	/* wait for lthread schedulers
a9643ea8Slogwang	 * Note we use sched_yield() rather than pthread_yield() to allow
a9643ea8Slogwang	 * for the possibility of a pthread wrapper on lthread_yield(),
a9643ea8Slogwang	 * something that is not possible unless the scheduler is running.
a9643ea8Slogwang	 */
a9643ea8Slogwang	while (rte_atomic16_read(&active_schedulers) <
a9643ea8Slogwang	       rte_atomic16_read(&num_schedulers))
a9643ea8Slogwang		sched_yield();
a9643ea8Slogwang
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Wait for all schedulers to stop
a9643ea8Slogwang */
a9643ea8Slogwangstatic inline void _lthread_schedulers_sync_stop(void)
a9643ea8Slogwang{
a9643ea8Slogwang	rte_atomic16_dec(&active_schedulers);
a9643ea8Slogwang	rte_atomic16_dec(&num_schedulers);
a9643ea8Slogwang
a9643ea8Slogwang	/* wait for schedulers
a9643ea8Slogwang	 * Note we use sched_yield() rather than pthread_yield() to allow
a9643ea8Slogwang	 * for the possibility of a pthread wrapper on lthread_yield(),
a9643ea8Slogwang	 * something that is not possible unless the scheduler is running.
a9643ea8Slogwang	 */
a9643ea8Slogwang	while (rte_atomic16_read(&active_schedulers) > 0)
a9643ea8Slogwang		sched_yield();
a9643ea8Slogwang
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Run the lthread scheduler
a9643ea8Slogwang * This loop is the heart of the system
a9643ea8Slogwang */
a9643ea8Slogwangvoid lthread_run(void)
a9643ea8Slogwang{
a9643ea8Slogwang
a9643ea8Slogwang	struct lthread_sched *sched = THIS_SCHED;
a9643ea8Slogwang	struct lthread *lt = NULL;
a9643ea8Slogwang
a9643ea8Slogwang	RTE_LOG(INFO, LTHREAD,
a9643ea8Slogwang		"starting scheduler %p on lcore %u phys core %u\n",
a9643ea8Slogwang		sched, rte_lcore_id(),
a9643ea8Slogwang		rte_lcore_index(rte_lcore_id()));
a9643ea8Slogwang
a9643ea8Slogwang	/* if more than one, wait for all schedulers to start */
a9643ea8Slogwang	_lthread_schedulers_sync_start();
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang	/*
a9643ea8Slogwang	 * This is the main scheduling loop
a9643ea8Slogwang	 * So long as there are tasks in existence we run this loop.
a9643ea8Slogwang	 * We check for:-
a9643ea8Slogwang	 *   expired timers,
a9643ea8Slogwang	 *   the local ready queue,
a9643ea8Slogwang	 *   and the peer ready queue,
a9643ea8Slogwang	 *
a9643ea8Slogwang	 * and resume lthreads ad infinitum.
a9643ea8Slogwang	 */
a9643ea8Slogwang	while (!_lthread_sched_isdone(sched)) {
a9643ea8Slogwang
a9643ea8Slogwang		rte_timer_manage();
a9643ea8Slogwang
a9643ea8Slogwang		lt = _lthread_queue_poll(sched->ready);
a9643ea8Slogwang		if (lt != NULL)
a9643ea8Slogwang			_lthread_resume(lt);
a9643ea8Slogwang		lt = _lthread_queue_poll(sched->pready);
a9643ea8Slogwang		if (lt != NULL)
a9643ea8Slogwang			_lthread_resume(lt);
a9643ea8Slogwang	}
a9643ea8Slogwang
a9643ea8Slogwang
a9643ea8Slogwang	/* if more than one wait for all schedulers to stop */
a9643ea8Slogwang	_lthread_schedulers_sync_stop();
a9643ea8Slogwang
a9643ea8Slogwang	(THIS_SCHED) = NULL;
a9643ea8Slogwang
a9643ea8Slogwang	RTE_LOG(INFO, LTHREAD,
a9643ea8Slogwang		"stopping scheduler %p on lcore %u phys core %u\n",
a9643ea8Slogwang		sched, rte_lcore_id(),
a9643ea8Slogwang		rte_lcore_index(rte_lcore_id()));
a9643ea8Slogwang	fflush(stdout);
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * Return the scheduler for this lcore
a9643ea8Slogwang *
a9643ea8Slogwang */
2bfe3f2eSlogwangstruct lthread_sched *_lthread_sched_get(unsigned int lcore_id)
a9643ea8Slogwang{
2bfe3f2eSlogwang	struct lthread_sched *res = NULL;
2bfe3f2eSlogwang
2bfe3f2eSlogwang	if (lcore_id < LTHREAD_MAX_LCORES)
2bfe3f2eSlogwang		res = schedcore[lcore_id];
2bfe3f2eSlogwang
2bfe3f2eSlogwang	return res;
a9643ea8Slogwang}
a9643ea8Slogwang
a9643ea8Slogwang/*
a9643ea8Slogwang * migrate the current thread to another scheduler running
a9643ea8Slogwang * on the specified lcore.
a9643ea8Slogwang */
a9643ea8Slogwangint lthread_set_affinity(unsigned lcoreid)
a9643ea8Slogwang{
a9643ea8Slogwang	struct lthread *lt = THIS_LTHREAD;
a9643ea8Slogwang	struct lthread_sched *dest_sched;
a9643ea8Slogwang
2bfe3f2eSlogwang	if (unlikely(lcoreid >= LTHREAD_MAX_LCORES))
a9643ea8Slogwang		return POSIX_ERRNO(EINVAL);
a9643ea8Slogwang
a9643ea8Slogwang	DIAG_EVENT(lt, LT_DIAG_LTHREAD_AFFINITY, lcoreid, 0);
a9643ea8Slogwang
a9643ea8Slogwang	dest_sched = schedcore[lcoreid];
a9643ea8Slogwang
a9643ea8Slogwang	if (unlikely(dest_sched == NULL))
a9643ea8Slogwang		return POSIX_ERRNO(EINVAL);
a9643ea8Slogwang
a9643ea8Slogwang	if (likely(dest_sched != THIS_SCHED)) {
a9643ea8Slogwang		lt->sched = dest_sched;
a9643ea8Slogwang		lt->pending_wr_queue = dest_sched->pready;
a9643ea8Slogwang		_affinitize();
a9643ea8Slogwang		return 0;
a9643ea8Slogwang	}
a9643ea8Slogwang	return 0;
a9643ea8Slogwang}