src/tbb/misc_ex.cpp

51c0b2f7Stbbdev/*
*ddc3bd03SPavel Kumbrasev    Copyright (c) 2005-2023 Intel Corporation
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Licensed under the Apache License, Version 2.0 (the "License");
51c0b2f7Stbbdev    you may not use this file except in compliance with the License.
51c0b2f7Stbbdev    You may obtain a copy of the License at
51c0b2f7Stbbdev
51c0b2f7Stbbdev        http://www.apache.org/licenses/LICENSE-2.0
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Unless required by applicable law or agreed to in writing, software
51c0b2f7Stbbdev    distributed under the License is distributed on an "AS IS" BASIS,
51c0b2f7Stbbdev    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
51c0b2f7Stbbdev    See the License for the specific language governing permissions and
51c0b2f7Stbbdev    limitations under the License.
51c0b2f7Stbbdev*/
51c0b2f7Stbbdev
51c0b2f7Stbbdev// Source file for miscellaneous entities that are infrequently referenced by
51c0b2f7Stbbdev// an executing program, and implementation of which requires dynamic linking.
51c0b2f7Stbbdev
51c0b2f7Stbbdev#include "misc.h"
51c0b2f7Stbbdev
51c0b2f7Stbbdev#if !defined(__TBB_HardwareConcurrency)
51c0b2f7Stbbdev
51c0b2f7Stbbdev#include "dynamic_link.h"
51c0b2f7Stbbdev#include <stdio.h>
51c0b2f7Stbbdev#include <limits.h>
51c0b2f7Stbbdev
51c0b2f7Stbbdev#if _WIN32||_WIN64
51c0b2f7Stbbdev#include <windows.h>
51c0b2f7Stbbdev#if __TBB_WIN8UI_SUPPORT
51c0b2f7Stbbdev#include <thread>
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev#else
51c0b2f7Stbbdev#include <unistd.h>
734f0bc0SPablo Romero#if __unix__
51c0b2f7Stbbdev#if __linux__
51c0b2f7Stbbdev#include <sys/sysinfo.h>
734f0bc0SPablo Romero#endif
51c0b2f7Stbbdev#include <cstring>
51c0b2f7Stbbdev#include <sched.h>
51c0b2f7Stbbdev#include <cerrno>
51c0b2f7Stbbdev#elif __sun
51c0b2f7Stbbdev#include <sys/sysinfo.h>
51c0b2f7Stbbdev#elif __FreeBSD__
51c0b2f7Stbbdev#include <cerrno>
51c0b2f7Stbbdev#include <cstring>
51c0b2f7Stbbdev#include <sys/param.h>  // Required by <sys/cpuset.h>
51c0b2f7Stbbdev#include <sys/cpuset.h>
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev
51c0b2f7Stbbdevnamespace tbb {
51c0b2f7Stbbdevnamespace detail {
51c0b2f7Stbbdevnamespace r1 {
51c0b2f7Stbbdev
51c0b2f7Stbbdev#if __TBB_USE_OS_AFFINITY_SYSCALL
51c0b2f7Stbbdev
734f0bc0SPablo Romero#if __unix__
51c0b2f7Stbbdev// Handlers for interoperation with libiomp
51c0b2f7Stbbdevstatic int (*libiomp_try_restoring_original_mask)();
51c0b2f7Stbbdev// Table for mapping to libiomp entry points
51c0b2f7Stbbdevstatic const dynamic_link_descriptor iompLinkTable[] = {
51c0b2f7Stbbdev    DLD_NOWEAK( kmp_set_thread_affinity_mask_initial, libiomp_try_restoring_original_mask )
51c0b2f7Stbbdev};
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic void set_thread_affinity_mask( std::size_t maskSize, const basic_mask_t* threadMask ) {
734f0bc0SPablo Romero#if __FreeBSD__ || __NetBSD__ || __OpenBSD__
51c0b2f7Stbbdev    if( cpuset_setaffinity( CPU_LEVEL_WHICH, CPU_WHICH_TID, -1, maskSize, threadMask ) )
734f0bc0SPablo Romero#else /* __unix__ */
734f0bc0SPablo Romero    if( sched_setaffinity( 0, maskSize, threadMask ) )
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev        // Here and below the error severity is lowered from critical level
51c0b2f7Stbbdev        // because it may happen during TBB library unload because of not
51c0b2f7Stbbdev        // waiting for workers to complete (current RML policy, to be fixed).
51c0b2f7Stbbdev        // handle_perror( errno, "setaffinity syscall" );
51c0b2f7Stbbdev        runtime_warning( "setaffinity syscall failed" );
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic void get_thread_affinity_mask( std::size_t maskSize, basic_mask_t* threadMask ) {
734f0bc0SPablo Romero#if __FreeBSD__ || __NetBSD__ || __OpenBSD__
51c0b2f7Stbbdev    if( cpuset_getaffinity( CPU_LEVEL_WHICH, CPU_WHICH_TID, -1, maskSize, threadMask ) )
734f0bc0SPablo Romero#else /* __unix__ */
734f0bc0SPablo Romero    if( sched_getaffinity( 0, maskSize, threadMask ) )
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev    runtime_warning( "getaffinity syscall failed" );
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic basic_mask_t* process_mask;
51c0b2f7Stbbdevstatic int num_masks;
51c0b2f7Stbbdev
51c0b2f7Stbbdevvoid destroy_process_mask() {
51c0b2f7Stbbdev    delete [] process_mask;
ba947f18SIlya Isaev    process_mask = nullptr;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdev#define curMaskSize sizeof(basic_mask_t) * num_masks
51c0b2f7Stbbdevaffinity_helper::~affinity_helper() {
51c0b2f7Stbbdev    if( threadMask ) {
51c0b2f7Stbbdev        if( is_changed ) {
51c0b2f7Stbbdev            set_thread_affinity_mask( curMaskSize, threadMask );
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev        delete [] threadMask;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev}
51c0b2f7Stbbdevvoid affinity_helper::protect_affinity_mask( bool restore_process_mask ) {
57f524caSIlya Isaev    if( threadMask == nullptr && num_masks ) { // TODO: assert num_masks validity?
51c0b2f7Stbbdev        threadMask = new basic_mask_t [num_masks];
51c0b2f7Stbbdev        std::memset( threadMask, 0, curMaskSize );
51c0b2f7Stbbdev        get_thread_affinity_mask( curMaskSize, threadMask );
51c0b2f7Stbbdev        if( restore_process_mask ) {
51c0b2f7Stbbdev            __TBB_ASSERT( process_mask, "A process mask is requested but not yet stored" );
51c0b2f7Stbbdev            is_changed = memcmp( process_mask, threadMask, curMaskSize );
51c0b2f7Stbbdev            if( is_changed )
51c0b2f7Stbbdev                set_thread_affinity_mask( curMaskSize, process_mask );
51c0b2f7Stbbdev        } else {
51c0b2f7Stbbdev            // Assume that the mask will be changed by the caller.
51c0b2f7Stbbdev            is_changed = 1;
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev}
51c0b2f7Stbbdevvoid affinity_helper::dismiss() {
51c0b2f7Stbbdev    delete [] threadMask;
57f524caSIlya Isaev    threadMask = nullptr;
51c0b2f7Stbbdev    is_changed = 0;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev#undef curMaskSize
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic std::atomic<do_once_state> hardware_concurrency_info;
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic int theNumProcs;
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic void initialize_hardware_concurrency_info () {
51c0b2f7Stbbdev    int err;
51c0b2f7Stbbdev    int availableProcs = 0;
51c0b2f7Stbbdev    int numMasks = 1;
51c0b2f7Stbbdev    int maxProcs = sysconf(_SC_NPROCESSORS_ONLN);
51c0b2f7Stbbdev    basic_mask_t* processMask;
51c0b2f7Stbbdev    const std::size_t BasicMaskSize =  sizeof(basic_mask_t);
51c0b2f7Stbbdev    for (;;) {
51c0b2f7Stbbdev        const int curMaskSize = BasicMaskSize * numMasks;
51c0b2f7Stbbdev        processMask = new basic_mask_t[numMasks];
51c0b2f7Stbbdev        std::memset( processMask, 0, curMaskSize );
734f0bc0SPablo Romero#if __FreeBSD__ || __NetBSD__ || __OpenBSD__
51c0b2f7Stbbdev        // CPU_LEVEL_WHICH - anonymous (current) mask, CPU_LEVEL_CPUSET - assigned mask
51c0b2f7Stbbdev        err = cpuset_getaffinity( CPU_LEVEL_WHICH, CPU_WHICH_PID, -1, curMaskSize, processMask );
51c0b2f7Stbbdev        if ( !err || errno != ERANGE || curMaskSize * CHAR_BIT >= 16 * 1024 )
51c0b2f7Stbbdev            break;
734f0bc0SPablo Romero#else /* __unix__ */
734f0bc0SPablo Romero        int pid = getpid();
734f0bc0SPablo Romero        err = sched_getaffinity( pid, curMaskSize, processMask );
734f0bc0SPablo Romero        if ( !err || errno != EINVAL || curMaskSize * CHAR_BIT >= 256 * 1024 )
734f0bc0SPablo Romero             break;
734f0bc0SPablo Romero#endif
51c0b2f7Stbbdev        delete[] processMask;
51c0b2f7Stbbdev        numMasks <<= 1;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev    if ( !err ) {
51c0b2f7Stbbdev        // We have found the mask size and captured the process affinity mask into processMask.
51c0b2f7Stbbdev        num_masks = numMasks; // do here because it's needed for affinity_helper to work
734f0bc0SPablo Romero#if __unix__
51c0b2f7Stbbdev        // For better coexistence with libiomp which might have changed the mask already,
51c0b2f7Stbbdev        // check for its presence and ask it to restore the mask.
51c0b2f7Stbbdev        dynamic_link_handle libhandle;
51c0b2f7Stbbdev        if ( dynamic_link( "libiomp5.so", iompLinkTable, 1, &libhandle, DYNAMIC_LINK_GLOBAL ) ) {
51c0b2f7Stbbdev            // We have found the symbol provided by libiomp5 for restoring original thread affinity.
51c0b2f7Stbbdev            affinity_helper affhelp;
51c0b2f7Stbbdev            affhelp.protect_affinity_mask( /*restore_process_mask=*/false );
51c0b2f7Stbbdev            if ( libiomp_try_restoring_original_mask()==0 ) {
51c0b2f7Stbbdev                // Now we have the right mask to capture, restored by libiomp.
51c0b2f7Stbbdev                const int curMaskSize = BasicMaskSize * numMasks;
51c0b2f7Stbbdev                std::memset( processMask, 0, curMaskSize );
51c0b2f7Stbbdev                get_thread_affinity_mask( curMaskSize, processMask );
51c0b2f7Stbbdev            } else
51c0b2f7Stbbdev                affhelp.dismiss();  // thread mask has not changed
51c0b2f7Stbbdev            dynamic_unlink( libhandle );
51c0b2f7Stbbdev            // Destructor of affinity_helper restores the thread mask (unless dismissed).
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev        for ( int m = 0; availableProcs < maxProcs && m < numMasks; ++m ) {
51c0b2f7Stbbdev            for ( std::size_t i = 0; (availableProcs < maxProcs) && (i < BasicMaskSize * CHAR_BIT); ++i ) {
51c0b2f7Stbbdev                if ( CPU_ISSET( i, processMask + m ) )
51c0b2f7Stbbdev                    ++availableProcs;
51c0b2f7Stbbdev            }
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev        process_mask = processMask;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev    else {
51c0b2f7Stbbdev        // Failed to get the process affinity mask; assume the whole machine can be used.
51c0b2f7Stbbdev        availableProcs = (maxProcs == INT_MAX) ? sysconf(_SC_NPROCESSORS_ONLN) : maxProcs;
51c0b2f7Stbbdev        delete[] processMask;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev    theNumProcs = availableProcs > 0 ? availableProcs : 1; // Fail safety strap
57f524caSIlya Isaev    __TBB_ASSERT( theNumProcs <= sysconf(_SC_NPROCESSORS_ONLN), nullptr);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevint AvailableHwConcurrency() {
51c0b2f7Stbbdev    atomic_do_once( &initialize_hardware_concurrency_info, hardware_concurrency_info );
51c0b2f7Stbbdev    return theNumProcs;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdev/* End of __TBB_USE_OS_AFFINITY_SYSCALL implementation */
51c0b2f7Stbbdev#elif __ANDROID__
51c0b2f7Stbbdev
51c0b2f7Stbbdev// Work-around for Android that reads the correct number of available CPUs since system calls are unreliable.
51c0b2f7Stbbdev// Format of "present" file is: ([<int>-<int>|<int>],)+
51c0b2f7Stbbdevint AvailableHwConcurrency() {
51c0b2f7Stbbdev    FILE *fp = fopen("/sys/devices/system/cpu/present", "r");
57f524caSIlya Isaev    if (fp == nullptr) return 1;
51c0b2f7Stbbdev    int num_args, lower, upper, num_cpus=0;
51c0b2f7Stbbdev    while ((num_args = fscanf(fp, "%u-%u", &lower, &upper)) != EOF) {
51c0b2f7Stbbdev        switch(num_args) {
51c0b2f7Stbbdev            case 2: num_cpus += upper - lower + 1; break;
51c0b2f7Stbbdev            case 1: num_cpus += 1; break;
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev        fscanf(fp, ",");
51c0b2f7Stbbdev    }
*ddc3bd03SPavel Kumbrasev    fclose(fp);
51c0b2f7Stbbdev    return (num_cpus > 0) ? num_cpus : 1;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdev#elif defined(_SC_NPROCESSORS_ONLN)
51c0b2f7Stbbdev
51c0b2f7Stbbdevint AvailableHwConcurrency() {
51c0b2f7Stbbdev    int n = sysconf(_SC_NPROCESSORS_ONLN);
51c0b2f7Stbbdev    return (n > 0) ? n : 1;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdev#elif _WIN32||_WIN64
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic std::atomic<do_once_state> hardware_concurrency_info;
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic const WORD TBB_ALL_PROCESSOR_GROUPS = 0xffff;
51c0b2f7Stbbdev
51c0b2f7Stbbdev// Statically allocate an array for processor group information.
51c0b2f7Stbbdev// Windows 7 supports maximum 4 groups, but let's look ahead a little.
51c0b2f7Stbbdevstatic const WORD MaxProcessorGroups = 64;
51c0b2f7Stbbdev
51c0b2f7Stbbdevstruct ProcessorGroupInfo {
51c0b2f7Stbbdev    DWORD_PTR   mask;                   ///< Affinity mask covering the whole group
51c0b2f7Stbbdev    int         numProcs;               ///< Number of processors in the group
51c0b2f7Stbbdev    int         numProcsRunningTotal;   ///< Subtotal of processors in this and preceding groups
51c0b2f7Stbbdev
51c0b2f7Stbbdev    //! Total number of processor groups in the system
51c0b2f7Stbbdev    static int NumGroups;
51c0b2f7Stbbdev
b15aabb3Stbbdev    //! Index of the group with a slot reserved for the first external thread
51c0b2f7Stbbdev    /** In the context of multiple processor groups support current implementation
b15aabb3Stbbdev        defines "the first external thread" as the first thread to invoke
51c0b2f7Stbbdev        AvailableHwConcurrency().
51c0b2f7Stbbdev
51c0b2f7Stbbdev        TODO:   Implement a dynamic scheme remapping workers depending on the pending
b15aabb3Stbbdev                external threads affinity. **/
51c0b2f7Stbbdev    static int HoleIndex;
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
51c0b2f7Stbbdevint ProcessorGroupInfo::NumGroups = 1;
51c0b2f7Stbbdevint ProcessorGroupInfo::HoleIndex = 0;
51c0b2f7Stbbdev
51c0b2f7StbbdevProcessorGroupInfo theProcessorGroups[MaxProcessorGroups];
0a521127SAnuya Wellingint calculate_numa[MaxProcessorGroups];  //Array needed for FindProcessorGroupIndex to calculate Processor Group when number of threads > number of cores to distribute threads evenly between processor groups
0a521127SAnuya Wellingint numaSum;
51c0b2f7Stbbdevstruct TBB_GROUP_AFFINITY {
51c0b2f7Stbbdev    DWORD_PTR Mask;
51c0b2f7Stbbdev    WORD   Group;
51c0b2f7Stbbdev    WORD   Reserved[3];
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
57f524caSIlya Isaevstatic DWORD (WINAPI *TBB_GetActiveProcessorCount)( WORD groupIndex ) = nullptr;
57f524caSIlya Isaevstatic WORD (WINAPI *TBB_GetActiveProcessorGroupCount)() = nullptr;
51c0b2f7Stbbdevstatic BOOL (WINAPI *TBB_SetThreadGroupAffinity)( HANDLE hThread,
51c0b2f7Stbbdev                        const TBB_GROUP_AFFINITY* newAff, TBB_GROUP_AFFINITY *prevAff );
51c0b2f7Stbbdevstatic BOOL (WINAPI *TBB_GetThreadGroupAffinity)( HANDLE hThread, TBB_GROUP_AFFINITY* );
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic const dynamic_link_descriptor ProcessorGroupsApiLinkTable[] = {
51c0b2f7Stbbdev      DLD(GetActiveProcessorCount, TBB_GetActiveProcessorCount)
51c0b2f7Stbbdev    , DLD(GetActiveProcessorGroupCount, TBB_GetActiveProcessorGroupCount)
51c0b2f7Stbbdev    , DLD(SetThreadGroupAffinity, TBB_SetThreadGroupAffinity)
51c0b2f7Stbbdev    , DLD(GetThreadGroupAffinity, TBB_GetThreadGroupAffinity)
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
51c0b2f7Stbbdevstatic void initialize_hardware_concurrency_info () {
478de5b1Stbbdev    suppress_unused_warning(TBB_ALL_PROCESSOR_GROUPS);
51c0b2f7Stbbdev#if __TBB_WIN8UI_SUPPORT
51c0b2f7Stbbdev    // For these applications processor groups info is unavailable
51c0b2f7Stbbdev    // Setting up a number of processors for one processor group
51c0b2f7Stbbdev    theProcessorGroups[0].numProcs = theProcessorGroups[0].numProcsRunningTotal = std::thread::hardware_concurrency();
51c0b2f7Stbbdev#else /* __TBB_WIN8UI_SUPPORT */
51c0b2f7Stbbdev    dynamic_link( "Kernel32.dll", ProcessorGroupsApiLinkTable,
51c0b2f7Stbbdev                  sizeof(ProcessorGroupsApiLinkTable)/sizeof(dynamic_link_descriptor) );
51c0b2f7Stbbdev    SYSTEM_INFO si;
51c0b2f7Stbbdev    GetNativeSystemInfo(&si);
51c0b2f7Stbbdev    DWORD_PTR pam, sam, m = 1;
51c0b2f7Stbbdev    GetProcessAffinityMask( GetCurrentProcess(), &pam, &sam );
51c0b2f7Stbbdev    int nproc = 0;
51c0b2f7Stbbdev    for ( std::size_t i = 0; i < sizeof(DWORD_PTR) * CHAR_BIT; ++i, m <<= 1 ) {
51c0b2f7Stbbdev        if ( pam & m )
51c0b2f7Stbbdev            ++nproc;
51c0b2f7Stbbdev    }
57f524caSIlya Isaev    __TBB_ASSERT( nproc <= (int)si.dwNumberOfProcessors, nullptr);
51c0b2f7Stbbdev    // By default setting up a number of processors for one processor group
51c0b2f7Stbbdev    theProcessorGroups[0].numProcs = theProcessorGroups[0].numProcsRunningTotal = nproc;
51c0b2f7Stbbdev    // Setting up processor groups in case the process does not restrict affinity mask and more than one processor group is present
51c0b2f7Stbbdev    if ( nproc == (int)si.dwNumberOfProcessors && TBB_GetActiveProcessorCount ) {
51c0b2f7Stbbdev        // The process does not have restricting affinity mask and multiple processor groups are possible
51c0b2f7Stbbdev        ProcessorGroupInfo::NumGroups = (int)TBB_GetActiveProcessorGroupCount();
57f524caSIlya Isaev        __TBB_ASSERT( ProcessorGroupInfo::NumGroups <= MaxProcessorGroups, nullptr);
51c0b2f7Stbbdev        // Fail safety bootstrap. Release versions will limit available concurrency
51c0b2f7Stbbdev        // level, while debug ones would assert.
51c0b2f7Stbbdev        if ( ProcessorGroupInfo::NumGroups > MaxProcessorGroups )
51c0b2f7Stbbdev            ProcessorGroupInfo::NumGroups = MaxProcessorGroups;
51c0b2f7Stbbdev        if ( ProcessorGroupInfo::NumGroups > 1 ) {
51c0b2f7Stbbdev            TBB_GROUP_AFFINITY ga;
51c0b2f7Stbbdev            if ( TBB_GetThreadGroupAffinity( GetCurrentThread(), &ga ) )
51c0b2f7Stbbdev                ProcessorGroupInfo::HoleIndex = ga.Group;
51c0b2f7Stbbdev            int nprocs = 0;
0a521127SAnuya Welling            int min_procs = INT_MAX;
51c0b2f7Stbbdev            for ( WORD i = 0; i < ProcessorGroupInfo::NumGroups; ++i ) {
51c0b2f7Stbbdev                ProcessorGroupInfo  &pgi = theProcessorGroups[i];
51c0b2f7Stbbdev                pgi.numProcs = (int)TBB_GetActiveProcessorCount(i);
0a521127SAnuya Welling                if (pgi.numProcs < min_procs) min_procs = pgi.numProcs;  //Finding the minimum number of processors in the Processor Groups
0a521127SAnuya Welling                calculate_numa[i] = pgi.numProcs;
57f524caSIlya Isaev                __TBB_ASSERT( pgi.numProcs <= (int)sizeof(DWORD_PTR) * CHAR_BIT, nullptr);
51c0b2f7Stbbdev                pgi.mask = pgi.numProcs == sizeof(DWORD_PTR) * CHAR_BIT ? ~(DWORD_PTR)0 : (DWORD_PTR(1) << pgi.numProcs) - 1;
51c0b2f7Stbbdev                pgi.numProcsRunningTotal = nprocs += pgi.numProcs;
51c0b2f7Stbbdev            }
57f524caSIlya Isaev            __TBB_ASSERT( nprocs == (int)TBB_GetActiveProcessorCount( TBB_ALL_PROCESSOR_GROUPS ), nullptr);
0a521127SAnuya Welling
0a521127SAnuya Welling            calculate_numa[0] = (calculate_numa[0] / min_procs)-1;
0a521127SAnuya Welling            for (WORD i = 1; i < ProcessorGroupInfo::NumGroups; ++i) {
0a521127SAnuya Welling                calculate_numa[i] = calculate_numa[i-1] + (calculate_numa[i] / min_procs);
51c0b2f7Stbbdev            }
0a521127SAnuya Welling
0a521127SAnuya Welling            numaSum = calculate_numa[ProcessorGroupInfo::NumGroups - 1];
0a521127SAnuya Welling
0a521127SAnuya Welling        }
0a521127SAnuya Welling
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev#endif /* __TBB_WIN8UI_SUPPORT */
51c0b2f7Stbbdev
51c0b2f7Stbbdev    PrintExtraVersionInfo("Processor groups", "%d", ProcessorGroupInfo::NumGroups);
51c0b2f7Stbbdev    if (ProcessorGroupInfo::NumGroups>1)
51c0b2f7Stbbdev        for (int i=0; i<ProcessorGroupInfo::NumGroups; ++i)
51c0b2f7Stbbdev            PrintExtraVersionInfo( "----- Group", "%d: size %d", i, theProcessorGroups[i].numProcs);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevint NumberOfProcessorGroups() {
51c0b2f7Stbbdev    __TBB_ASSERT( hardware_concurrency_info == do_once_state::initialized, "NumberOfProcessorGroups is used before AvailableHwConcurrency" );
51c0b2f7Stbbdev    return ProcessorGroupInfo::NumGroups;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevint FindProcessorGroupIndex ( int procIdx ) {
0a521127SAnuya Welling    int current_grp_idx = ProcessorGroupInfo::HoleIndex;
0a521127SAnuya Welling    if (procIdx >= theProcessorGroups[current_grp_idx].numProcs  && procIdx < theProcessorGroups[ProcessorGroupInfo::NumGroups - 1].numProcsRunningTotal) {
0a521127SAnuya Welling        procIdx = procIdx - theProcessorGroups[current_grp_idx].numProcs;
51c0b2f7Stbbdev        do {
0a521127SAnuya Welling            current_grp_idx = (current_grp_idx + 1) % (ProcessorGroupInfo::NumGroups);
0a521127SAnuya Welling            procIdx = procIdx - theProcessorGroups[current_grp_idx].numProcs;
0a521127SAnuya Welling
0a521127SAnuya Welling        } while (procIdx >= 0);
51c0b2f7Stbbdev    }
0a521127SAnuya Welling    else if (procIdx >= theProcessorGroups[ProcessorGroupInfo::NumGroups - 1].numProcsRunningTotal) {
0a521127SAnuya Welling        int temp_grp_index = 0;
0a521127SAnuya Welling        procIdx = procIdx - theProcessorGroups[ProcessorGroupInfo::NumGroups - 1].numProcsRunningTotal;
0a521127SAnuya Welling        procIdx = procIdx % (numaSum+1);  //ProcIdx to stay between 0 and numaSum
0a521127SAnuya Welling
0a521127SAnuya Welling        while (procIdx - calculate_numa[temp_grp_index] > 0) {
0a521127SAnuya Welling            temp_grp_index = (temp_grp_index + 1) % ProcessorGroupInfo::NumGroups;
0a521127SAnuya Welling        }
0a521127SAnuya Welling        current_grp_idx = temp_grp_index;
0a521127SAnuya Welling    }
0a521127SAnuya Welling    __TBB_ASSERT(current_grp_idx < ProcessorGroupInfo::NumGroups, nullptr);
0a521127SAnuya Welling
0a521127SAnuya Welling    return current_grp_idx;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevvoid MoveThreadIntoProcessorGroup( void* hThread, int groupIndex ) {
51c0b2f7Stbbdev    __TBB_ASSERT( hardware_concurrency_info == do_once_state::initialized, "MoveThreadIntoProcessorGroup is used before AvailableHwConcurrency" );
51c0b2f7Stbbdev    if ( !TBB_SetThreadGroupAffinity )
51c0b2f7Stbbdev        return;
51c0b2f7Stbbdev    TBB_GROUP_AFFINITY ga = { theProcessorGroups[groupIndex].mask, (WORD)groupIndex, {0,0,0} };
57f524caSIlya Isaev    TBB_SetThreadGroupAffinity( hThread, &ga, nullptr);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevint AvailableHwConcurrency() {
51c0b2f7Stbbdev    atomic_do_once( &initialize_hardware_concurrency_info, hardware_concurrency_info );
51c0b2f7Stbbdev    return theProcessorGroups[ProcessorGroupInfo::NumGroups - 1].numProcsRunningTotal;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdev/* End of _WIN32||_WIN64 implementation */
51c0b2f7Stbbdev#else
51c0b2f7Stbbdev    #error AvailableHwConcurrency is not implemented for this OS
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev
51c0b2f7Stbbdev} // namespace r1
51c0b2f7Stbbdev} // namespace detail
51c0b2f7Stbbdev} // namespace tbb
51c0b2f7Stbbdev
51c0b2f7Stbbdev#endif /* !__TBB_HardwareConcurrency */