src/tbbbind/tbb_bind.cpp

51c0b2f7Stbbdev/*
b15aabb3Stbbdev    Copyright (c) 2019-2021 Intel Corporation
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Licensed under the Apache License, Version 2.0 (the "License");
51c0b2f7Stbbdev    you may not use this file except in compliance with the License.
51c0b2f7Stbbdev    You may obtain a copy of the License at
51c0b2f7Stbbdev
51c0b2f7Stbbdev        http://www.apache.org/licenses/LICENSE-2.0
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Unless required by applicable law or agreed to in writing, software
51c0b2f7Stbbdev    distributed under the License is distributed on an "AS IS" BASIS,
51c0b2f7Stbbdev    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
51c0b2f7Stbbdev    See the License for the specific language governing permissions and
51c0b2f7Stbbdev    limitations under the License.
51c0b2f7Stbbdev*/
51c0b2f7Stbbdev
b15aabb3Stbbdev#include <vector>
b15aabb3Stbbdev#include <mutex>
b15aabb3Stbbdev
51c0b2f7Stbbdev#include "../tbb/assert_impl.h" // Out-of-line TBB assertion handling routines are instantiated here.
49e08aacStbbdev#include "oneapi/tbb/detail/_assert.h"
8827ea7dSLong Nguyen#include "oneapi/tbb/detail/_config.h"
51c0b2f7Stbbdev
478de5b1Stbbdev#if _MSC_VER && !__INTEL_COMPILER && !__clang__
51c0b2f7Stbbdev#pragma warning( push )
51c0b2f7Stbbdev#pragma warning( disable : 4100 )
478de5b1Stbbdev#elif _MSC_VER && __clang__
478de5b1Stbbdev#pragma GCC diagnostic push
478de5b1Stbbdev#pragma GCC diagnostic ignored "-Wunused-parameter"
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev#include <hwloc.h>
478de5b1Stbbdev#if _MSC_VER && !__INTEL_COMPILER && !__clang__
51c0b2f7Stbbdev#pragma warning( pop )
478de5b1Stbbdev#elif _MSC_VER && __clang__
478de5b1Stbbdev#pragma GCC diagnostic pop
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev
e96dbf4bSIvan Kochin#define __TBBBIND_HWLOC_HYBRID_CPUS_INTERFACES_PRESENT (HWLOC_API_VERSION >= 0x20400)
e96dbf4bSIvan Kochin#define __TBBBIND_HWLOC_TOPOLOGY_FLAG_RESTRICT_TO_CPUBINDING_PRESENT (HWLOC_API_VERSION >= 0x20500)
51c0b2f7Stbbdev
51c0b2f7Stbbdev// Most of hwloc calls returns negative exit code on error.
51c0b2f7Stbbdev// This macro tracks error codes that are returned from the hwloc interfaces.
51c0b2f7Stbbdev#define assertion_hwloc_wrapper(command, ...) \
51c0b2f7Stbbdev        __TBB_ASSERT_EX( (command(__VA_ARGS__)) >= 0, "Error occurred during call to hwloc API.");
51c0b2f7Stbbdev
51c0b2f7Stbbdevnamespace tbb {
51c0b2f7Stbbdevnamespace detail {
51c0b2f7Stbbdevnamespace r1 {
51c0b2f7Stbbdev
51c0b2f7Stbbdev//------------------------------------------------------------------------
51c0b2f7Stbbdev// Information about the machine's hardware TBB is happen to work on
51c0b2f7Stbbdev//------------------------------------------------------------------------
edc30c82SIvan Kochinclass system_topology {
b15aabb3Stbbdev    friend class binding_handler;
51c0b2f7Stbbdev
b15aabb3Stbbdev    // Common topology members
b15aabb3Stbbdev    hwloc_topology_t topology{nullptr};
b15aabb3Stbbdev    hwloc_cpuset_t   process_cpu_affinity_mask{nullptr};
b15aabb3Stbbdev    hwloc_nodeset_t  process_node_affinity_mask{nullptr};
b15aabb3Stbbdev    std::size_t number_of_processors_groups{1};
51c0b2f7Stbbdev
b15aabb3Stbbdev    // NUMA API related topology members
b15aabb3Stbbdev    std::vector<hwloc_cpuset_t> numa_affinity_masks_list{};
b15aabb3Stbbdev    std::vector<int> numa_indexes_list{};
b15aabb3Stbbdev    int numa_nodes_count{0};
b15aabb3Stbbdev
b15aabb3Stbbdev    // Hybrid CPUs API related topology members
b15aabb3Stbbdev    std::vector<hwloc_cpuset_t> core_types_affinity_masks_list{};
b15aabb3Stbbdev    std::vector<int> core_types_indexes_list{};
51c0b2f7Stbbdev
51c0b2f7Stbbdev    enum init_stages { uninitialized,
51c0b2f7Stbbdev                       started,
51c0b2f7Stbbdev                       topology_allocated,
51c0b2f7Stbbdev                       topology_loaded,
51c0b2f7Stbbdev                       topology_parsed } initialization_state;
51c0b2f7Stbbdev
b15aabb3Stbbdev    // Binding threads that locate in another Windows Processor groups
51c0b2f7Stbbdev    // is allowed only if machine topology contains several Windows Processors groups
51c0b2f7Stbbdev    // and process affinity mask wasn`t limited manually (affinity mask cannot violates
51c0b2f7Stbbdev    // processors group boundaries).
b15aabb3Stbbdev    bool intergroup_binding_allowed(std::size_t groups_num) { return groups_num > 1; }
51c0b2f7Stbbdev
b15aabb3Stbbdevprivate:
b15aabb3Stbbdev    void topology_initialization(std::size_t groups_num) {
51c0b2f7Stbbdev        initialization_state = started;
51c0b2f7Stbbdev
51c0b2f7Stbbdev        // Parse topology
51c0b2f7Stbbdev        if ( hwloc_topology_init( &topology ) == 0 ) {
51c0b2f7Stbbdev            initialization_state = topology_allocated;
e96dbf4bSIvan Kochin#if __TBBBIND_HWLOC_TOPOLOGY_FLAG_RESTRICT_TO_CPUBINDING_PRESENT
e96dbf4bSIvan Kochin            if ( groups_num == 1 &&
e96dbf4bSIvan Kochin                 hwloc_topology_set_flags(topology,
e96dbf4bSIvan Kochin                     HWLOC_TOPOLOGY_FLAG_IS_THISSYSTEM |
e96dbf4bSIvan Kochin                     HWLOC_TOPOLOGY_FLAG_RESTRICT_TO_CPUBINDING
e96dbf4bSIvan Kochin                 ) != 0
e96dbf4bSIvan Kochin            ) {
e96dbf4bSIvan Kochin                return;
e96dbf4bSIvan Kochin            }
e96dbf4bSIvan Kochin#endif
51c0b2f7Stbbdev            if ( hwloc_topology_load( topology ) == 0 ) {
51c0b2f7Stbbdev                initialization_state = topology_loaded;
51c0b2f7Stbbdev            }
51c0b2f7Stbbdev        }
b15aabb3Stbbdev        if ( initialization_state != topology_loaded )
51c0b2f7Stbbdev            return;
51c0b2f7Stbbdev
51c0b2f7Stbbdev        // Getting process affinity mask
51c0b2f7Stbbdev        if ( intergroup_binding_allowed(groups_num) ) {
51c0b2f7Stbbdev            process_cpu_affinity_mask  = hwloc_bitmap_dup(hwloc_topology_get_complete_cpuset (topology));
51c0b2f7Stbbdev            process_node_affinity_mask = hwloc_bitmap_dup(hwloc_topology_get_complete_nodeset(topology));
51c0b2f7Stbbdev        } else {
51c0b2f7Stbbdev            process_cpu_affinity_mask  = hwloc_bitmap_alloc();
51c0b2f7Stbbdev            process_node_affinity_mask = hwloc_bitmap_alloc();
51c0b2f7Stbbdev
51c0b2f7Stbbdev            assertion_hwloc_wrapper(hwloc_get_cpubind, topology, process_cpu_affinity_mask, 0);
51c0b2f7Stbbdev            hwloc_cpuset_to_nodeset(topology, process_cpu_affinity_mask, process_node_affinity_mask);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
b15aabb3Stbbdev        number_of_processors_groups = groups_num;
b15aabb3Stbbdev    }
b15aabb3Stbbdev
b15aabb3Stbbdev    void numa_topology_parsing() {
b15aabb3Stbbdev        // Fill parameters with stubs if topology parsing is broken.
b15aabb3Stbbdev        if ( initialization_state != topology_loaded ) {
b15aabb3Stbbdev            numa_nodes_count = 1;
b15aabb3Stbbdev            numa_indexes_list.push_back(-1);
b15aabb3Stbbdev            return;
b15aabb3Stbbdev        }
b15aabb3Stbbdev
51c0b2f7Stbbdev        // If system contains no NUMA nodes, HWLOC 1.11 returns an infinitely filled bitmap.
51c0b2f7Stbbdev        // hwloc_bitmap_weight() returns negative value for such bitmaps, so we use this check
51c0b2f7Stbbdev        // to change way of topology initialization.
51c0b2f7Stbbdev        numa_nodes_count = hwloc_bitmap_weight(process_node_affinity_mask);
51c0b2f7Stbbdev        if (numa_nodes_count <= 0) {
51c0b2f7Stbbdev            // numa_nodes_count may be empty if the process affinity mask is empty too (invalid case)
51c0b2f7Stbbdev            // or if some internal HWLOC error occurred.
51c0b2f7Stbbdev            // So we place -1 as index in this case.
51c0b2f7Stbbdev            numa_indexes_list.push_back(numa_nodes_count == 0 ? -1 : 0);
51c0b2f7Stbbdev            numa_nodes_count = 1;
51c0b2f7Stbbdev
b15aabb3Stbbdev            numa_affinity_masks_list.push_back(hwloc_bitmap_dup(process_cpu_affinity_mask));
b15aabb3Stbbdev        } else {
51c0b2f7Stbbdev            // Get NUMA logical indexes list
51c0b2f7Stbbdev            unsigned counter = 0;
51c0b2f7Stbbdev            int i = 0;
51c0b2f7Stbbdev            int max_numa_index = -1;
51c0b2f7Stbbdev            numa_indexes_list.resize(numa_nodes_count);
51c0b2f7Stbbdev            hwloc_obj_t node_buffer;
51c0b2f7Stbbdev            hwloc_bitmap_foreach_begin(i, process_node_affinity_mask) {
e96dbf4bSIvan Kochin                node_buffer = hwloc_get_numanode_obj_by_os_index(topology, i);
51c0b2f7Stbbdev                numa_indexes_list[counter] = static_cast<int>(node_buffer->logical_index);
51c0b2f7Stbbdev
51c0b2f7Stbbdev                if ( numa_indexes_list[counter] > max_numa_index ) {
51c0b2f7Stbbdev                    max_numa_index = numa_indexes_list[counter];
51c0b2f7Stbbdev                }
51c0b2f7Stbbdev
51c0b2f7Stbbdev                counter++;
51c0b2f7Stbbdev            } hwloc_bitmap_foreach_end();
51c0b2f7Stbbdev            __TBB_ASSERT(max_numa_index >= 0, "Maximal NUMA index must not be negative");
51c0b2f7Stbbdev
51c0b2f7Stbbdev            // Fill concurrency and affinity masks lists
b15aabb3Stbbdev            numa_affinity_masks_list.resize(max_numa_index + 1);
51c0b2f7Stbbdev            int index = 0;
51c0b2f7Stbbdev            hwloc_bitmap_foreach_begin(i, process_node_affinity_mask) {
e96dbf4bSIvan Kochin                node_buffer = hwloc_get_numanode_obj_by_os_index(topology, i);
51c0b2f7Stbbdev                index = static_cast<int>(node_buffer->logical_index);
51c0b2f7Stbbdev
b15aabb3Stbbdev                hwloc_cpuset_t& current_mask = numa_affinity_masks_list[index];
51c0b2f7Stbbdev                current_mask = hwloc_bitmap_dup(node_buffer->cpuset);
51c0b2f7Stbbdev
51c0b2f7Stbbdev                hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
51c0b2f7Stbbdev                __TBB_ASSERT(!hwloc_bitmap_iszero(current_mask), "hwloc detected unavailable NUMA node");
51c0b2f7Stbbdev            } hwloc_bitmap_foreach_end();
b15aabb3Stbbdev        }
b15aabb3Stbbdev    }
b15aabb3Stbbdev
b15aabb3Stbbdev    void core_types_topology_parsing() {
b15aabb3Stbbdev        // Fill parameters with stubs if topology parsing is broken.
b15aabb3Stbbdev        if ( initialization_state != topology_loaded ) {
b15aabb3Stbbdev            core_types_indexes_list.push_back(-1);
b15aabb3Stbbdev            return;
b15aabb3Stbbdev        }
e96dbf4bSIvan Kochin#if __TBBBIND_HWLOC_HYBRID_CPUS_INTERFACES_PRESENT
b15aabb3Stbbdev        __TBB_ASSERT(hwloc_get_api_version() >= 0x20400, "Hybrid CPUs support interfaces required HWLOC >= 2.4");
b15aabb3Stbbdev        // Parsing the hybrid CPU topology
b15aabb3Stbbdev        int core_types_number = hwloc_cpukinds_get_nr(topology, 0);
b15aabb3Stbbdev        bool core_types_parsing_broken = core_types_number <= 0;
b15aabb3Stbbdev        if (!core_types_parsing_broken) {
b15aabb3Stbbdev            core_types_affinity_masks_list.resize(core_types_number);
b15aabb3Stbbdev            int efficiency{-1};
b15aabb3Stbbdev
b15aabb3Stbbdev            for (int core_type = 0; core_type < core_types_number; ++core_type) {
b15aabb3Stbbdev                hwloc_cpuset_t& current_mask = core_types_affinity_masks_list[core_type];
b15aabb3Stbbdev                current_mask = hwloc_bitmap_alloc();
b15aabb3Stbbdev
b15aabb3Stbbdev                if (!hwloc_cpukinds_get_info(topology, core_type, current_mask, &efficiency, nullptr, nullptr, 0)
b15aabb3Stbbdev                    && efficiency >= 0
b15aabb3Stbbdev                ) {
b15aabb3Stbbdev                    hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
b15aabb3Stbbdev
b15aabb3Stbbdev                    if (hwloc_bitmap_weight(current_mask) > 0) {
b15aabb3Stbbdev                        core_types_indexes_list.push_back(core_type);
b15aabb3Stbbdev                    }
b15aabb3Stbbdev                    __TBB_ASSERT(hwloc_bitmap_weight(current_mask) >= 0, "Infinivitely filled core type mask");
b15aabb3Stbbdev                } else {
b15aabb3Stbbdev                    core_types_parsing_broken = true;
b15aabb3Stbbdev                    break;
b15aabb3Stbbdev                }
b15aabb3Stbbdev            }
b15aabb3Stbbdev        }
e96dbf4bSIvan Kochin#else /*!__TBBBIND_HWLOC_HYBRID_CPUS_INTERFACES_PRESENT*/
b15aabb3Stbbdev        bool core_types_parsing_broken{true};
e96dbf4bSIvan Kochin#endif /*__TBBBIND_HWLOC_HYBRID_CPUS_INTERFACES_PRESENT*/
b15aabb3Stbbdev
b15aabb3Stbbdev        if (core_types_parsing_broken) {
b15aabb3Stbbdev            for (auto& core_type_mask : core_types_affinity_masks_list) {
b15aabb3Stbbdev                hwloc_bitmap_free(core_type_mask);
b15aabb3Stbbdev            }
b15aabb3Stbbdev            core_types_affinity_masks_list.resize(1);
b15aabb3Stbbdev            core_types_indexes_list.resize(1);
b15aabb3Stbbdev
b15aabb3Stbbdev            core_types_affinity_masks_list[0] = hwloc_bitmap_dup(process_cpu_affinity_mask);
b15aabb3Stbbdev            core_types_indexes_list[0] = -1;
b15aabb3Stbbdev        }
b15aabb3Stbbdev    }
b15aabb3Stbbdev
*b53726aaSIvan Kochin    void enforce_hwloc_2_5_runtime_linkage() {
*b53726aaSIvan Kochin        // Without the call of this function HWLOC 2.4 can be successfully loaded during the tbbbind_2_5 loading.
*b53726aaSIvan Kochin        // It is possible since tbbbind_2_5 don't use any new entry points that were introduced in HWLOC 2.5
*b53726aaSIvan Kochin        // But tbbbind_2_5 compiles with HWLOC 2.5 header, therefore such situation requires binary forward compatibility
*b53726aaSIvan Kochin        // which are not guaranteed by the HWLOC library. To enforce linkage tbbbind_2_5 only with HWLOC >= 2.5 version
*b53726aaSIvan Kochin        // this function calls the interface that is available in the HWLOC 2.5 only.
*b53726aaSIvan Kochin#if HWLOC_API_VERSION >= 0x20500
*b53726aaSIvan Kochin        auto some_core = hwloc_get_next_obj_by_type(topology, HWLOC_OBJ_CORE, nullptr);
*b53726aaSIvan Kochin        hwloc_get_obj_with_same_locality(topology, some_core, HWLOC_OBJ_CORE, nullptr, nullptr, 0);
*b53726aaSIvan Kochin#endif
*b53726aaSIvan Kochin    }
*b53726aaSIvan Kochin
*b53726aaSIvan Kochin
b15aabb3Stbbdev    void initialize( std::size_t groups_num ) {
b15aabb3Stbbdev        if ( initialization_state != uninitialized )
b15aabb3Stbbdev            return;
b15aabb3Stbbdev
b15aabb3Stbbdev        topology_initialization(groups_num);
b15aabb3Stbbdev        numa_topology_parsing();
b15aabb3Stbbdev        core_types_topology_parsing();
b15aabb3Stbbdev
*b53726aaSIvan Kochin        enforce_hwloc_2_5_runtime_linkage();
*b53726aaSIvan Kochin
b15aabb3Stbbdev        if (initialization_state == topology_loaded)
51c0b2f7Stbbdev            initialization_state = topology_parsed;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
edc30c82SIvan Kochin    static system_topology* instance_ptr;
edc30c82SIvan Kochinpublic:
edc30c82SIvan Kochin    typedef hwloc_cpuset_t             affinity_mask;
edc30c82SIvan Kochin    typedef hwloc_const_cpuset_t const_affinity_mask;
edc30c82SIvan Kochin
edc30c82SIvan Kochin    bool is_topology_parsed() { return initialization_state == topology_parsed; }
edc30c82SIvan Kochin
edc30c82SIvan Kochin    static void construct( std::size_t groups_num ) {
edc30c82SIvan Kochin        if (instance_ptr == nullptr) {
edc30c82SIvan Kochin            instance_ptr = new system_topology();
edc30c82SIvan Kochin            instance_ptr->initialize(groups_num);
edc30c82SIvan Kochin        }
edc30c82SIvan Kochin    }
edc30c82SIvan Kochin
edc30c82SIvan Kochin    static system_topology& instance() {
edc30c82SIvan Kochin        __TBB_ASSERT(instance_ptr != nullptr, "Getting instance of non-constructed topology");
edc30c82SIvan Kochin        return *instance_ptr;
edc30c82SIvan Kochin    }
edc30c82SIvan Kochin
edc30c82SIvan Kochin    static void destroy() {
edc30c82SIvan Kochin        __TBB_ASSERT(instance_ptr != nullptr, "Destroying non-constructed topology");
edc30c82SIvan Kochin        delete instance_ptr;
edc30c82SIvan Kochin    }
edc30c82SIvan Kochin
edc30c82SIvan Kochin    ~system_topology() {
51c0b2f7Stbbdev        if ( is_topology_parsed() ) {
b15aabb3Stbbdev            for (auto& numa_node_mask : numa_affinity_masks_list) {
b15aabb3Stbbdev                hwloc_bitmap_free(numa_node_mask);
51c0b2f7Stbbdev            }
b15aabb3Stbbdev
b15aabb3Stbbdev            for (auto& core_type_mask : core_types_affinity_masks_list) {
b15aabb3Stbbdev                hwloc_bitmap_free(core_type_mask);
b15aabb3Stbbdev            }
b15aabb3Stbbdev
51c0b2f7Stbbdev            hwloc_bitmap_free(process_node_affinity_mask);
51c0b2f7Stbbdev            hwloc_bitmap_free(process_cpu_affinity_mask);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
51c0b2f7Stbbdev        if ( initialization_state >= topology_allocated ) {
51c0b2f7Stbbdev            hwloc_topology_destroy(topology);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
51c0b2f7Stbbdev        initialization_state = uninitialized;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
b15aabb3Stbbdev    void fill_topology_information(
b15aabb3Stbbdev        int& _numa_nodes_count, int*& _numa_indexes_list,
b15aabb3Stbbdev        int& _core_types_count, int*& _core_types_indexes_list
b15aabb3Stbbdev    ) {
edc30c82SIvan Kochin        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized system_topology");
b15aabb3Stbbdev        _numa_nodes_count = numa_nodes_count;
b15aabb3Stbbdev        _numa_indexes_list = numa_indexes_list.data();
b15aabb3Stbbdev
b15aabb3Stbbdev        _core_types_count = (int)core_types_indexes_list.size();
b15aabb3Stbbdev        _core_types_indexes_list = core_types_indexes_list.data();
b15aabb3Stbbdev    }
b15aabb3Stbbdev
b15aabb3Stbbdev    void fill_constraints_affinity_mask(affinity_mask input_mask, int numa_node_index, int core_type_index, int max_threads_per_core) {
edc30c82SIvan Kochin        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized system_topology");
b15aabb3Stbbdev        __TBB_ASSERT(numa_node_index < (int)numa_affinity_masks_list.size(), "Wrong NUMA node id");
b15aabb3Stbbdev        __TBB_ASSERT(core_type_index < (int)core_types_affinity_masks_list.size(), "Wrong core type id");
b15aabb3Stbbdev        __TBB_ASSERT(max_threads_per_core == -1 || max_threads_per_core > 0, "Wrong max_threads_per_core");
b15aabb3Stbbdev
b15aabb3Stbbdev        hwloc_cpuset_t constraints_mask = hwloc_bitmap_alloc();
b15aabb3Stbbdev        hwloc_cpuset_t core_mask = hwloc_bitmap_alloc();
b15aabb3Stbbdev
b15aabb3Stbbdev        hwloc_bitmap_copy(constraints_mask, process_cpu_affinity_mask);
b15aabb3Stbbdev        if (numa_node_index >= 0) {
b15aabb3Stbbdev            hwloc_bitmap_and(constraints_mask, constraints_mask, numa_affinity_masks_list[numa_node_index]);
b15aabb3Stbbdev        }
b15aabb3Stbbdev        if (core_type_index >= 0) {
b15aabb3Stbbdev            hwloc_bitmap_and(constraints_mask, constraints_mask, core_types_affinity_masks_list[core_type_index]);
b15aabb3Stbbdev        }
b15aabb3Stbbdev        if (max_threads_per_core > 0) {
b15aabb3Stbbdev            // clear input mask
b15aabb3Stbbdev            hwloc_bitmap_zero(input_mask);
b15aabb3Stbbdev
b15aabb3Stbbdev            hwloc_obj_t current_core = nullptr;
b15aabb3Stbbdev            while ((current_core = hwloc_get_next_obj_by_type(topology, HWLOC_OBJ_CORE, current_core)) != nullptr) {
b15aabb3Stbbdev                hwloc_bitmap_and(core_mask, constraints_mask, current_core->cpuset);
b15aabb3Stbbdev
b15aabb3Stbbdev                // fit the core mask to required bits number
b15aabb3Stbbdev                int current_threads_per_core = 0;
b15aabb3Stbbdev                for (int id = hwloc_bitmap_first(core_mask); id != -1; id = hwloc_bitmap_next(core_mask, id)) {
b15aabb3Stbbdev                    if (++current_threads_per_core > max_threads_per_core) {
b15aabb3Stbbdev                        hwloc_bitmap_clr(core_mask, id);
b15aabb3Stbbdev                    }
b15aabb3Stbbdev                }
b15aabb3Stbbdev
b15aabb3Stbbdev                hwloc_bitmap_or(input_mask, input_mask, core_mask);
b15aabb3Stbbdev            }
b15aabb3Stbbdev        } else {
b15aabb3Stbbdev            hwloc_bitmap_copy(input_mask, constraints_mask);
b15aabb3Stbbdev        }
b15aabb3Stbbdev
b15aabb3Stbbdev        hwloc_bitmap_free(core_mask);
b15aabb3Stbbdev        hwloc_bitmap_free(constraints_mask);
b15aabb3Stbbdev    }
b15aabb3Stbbdev
b15aabb3Stbbdev    void fit_num_threads_per_core(affinity_mask result_mask, affinity_mask current_mask, affinity_mask constraints_mask) {
b15aabb3Stbbdev        hwloc_bitmap_zero(result_mask);
b15aabb3Stbbdev        hwloc_obj_t current_core = nullptr;
b15aabb3Stbbdev        while ((current_core = hwloc_get_next_obj_by_type(topology, HWLOC_OBJ_CORE, current_core)) != nullptr) {
b15aabb3Stbbdev            if (hwloc_bitmap_intersects(current_mask, current_core->cpuset)) {
b15aabb3Stbbdev                hwloc_bitmap_or(result_mask, result_mask, current_core->cpuset);
b15aabb3Stbbdev            }
b15aabb3Stbbdev        }
b15aabb3Stbbdev        hwloc_bitmap_and(result_mask, result_mask, constraints_mask);
b15aabb3Stbbdev    }
b15aabb3Stbbdev
b15aabb3Stbbdev    int get_default_concurrency(int numa_node_index, int core_type_index, int max_threads_per_core) {
edc30c82SIvan Kochin        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized system_topology");
b15aabb3Stbbdev
b15aabb3Stbbdev        hwloc_cpuset_t constraints_mask = hwloc_bitmap_alloc();
b15aabb3Stbbdev        fill_constraints_affinity_mask(constraints_mask, numa_node_index, core_type_index, max_threads_per_core);
b15aabb3Stbbdev
b15aabb3Stbbdev        int default_concurrency = hwloc_bitmap_weight(constraints_mask);
b15aabb3Stbbdev        hwloc_bitmap_free(constraints_mask);
b15aabb3Stbbdev        return default_concurrency;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    affinity_mask allocate_process_affinity_mask() {
edc30c82SIvan Kochin        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized system_topology");
51c0b2f7Stbbdev        return hwloc_bitmap_dup(process_cpu_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void free_affinity_mask( affinity_mask mask_to_free ) {
51c0b2f7Stbbdev        hwloc_bitmap_free(mask_to_free); // If bitmap is nullptr, no operation is performed.
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void store_current_affinity_mask( affinity_mask current_mask ) {
51c0b2f7Stbbdev        assertion_hwloc_wrapper(hwloc_get_cpubind, topology, current_mask, HWLOC_CPUBIND_THREAD);
51c0b2f7Stbbdev
51c0b2f7Stbbdev        hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
51c0b2f7Stbbdev        __TBB_ASSERT(!hwloc_bitmap_iszero(current_mask),
51c0b2f7Stbbdev            "Current affinity mask must intersects with process affinity mask");
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
b15aabb3Stbbdev    void set_affinity_mask( const_affinity_mask mask ) {
b15aabb3Stbbdev        if (hwloc_bitmap_weight(mask) > 0) {
b15aabb3Stbbdev            assertion_hwloc_wrapper(hwloc_set_cpubind, topology, mask, HWLOC_CPUBIND_THREAD);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
edc30c82SIvan Kochinsystem_topology* system_topology::instance_ptr{nullptr};
edc30c82SIvan Kochin
51c0b2f7Stbbdevclass binding_handler {
51c0b2f7Stbbdev    // Following vector saves thread affinity mask on scheduler entry to return it to this thread
51c0b2f7Stbbdev    // on scheduler exit.
edc30c82SIvan Kochin    typedef std::vector<system_topology::affinity_mask> affinity_masks_container;
51c0b2f7Stbbdev    affinity_masks_container affinity_backup;
edc30c82SIvan Kochin    system_topology::affinity_mask handler_affinity_mask;
b15aabb3Stbbdev
b15aabb3Stbbdev#if WIN32
b15aabb3Stbbdev    affinity_masks_container affinity_buffer;
b15aabb3Stbbdev    int my_numa_node_id;
b15aabb3Stbbdev    int my_core_type_id;
b15aabb3Stbbdev    int my_max_threads_per_core;
b15aabb3Stbbdev#endif
51c0b2f7Stbbdev
51c0b2f7Stbbdevpublic:
b15aabb3Stbbdev    binding_handler( std::size_t size, int numa_node_id, int core_type_id, int max_threads_per_core )
b15aabb3Stbbdev        : affinity_backup(size)
b15aabb3Stbbdev#if WIN32
b15aabb3Stbbdev        , affinity_buffer(size)
b15aabb3Stbbdev        , my_numa_node_id(numa_node_id)
b15aabb3Stbbdev        , my_core_type_id(core_type_id)
b15aabb3Stbbdev        , my_max_threads_per_core(max_threads_per_core)
b15aabb3Stbbdev#endif
b15aabb3Stbbdev    {
b15aabb3Stbbdev        for (std::size_t i = 0; i < size; ++i) {
edc30c82SIvan Kochin            affinity_backup[i] = system_topology::instance().allocate_process_affinity_mask();
b15aabb3Stbbdev#if WIN32
edc30c82SIvan Kochin            affinity_buffer[i] = system_topology::instance().allocate_process_affinity_mask();
b15aabb3Stbbdev#endif
51c0b2f7Stbbdev        }
edc30c82SIvan Kochin        handler_affinity_mask = system_topology::instance().allocate_process_affinity_mask();
edc30c82SIvan Kochin        system_topology::instance().fill_constraints_affinity_mask
b15aabb3Stbbdev            (handler_affinity_mask, numa_node_id, core_type_id, max_threads_per_core);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    ~binding_handler() {
b15aabb3Stbbdev        for (std::size_t i = 0; i < affinity_backup.size(); ++i) {
edc30c82SIvan Kochin            system_topology::instance().free_affinity_mask(affinity_backup[i]);
b15aabb3Stbbdev#if WIN32
edc30c82SIvan Kochin            system_topology::instance().free_affinity_mask(affinity_buffer[i]);
b15aabb3Stbbdev#endif
51c0b2f7Stbbdev        }
edc30c82SIvan Kochin        system_topology::instance().free_affinity_mask(handler_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
b15aabb3Stbbdev    void apply_affinity( unsigned slot_num ) {
edc30c82SIvan Kochin        auto& topology = system_topology::instance();
51c0b2f7Stbbdev        __TBB_ASSERT(slot_num < affinity_backup.size(),
51c0b2f7Stbbdev            "The slot number is greater than the number of slots in the arena");
b15aabb3Stbbdev        __TBB_ASSERT(topology.is_topology_parsed(),
edc30c82SIvan Kochin            "Trying to get access to uninitialized system_topology");
51c0b2f7Stbbdev
b15aabb3Stbbdev        topology.store_current_affinity_mask(affinity_backup[slot_num]);
b15aabb3Stbbdev
b15aabb3Stbbdev#if WIN32
b15aabb3Stbbdev        // TBBBind supports only systems where NUMA nodes and core types do not cross the border
b15aabb3Stbbdev        // between several processor groups. So if a certain NUMA node or core type constraint
b15aabb3Stbbdev        // specified, then the constraints affinity mask will not cross the processor groups' border.
b15aabb3Stbbdev
b15aabb3Stbbdev        // But if we have constraint based only on the max_threads_per_core setting, then the
b15aabb3Stbbdev        // constraints affinity mask does may cross the border between several processor groups
b15aabb3Stbbdev        // on machines with more then 64 hardware threads. That is why we need to use the special
b15aabb3Stbbdev        // function, which regulates the number of threads in the current threads mask.
b15aabb3Stbbdev        if (topology.number_of_processors_groups > 1 && my_max_threads_per_core != -1 &&
b15aabb3Stbbdev            (my_numa_node_id == -1 || topology.numa_indexes_list.size() == 1) &&
b15aabb3Stbbdev            (my_core_type_id == -1 || topology.core_types_indexes_list.size() == 1)
b15aabb3Stbbdev        ) {
b15aabb3Stbbdev            topology.fit_num_threads_per_core(affinity_buffer[slot_num], affinity_backup[slot_num], handler_affinity_mask);
b15aabb3Stbbdev            topology.set_affinity_mask(affinity_buffer[slot_num]);
b15aabb3Stbbdev            return;
b15aabb3Stbbdev        }
b15aabb3Stbbdev#endif
b15aabb3Stbbdev        topology.set_affinity_mask(handler_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void restore_previous_affinity_mask( unsigned slot_num ) {
edc30c82SIvan Kochin        auto& topology = system_topology::instance();
b15aabb3Stbbdev        __TBB_ASSERT(topology.is_topology_parsed(),
edc30c82SIvan Kochin            "Trying to get access to uninitialized system_topology");
b15aabb3Stbbdev        topology.set_affinity_mask(affinity_backup[slot_num]);
51c0b2f7Stbbdev    };
51c0b2f7Stbbdev
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
51c0b2f7Stbbdevextern "C" { // exported to TBB interfaces
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT void __TBB_internal_initialize_system_topology(
b15aabb3Stbbdev    std::size_t groups_num,
b15aabb3Stbbdev    int& numa_nodes_count, int*& numa_indexes_list,
b15aabb3Stbbdev    int& core_types_count, int*& core_types_indexes_list
b15aabb3Stbbdev) {
edc30c82SIvan Kochin    system_topology::construct(groups_num);
edc30c82SIvan Kochin    system_topology::instance().fill_topology_information(
b15aabb3Stbbdev        numa_nodes_count, numa_indexes_list,
b15aabb3Stbbdev        core_types_count, core_types_indexes_list
b15aabb3Stbbdev    );
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT binding_handler* __TBB_internal_allocate_binding_handler(int number_of_slots, int numa_id, int core_type_id, int max_threads_per_core) {
b15aabb3Stbbdev    __TBB_ASSERT(number_of_slots > 0, "Trying to create numa handler for 0 threads.");
b15aabb3Stbbdev    return new binding_handler(number_of_slots, numa_id, core_type_id, max_threads_per_core);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT void __TBB_internal_deallocate_binding_handler(binding_handler* handler_ptr) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to deallocate nullptr pointer.");
51c0b2f7Stbbdev    delete handler_ptr;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT void __TBB_internal_apply_affinity(binding_handler* handler_ptr, int slot_num) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to get access to uninitialized metadata.");
b15aabb3Stbbdev    handler_ptr->apply_affinity(slot_num);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT void __TBB_internal_restore_affinity(binding_handler* handler_ptr, int slot_num) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to get access to uninitialized metadata.");
51c0b2f7Stbbdev    handler_ptr->restore_previous_affinity_mask(slot_num);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
8827ea7dSLong NguyenTBBBIND_EXPORT int __TBB_internal_get_default_concurrency(int numa_id, int core_type_id, int max_threads_per_core) {
edc30c82SIvan Kochin    return system_topology::instance().get_default_concurrency(numa_id, core_type_id, max_threads_per_core);
edc30c82SIvan Kochin}
edc30c82SIvan Kochin
edc30c82SIvan Kochinvoid __TBB_internal_destroy_system_topology() {
edc30c82SIvan Kochin    return system_topology::destroy();
b15aabb3Stbbdev}
b15aabb3Stbbdev
51c0b2f7Stbbdev} // extern "C"
51c0b2f7Stbbdev
51c0b2f7Stbbdev} // namespace r1
51c0b2f7Stbbdev} // namespace detail
51c0b2f7Stbbdev} // namespace tbb
51c0b2f7Stbbdev
51c0b2f7Stbbdev#undef assertion_hwloc_wrapper