src/tbbbind/tbb_bind.cpp

51c0b2f7Stbbdev/*
*b15aabb3Stbbdev    Copyright (c) 2019-2021 Intel Corporation
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Licensed under the Apache License, Version 2.0 (the "License");
51c0b2f7Stbbdev    you may not use this file except in compliance with the License.
51c0b2f7Stbbdev    You may obtain a copy of the License at
51c0b2f7Stbbdev
51c0b2f7Stbbdev        http://www.apache.org/licenses/LICENSE-2.0
51c0b2f7Stbbdev
51c0b2f7Stbbdev    Unless required by applicable law or agreed to in writing, software
51c0b2f7Stbbdev    distributed under the License is distributed on an "AS IS" BASIS,
51c0b2f7Stbbdev    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
51c0b2f7Stbbdev    See the License for the specific language governing permissions and
51c0b2f7Stbbdev    limitations under the License.
51c0b2f7Stbbdev*/
51c0b2f7Stbbdev
*b15aabb3Stbbdev#include <vector>
*b15aabb3Stbbdev#include <mutex>
*b15aabb3Stbbdev
51c0b2f7Stbbdev#include "../tbb/assert_impl.h" // Out-of-line TBB assertion handling routines are instantiated here.
49e08aacStbbdev#include "oneapi/tbb/detail/_assert.h"
51c0b2f7Stbbdev
51c0b2f7Stbbdev#if _MSC_VER && !__INTEL_COMPILER
51c0b2f7Stbbdev#pragma warning( push )
51c0b2f7Stbbdev#pragma warning( disable : 4100 )
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev#include <hwloc.h>
51c0b2f7Stbbdev#if _MSC_VER && !__INTEL_COMPILER
51c0b2f7Stbbdev#pragma warning( pop )
51c0b2f7Stbbdev#endif
51c0b2f7Stbbdev
*b15aabb3Stbbdev#define __HWLOC_HYBRID_CPUS_INTERFACES_PRESENT (HWLOC_API_VERSION >= 0x20400)
51c0b2f7Stbbdev
51c0b2f7Stbbdev// Most of hwloc calls returns negative exit code on error.
51c0b2f7Stbbdev// This macro tracks error codes that are returned from the hwloc interfaces.
51c0b2f7Stbbdev#define assertion_hwloc_wrapper(command, ...) \
51c0b2f7Stbbdev        __TBB_ASSERT_EX( (command(__VA_ARGS__)) >= 0, "Error occurred during call to hwloc API.");
51c0b2f7Stbbdev
51c0b2f7Stbbdevnamespace tbb {
51c0b2f7Stbbdevnamespace detail {
51c0b2f7Stbbdevnamespace r1 {
51c0b2f7Stbbdev
51c0b2f7Stbbdev//------------------------------------------------------------------------
51c0b2f7Stbbdev// Information about the machine's hardware TBB is happen to work on
51c0b2f7Stbbdev//------------------------------------------------------------------------
51c0b2f7Stbbdevclass platform_topology {
*b15aabb3Stbbdev    friend class binding_handler;
51c0b2f7Stbbdev
*b15aabb3Stbbdev    // Common topology members
*b15aabb3Stbbdev    hwloc_topology_t topology{nullptr};
*b15aabb3Stbbdev    hwloc_cpuset_t   process_cpu_affinity_mask{nullptr};
*b15aabb3Stbbdev    hwloc_nodeset_t  process_node_affinity_mask{nullptr};
*b15aabb3Stbbdev    std::size_t number_of_processors_groups{1};
51c0b2f7Stbbdev
*b15aabb3Stbbdev    // NUMA API related topology members
*b15aabb3Stbbdev    std::vector<hwloc_cpuset_t> numa_affinity_masks_list{};
*b15aabb3Stbbdev    std::vector<int> numa_indexes_list{};
*b15aabb3Stbbdev    int numa_nodes_count{0};
*b15aabb3Stbbdev
*b15aabb3Stbbdev    // Hybrid CPUs API related topology members
*b15aabb3Stbbdev    std::vector<hwloc_cpuset_t> core_types_affinity_masks_list{};
*b15aabb3Stbbdev    std::vector<int> core_types_indexes_list{};
51c0b2f7Stbbdev
51c0b2f7Stbbdev    enum init_stages { uninitialized,
51c0b2f7Stbbdev                       started,
51c0b2f7Stbbdev                       topology_allocated,
51c0b2f7Stbbdev                       topology_loaded,
51c0b2f7Stbbdev                       topology_parsed } initialization_state;
51c0b2f7Stbbdev
*b15aabb3Stbbdev    // Binding threads that locate in another Windows Processor groups
51c0b2f7Stbbdev    // is allowed only if machine topology contains several Windows Processors groups
51c0b2f7Stbbdev    // and process affinity mask wasn`t limited manually (affinity mask cannot violates
51c0b2f7Stbbdev    // processors group boundaries).
*b15aabb3Stbbdev    bool intergroup_binding_allowed(std::size_t groups_num) { return groups_num > 1; }
51c0b2f7Stbbdev
*b15aabb3Stbbdevprivate:
*b15aabb3Stbbdev    void topology_initialization(std::size_t groups_num) {
51c0b2f7Stbbdev        initialization_state = started;
51c0b2f7Stbbdev
51c0b2f7Stbbdev        // Parse topology
51c0b2f7Stbbdev        if ( hwloc_topology_init( &topology ) == 0 ) {
51c0b2f7Stbbdev            initialization_state = topology_allocated;
51c0b2f7Stbbdev            if ( hwloc_topology_load( topology ) == 0 ) {
51c0b2f7Stbbdev                initialization_state = topology_loaded;
51c0b2f7Stbbdev            }
51c0b2f7Stbbdev        }
*b15aabb3Stbbdev        if ( initialization_state != topology_loaded )
51c0b2f7Stbbdev            return;
51c0b2f7Stbbdev
51c0b2f7Stbbdev        // Getting process affinity mask
51c0b2f7Stbbdev        if ( intergroup_binding_allowed(groups_num) ) {
51c0b2f7Stbbdev            process_cpu_affinity_mask  = hwloc_bitmap_dup(hwloc_topology_get_complete_cpuset (topology));
51c0b2f7Stbbdev            process_node_affinity_mask = hwloc_bitmap_dup(hwloc_topology_get_complete_nodeset(topology));
51c0b2f7Stbbdev        } else {
51c0b2f7Stbbdev            process_cpu_affinity_mask  = hwloc_bitmap_alloc();
51c0b2f7Stbbdev            process_node_affinity_mask = hwloc_bitmap_alloc();
51c0b2f7Stbbdev
51c0b2f7Stbbdev            assertion_hwloc_wrapper(hwloc_get_cpubind, topology, process_cpu_affinity_mask, 0);
51c0b2f7Stbbdev            hwloc_cpuset_to_nodeset(topology, process_cpu_affinity_mask, process_node_affinity_mask);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
*b15aabb3Stbbdev        number_of_processors_groups = groups_num;
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    void numa_topology_parsing() {
*b15aabb3Stbbdev        // Fill parameters with stubs if topology parsing is broken.
*b15aabb3Stbbdev        if ( initialization_state != topology_loaded ) {
*b15aabb3Stbbdev            numa_nodes_count = 1;
*b15aabb3Stbbdev            numa_indexes_list.push_back(-1);
*b15aabb3Stbbdev            return;
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev
51c0b2f7Stbbdev        // If system contains no NUMA nodes, HWLOC 1.11 returns an infinitely filled bitmap.
51c0b2f7Stbbdev        // hwloc_bitmap_weight() returns negative value for such bitmaps, so we use this check
51c0b2f7Stbbdev        // to change way of topology initialization.
51c0b2f7Stbbdev        numa_nodes_count = hwloc_bitmap_weight(process_node_affinity_mask);
51c0b2f7Stbbdev        if (numa_nodes_count <= 0) {
51c0b2f7Stbbdev            // numa_nodes_count may be empty if the process affinity mask is empty too (invalid case)
51c0b2f7Stbbdev            // or if some internal HWLOC error occurred.
51c0b2f7Stbbdev            // So we place -1 as index in this case.
51c0b2f7Stbbdev            numa_indexes_list.push_back(numa_nodes_count == 0 ? -1 : 0);
51c0b2f7Stbbdev            numa_nodes_count = 1;
51c0b2f7Stbbdev
*b15aabb3Stbbdev            numa_affinity_masks_list.push_back(hwloc_bitmap_dup(process_cpu_affinity_mask));
*b15aabb3Stbbdev        } else {
51c0b2f7Stbbdev            // Get NUMA logical indexes list
51c0b2f7Stbbdev            unsigned counter = 0;
51c0b2f7Stbbdev            int i = 0;
51c0b2f7Stbbdev            int max_numa_index = -1;
51c0b2f7Stbbdev            numa_indexes_list.resize(numa_nodes_count);
51c0b2f7Stbbdev            hwloc_obj_t node_buffer;
51c0b2f7Stbbdev            hwloc_bitmap_foreach_begin(i, process_node_affinity_mask) {
51c0b2f7Stbbdev                node_buffer = hwloc_get_obj_by_type(topology, HWLOC_OBJ_NUMANODE, i);
51c0b2f7Stbbdev                numa_indexes_list[counter] = static_cast<int>(node_buffer->logical_index);
51c0b2f7Stbbdev
51c0b2f7Stbbdev                if ( numa_indexes_list[counter] > max_numa_index ) {
51c0b2f7Stbbdev                    max_numa_index = numa_indexes_list[counter];
51c0b2f7Stbbdev                }
51c0b2f7Stbbdev
51c0b2f7Stbbdev                counter++;
51c0b2f7Stbbdev            } hwloc_bitmap_foreach_end();
51c0b2f7Stbbdev            __TBB_ASSERT(max_numa_index >= 0, "Maximal NUMA index must not be negative");
51c0b2f7Stbbdev
51c0b2f7Stbbdev            // Fill concurrency and affinity masks lists
*b15aabb3Stbbdev            numa_affinity_masks_list.resize(max_numa_index + 1);
51c0b2f7Stbbdev            int index = 0;
51c0b2f7Stbbdev            hwloc_bitmap_foreach_begin(i, process_node_affinity_mask) {
51c0b2f7Stbbdev                node_buffer = hwloc_get_obj_by_type(topology, HWLOC_OBJ_NUMANODE, i);
51c0b2f7Stbbdev                index = static_cast<int>(node_buffer->logical_index);
51c0b2f7Stbbdev
*b15aabb3Stbbdev                hwloc_cpuset_t& current_mask = numa_affinity_masks_list[index];
51c0b2f7Stbbdev                current_mask = hwloc_bitmap_dup(node_buffer->cpuset);
51c0b2f7Stbbdev
51c0b2f7Stbbdev                hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
51c0b2f7Stbbdev                __TBB_ASSERT(!hwloc_bitmap_iszero(current_mask), "hwloc detected unavailable NUMA node");
51c0b2f7Stbbdev            } hwloc_bitmap_foreach_end();
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    void core_types_topology_parsing() {
*b15aabb3Stbbdev        // Fill parameters with stubs if topology parsing is broken.
*b15aabb3Stbbdev        if ( initialization_state != topology_loaded ) {
*b15aabb3Stbbdev            core_types_indexes_list.push_back(-1);
*b15aabb3Stbbdev            return;
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev#if __HWLOC_HYBRID_CPUS_INTERFACES_PRESENT
*b15aabb3Stbbdev        __TBB_ASSERT(hwloc_get_api_version() >= 0x20400, "Hybrid CPUs support interfaces required HWLOC >= 2.4");
*b15aabb3Stbbdev        // Parsing the hybrid CPU topology
*b15aabb3Stbbdev        int core_types_number = hwloc_cpukinds_get_nr(topology, 0);
*b15aabb3Stbbdev        bool core_types_parsing_broken = core_types_number <= 0;
*b15aabb3Stbbdev        if (!core_types_parsing_broken) {
*b15aabb3Stbbdev            core_types_affinity_masks_list.resize(core_types_number);
*b15aabb3Stbbdev            int efficiency{-1};
*b15aabb3Stbbdev
*b15aabb3Stbbdev            for (int core_type = 0; core_type < core_types_number; ++core_type) {
*b15aabb3Stbbdev                hwloc_cpuset_t& current_mask = core_types_affinity_masks_list[core_type];
*b15aabb3Stbbdev                current_mask = hwloc_bitmap_alloc();
*b15aabb3Stbbdev
*b15aabb3Stbbdev                if (!hwloc_cpukinds_get_info(topology, core_type, current_mask, &efficiency, nullptr, nullptr, 0)
*b15aabb3Stbbdev                    && efficiency >= 0
*b15aabb3Stbbdev                ) {
*b15aabb3Stbbdev                    hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
*b15aabb3Stbbdev
*b15aabb3Stbbdev                    if (hwloc_bitmap_weight(current_mask) > 0) {
*b15aabb3Stbbdev                        core_types_indexes_list.push_back(core_type);
*b15aabb3Stbbdev                    }
*b15aabb3Stbbdev                    __TBB_ASSERT(hwloc_bitmap_weight(current_mask) >= 0, "Infinivitely filled core type mask");
*b15aabb3Stbbdev                } else {
*b15aabb3Stbbdev                    core_types_parsing_broken = true;
*b15aabb3Stbbdev                    break;
*b15aabb3Stbbdev                }
*b15aabb3Stbbdev            }
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev#else /*!__HWLOC_HYBRID_CPUS_INTERFACES_PRESENT*/
*b15aabb3Stbbdev        bool core_types_parsing_broken{true};
*b15aabb3Stbbdev#endif /*__HWLOC_HYBRID_CPUS_INTERFACES_PRESENT*/
*b15aabb3Stbbdev
*b15aabb3Stbbdev        if (core_types_parsing_broken) {
*b15aabb3Stbbdev            for (auto& core_type_mask : core_types_affinity_masks_list) {
*b15aabb3Stbbdev                hwloc_bitmap_free(core_type_mask);
*b15aabb3Stbbdev            }
*b15aabb3Stbbdev            core_types_affinity_masks_list.resize(1);
*b15aabb3Stbbdev            core_types_indexes_list.resize(1);
*b15aabb3Stbbdev
*b15aabb3Stbbdev            core_types_affinity_masks_list[0] = hwloc_bitmap_dup(process_cpu_affinity_mask);
*b15aabb3Stbbdev            core_types_indexes_list[0] = -1;
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdevpublic:
*b15aabb3Stbbdev    typedef hwloc_cpuset_t             affinity_mask;
*b15aabb3Stbbdev    typedef hwloc_const_cpuset_t const_affinity_mask;
*b15aabb3Stbbdev
*b15aabb3Stbbdev    static platform_topology& instance() {
*b15aabb3Stbbdev        static platform_topology topology;
*b15aabb3Stbbdev        return topology;
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    bool is_topology_parsed() { return initialization_state == topology_parsed; }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    void initialize( std::size_t groups_num ) {
*b15aabb3Stbbdev        if ( initialization_state != uninitialized )
*b15aabb3Stbbdev            return;
*b15aabb3Stbbdev
*b15aabb3Stbbdev        topology_initialization(groups_num);
*b15aabb3Stbbdev        numa_topology_parsing();
*b15aabb3Stbbdev        core_types_topology_parsing();
*b15aabb3Stbbdev
*b15aabb3Stbbdev        if (initialization_state == topology_loaded)
51c0b2f7Stbbdev            initialization_state = topology_parsed;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    ~platform_topology() {
51c0b2f7Stbbdev        if ( is_topology_parsed() ) {
*b15aabb3Stbbdev            for (auto& numa_node_mask : numa_affinity_masks_list) {
*b15aabb3Stbbdev                hwloc_bitmap_free(numa_node_mask);
51c0b2f7Stbbdev            }
*b15aabb3Stbbdev
*b15aabb3Stbbdev            for (auto& core_type_mask : core_types_affinity_masks_list) {
*b15aabb3Stbbdev                hwloc_bitmap_free(core_type_mask);
*b15aabb3Stbbdev            }
*b15aabb3Stbbdev
51c0b2f7Stbbdev            hwloc_bitmap_free(process_node_affinity_mask);
51c0b2f7Stbbdev            hwloc_bitmap_free(process_cpu_affinity_mask);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
51c0b2f7Stbbdev        if ( initialization_state >= topology_allocated ) {
51c0b2f7Stbbdev            hwloc_topology_destroy(topology);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev
51c0b2f7Stbbdev        initialization_state = uninitialized;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
*b15aabb3Stbbdev    void fill_topology_information(
*b15aabb3Stbbdev        int& _numa_nodes_count, int*& _numa_indexes_list,
*b15aabb3Stbbdev        int& _core_types_count, int*& _core_types_indexes_list
*b15aabb3Stbbdev    ) {
51c0b2f7Stbbdev        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized platform_topology");
*b15aabb3Stbbdev        _numa_nodes_count = numa_nodes_count;
*b15aabb3Stbbdev        _numa_indexes_list = numa_indexes_list.data();
*b15aabb3Stbbdev
*b15aabb3Stbbdev        _core_types_count = (int)core_types_indexes_list.size();
*b15aabb3Stbbdev        _core_types_indexes_list = core_types_indexes_list.data();
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    void fill_constraints_affinity_mask(affinity_mask input_mask, int numa_node_index, int core_type_index, int max_threads_per_core) {
*b15aabb3Stbbdev        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized platform_topology");
*b15aabb3Stbbdev        __TBB_ASSERT(numa_node_index < (int)numa_affinity_masks_list.size(), "Wrong NUMA node id");
*b15aabb3Stbbdev        __TBB_ASSERT(core_type_index < (int)core_types_affinity_masks_list.size(), "Wrong core type id");
*b15aabb3Stbbdev        __TBB_ASSERT(max_threads_per_core == -1 || max_threads_per_core > 0, "Wrong max_threads_per_core");
*b15aabb3Stbbdev
*b15aabb3Stbbdev        hwloc_cpuset_t constraints_mask = hwloc_bitmap_alloc();
*b15aabb3Stbbdev        hwloc_cpuset_t core_mask = hwloc_bitmap_alloc();
*b15aabb3Stbbdev
*b15aabb3Stbbdev        hwloc_bitmap_copy(constraints_mask, process_cpu_affinity_mask);
*b15aabb3Stbbdev        if (numa_node_index >= 0) {
*b15aabb3Stbbdev            hwloc_bitmap_and(constraints_mask, constraints_mask, numa_affinity_masks_list[numa_node_index]);
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev        if (core_type_index >= 0) {
*b15aabb3Stbbdev            hwloc_bitmap_and(constraints_mask, constraints_mask, core_types_affinity_masks_list[core_type_index]);
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev        if (max_threads_per_core > 0) {
*b15aabb3Stbbdev            // clear input mask
*b15aabb3Stbbdev            hwloc_bitmap_zero(input_mask);
*b15aabb3Stbbdev
*b15aabb3Stbbdev            hwloc_obj_t current_core = nullptr;
*b15aabb3Stbbdev            while ((current_core = hwloc_get_next_obj_by_type(topology, HWLOC_OBJ_CORE, current_core)) != nullptr) {
*b15aabb3Stbbdev                hwloc_bitmap_and(core_mask, constraints_mask, current_core->cpuset);
*b15aabb3Stbbdev
*b15aabb3Stbbdev                // fit the core mask to required bits number
*b15aabb3Stbbdev                int current_threads_per_core = 0;
*b15aabb3Stbbdev                for (int id = hwloc_bitmap_first(core_mask); id != -1; id = hwloc_bitmap_next(core_mask, id)) {
*b15aabb3Stbbdev                    if (++current_threads_per_core > max_threads_per_core) {
*b15aabb3Stbbdev                        hwloc_bitmap_clr(core_mask, id);
*b15aabb3Stbbdev                    }
*b15aabb3Stbbdev                }
*b15aabb3Stbbdev
*b15aabb3Stbbdev                hwloc_bitmap_or(input_mask, input_mask, core_mask);
*b15aabb3Stbbdev            }
*b15aabb3Stbbdev        } else {
*b15aabb3Stbbdev            hwloc_bitmap_copy(input_mask, constraints_mask);
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev
*b15aabb3Stbbdev        hwloc_bitmap_free(core_mask);
*b15aabb3Stbbdev        hwloc_bitmap_free(constraints_mask);
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    void fit_num_threads_per_core(affinity_mask result_mask, affinity_mask current_mask, affinity_mask constraints_mask) {
*b15aabb3Stbbdev        hwloc_bitmap_zero(result_mask);
*b15aabb3Stbbdev        hwloc_obj_t current_core = nullptr;
*b15aabb3Stbbdev        while ((current_core = hwloc_get_next_obj_by_type(topology, HWLOC_OBJ_CORE, current_core)) != nullptr) {
*b15aabb3Stbbdev            if (hwloc_bitmap_intersects(current_mask, current_core->cpuset)) {
*b15aabb3Stbbdev                hwloc_bitmap_or(result_mask, result_mask, current_core->cpuset);
*b15aabb3Stbbdev            }
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev        hwloc_bitmap_and(result_mask, result_mask, constraints_mask);
*b15aabb3Stbbdev    }
*b15aabb3Stbbdev
*b15aabb3Stbbdev    int get_default_concurrency(int numa_node_index, int core_type_index, int max_threads_per_core) {
*b15aabb3Stbbdev        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized platform_topology");
*b15aabb3Stbbdev
*b15aabb3Stbbdev        hwloc_cpuset_t constraints_mask = hwloc_bitmap_alloc();
*b15aabb3Stbbdev        fill_constraints_affinity_mask(constraints_mask, numa_node_index, core_type_index, max_threads_per_core);
*b15aabb3Stbbdev
*b15aabb3Stbbdev        int default_concurrency = hwloc_bitmap_weight(constraints_mask);
*b15aabb3Stbbdev        hwloc_bitmap_free(constraints_mask);
*b15aabb3Stbbdev        return default_concurrency;
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    affinity_mask allocate_process_affinity_mask() {
51c0b2f7Stbbdev        __TBB_ASSERT(is_topology_parsed(), "Trying to get access to uninitialized platform_topology");
51c0b2f7Stbbdev        return hwloc_bitmap_dup(process_cpu_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void free_affinity_mask( affinity_mask mask_to_free ) {
51c0b2f7Stbbdev        hwloc_bitmap_free(mask_to_free); // If bitmap is nullptr, no operation is performed.
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void store_current_affinity_mask( affinity_mask current_mask ) {
51c0b2f7Stbbdev        assertion_hwloc_wrapper(hwloc_get_cpubind, topology, current_mask, HWLOC_CPUBIND_THREAD);
51c0b2f7Stbbdev
51c0b2f7Stbbdev        hwloc_bitmap_and(current_mask, current_mask, process_cpu_affinity_mask);
51c0b2f7Stbbdev        __TBB_ASSERT(!hwloc_bitmap_iszero(current_mask),
51c0b2f7Stbbdev            "Current affinity mask must intersects with process affinity mask");
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
*b15aabb3Stbbdev    void set_affinity_mask( const_affinity_mask mask ) {
*b15aabb3Stbbdev        if (hwloc_bitmap_weight(mask) > 0) {
*b15aabb3Stbbdev            assertion_hwloc_wrapper(hwloc_set_cpubind, topology, mask, HWLOC_CPUBIND_THREAD);
51c0b2f7Stbbdev        }
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
51c0b2f7Stbbdevclass binding_handler {
51c0b2f7Stbbdev    // Following vector saves thread affinity mask on scheduler entry to return it to this thread
51c0b2f7Stbbdev    // on scheduler exit.
51c0b2f7Stbbdev    typedef std::vector<platform_topology::affinity_mask> affinity_masks_container;
51c0b2f7Stbbdev    affinity_masks_container affinity_backup;
*b15aabb3Stbbdev    platform_topology::affinity_mask handler_affinity_mask;
*b15aabb3Stbbdev
*b15aabb3Stbbdev#if WIN32
*b15aabb3Stbbdev    affinity_masks_container affinity_buffer;
*b15aabb3Stbbdev    int my_numa_node_id;
*b15aabb3Stbbdev    int my_core_type_id;
*b15aabb3Stbbdev    int my_max_threads_per_core;
*b15aabb3Stbbdev#endif
51c0b2f7Stbbdev
51c0b2f7Stbbdevpublic:
*b15aabb3Stbbdev    binding_handler( std::size_t size, int numa_node_id, int core_type_id, int max_threads_per_core )
*b15aabb3Stbbdev        : affinity_backup(size)
*b15aabb3Stbbdev#if WIN32
*b15aabb3Stbbdev        , affinity_buffer(size)
*b15aabb3Stbbdev        , my_numa_node_id(numa_node_id)
*b15aabb3Stbbdev        , my_core_type_id(core_type_id)
*b15aabb3Stbbdev        , my_max_threads_per_core(max_threads_per_core)
*b15aabb3Stbbdev#endif
*b15aabb3Stbbdev    {
*b15aabb3Stbbdev        for (std::size_t i = 0; i < size; ++i) {
*b15aabb3Stbbdev            affinity_backup[i] = platform_topology::instance().allocate_process_affinity_mask();
*b15aabb3Stbbdev#if WIN32
*b15aabb3Stbbdev            affinity_buffer[i] = platform_topology::instance().allocate_process_affinity_mask();
*b15aabb3Stbbdev#endif
51c0b2f7Stbbdev        }
*b15aabb3Stbbdev        handler_affinity_mask = platform_topology::instance().allocate_process_affinity_mask();
*b15aabb3Stbbdev        platform_topology::instance().fill_constraints_affinity_mask
*b15aabb3Stbbdev            (handler_affinity_mask, numa_node_id, core_type_id, max_threads_per_core);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    ~binding_handler() {
*b15aabb3Stbbdev        for (std::size_t i = 0; i < affinity_backup.size(); ++i) {
*b15aabb3Stbbdev            platform_topology::instance().free_affinity_mask(affinity_backup[i]);
*b15aabb3Stbbdev#if WIN32
*b15aabb3Stbbdev            platform_topology::instance().free_affinity_mask(affinity_buffer[i]);
*b15aabb3Stbbdev#endif
51c0b2f7Stbbdev        }
*b15aabb3Stbbdev        platform_topology::instance().free_affinity_mask(handler_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
*b15aabb3Stbbdev    void apply_affinity( unsigned slot_num ) {
*b15aabb3Stbbdev        auto& topology = platform_topology::instance();
51c0b2f7Stbbdev        __TBB_ASSERT(slot_num < affinity_backup.size(),
51c0b2f7Stbbdev            "The slot number is greater than the number of slots in the arena");
*b15aabb3Stbbdev        __TBB_ASSERT(topology.is_topology_parsed(),
51c0b2f7Stbbdev            "Trying to get access to uninitialized platform_topology");
51c0b2f7Stbbdev
*b15aabb3Stbbdev        topology.store_current_affinity_mask(affinity_backup[slot_num]);
*b15aabb3Stbbdev
*b15aabb3Stbbdev#if WIN32
*b15aabb3Stbbdev        // TBBBind supports only systems where NUMA nodes and core types do not cross the border
*b15aabb3Stbbdev        // between several processor groups. So if a certain NUMA node or core type constraint
*b15aabb3Stbbdev        // specified, then the constraints affinity mask will not cross the processor groups' border.
*b15aabb3Stbbdev
*b15aabb3Stbbdev        // But if we have constraint based only on the max_threads_per_core setting, then the
*b15aabb3Stbbdev        // constraints affinity mask does may cross the border between several processor groups
*b15aabb3Stbbdev        // on machines with more then 64 hardware threads. That is why we need to use the special
*b15aabb3Stbbdev        // function, which regulates the number of threads in the current threads mask.
*b15aabb3Stbbdev        if (topology.number_of_processors_groups > 1 && my_max_threads_per_core != -1 &&
*b15aabb3Stbbdev            (my_numa_node_id == -1 || topology.numa_indexes_list.size() == 1) &&
*b15aabb3Stbbdev            (my_core_type_id == -1 || topology.core_types_indexes_list.size() == 1)
*b15aabb3Stbbdev        ) {
*b15aabb3Stbbdev            topology.fit_num_threads_per_core(affinity_buffer[slot_num], affinity_backup[slot_num], handler_affinity_mask);
*b15aabb3Stbbdev            topology.set_affinity_mask(affinity_buffer[slot_num]);
*b15aabb3Stbbdev            return;
*b15aabb3Stbbdev        }
*b15aabb3Stbbdev#endif
*b15aabb3Stbbdev        topology.set_affinity_mask(handler_affinity_mask);
51c0b2f7Stbbdev    }
51c0b2f7Stbbdev
51c0b2f7Stbbdev    void restore_previous_affinity_mask( unsigned slot_num ) {
*b15aabb3Stbbdev        auto& topology = platform_topology::instance();
*b15aabb3Stbbdev        __TBB_ASSERT(topology.is_topology_parsed(),
51c0b2f7Stbbdev            "Trying to get access to uninitialized platform_topology");
*b15aabb3Stbbdev        topology.set_affinity_mask(affinity_backup[slot_num]);
51c0b2f7Stbbdev    };
51c0b2f7Stbbdev
51c0b2f7Stbbdev};
51c0b2f7Stbbdev
51c0b2f7Stbbdevextern "C" { // exported to TBB interfaces
51c0b2f7Stbbdev
*b15aabb3Stbbdevvoid __TBB_internal_initialize_system_topology(
*b15aabb3Stbbdev    std::size_t groups_num,
*b15aabb3Stbbdev    int& numa_nodes_count, int*& numa_indexes_list,
*b15aabb3Stbbdev    int& core_types_count, int*& core_types_indexes_list
*b15aabb3Stbbdev) {
51c0b2f7Stbbdev    platform_topology::instance().initialize(groups_num);
*b15aabb3Stbbdev    platform_topology::instance().fill_topology_information(
*b15aabb3Stbbdev        numa_nodes_count, numa_indexes_list,
*b15aabb3Stbbdev        core_types_count, core_types_indexes_list
*b15aabb3Stbbdev    );
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
*b15aabb3Stbbdevbinding_handler* __TBB_internal_allocate_binding_handler(int number_of_slots, int numa_id, int core_type_id, int max_threads_per_core) {
*b15aabb3Stbbdev    __TBB_ASSERT(number_of_slots > 0, "Trying to create numa handler for 0 threads.");
*b15aabb3Stbbdev    return new binding_handler(number_of_slots, numa_id, core_type_id, max_threads_per_core);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevvoid __TBB_internal_deallocate_binding_handler(binding_handler* handler_ptr) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to deallocate nullptr pointer.");
51c0b2f7Stbbdev    delete handler_ptr;
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
*b15aabb3Stbbdevvoid __TBB_internal_apply_affinity(binding_handler* handler_ptr, int slot_num) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to get access to uninitialized metadata.");
*b15aabb3Stbbdev    handler_ptr->apply_affinity(slot_num);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
51c0b2f7Stbbdevvoid __TBB_internal_restore_affinity(binding_handler* handler_ptr, int slot_num) {
51c0b2f7Stbbdev    __TBB_ASSERT(handler_ptr != nullptr, "Trying to get access to uninitialized metadata.");
51c0b2f7Stbbdev    handler_ptr->restore_previous_affinity_mask(slot_num);
51c0b2f7Stbbdev}
51c0b2f7Stbbdev
*b15aabb3Stbbdevint __TBB_internal_get_default_concurrency(int numa_id, int core_type_id, int max_threads_per_core) {
*b15aabb3Stbbdev    return platform_topology::instance().get_default_concurrency(numa_id, core_type_id, max_threads_per_core);
*b15aabb3Stbbdev}
*b15aabb3Stbbdev
51c0b2f7Stbbdev} // extern "C"
51c0b2f7Stbbdev
51c0b2f7Stbbdev} // namespace r1
51c0b2f7Stbbdev} // namespace detail
51c0b2f7Stbbdev} // namespace tbb
51c0b2f7Stbbdev
51c0b2f7Stbbdev#undef assertion_hwloc_wrapper