test/tbb/test_multifunction_node.cpp

*51c0b2f7Stbbdev/*
*51c0b2f7Stbbdev    Copyright (c) 2005-2020 Intel Corporation
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    Licensed under the Apache License, Version 2.0 (the "License");
*51c0b2f7Stbbdev    you may not use this file except in compliance with the License.
*51c0b2f7Stbbdev    You may obtain a copy of the License at
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        http://www.apache.org/licenses/LICENSE-2.0
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    Unless required by applicable law or agreed to in writing, software
*51c0b2f7Stbbdev    distributed under the License is distributed on an "AS IS" BASIS,
*51c0b2f7Stbbdev    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
*51c0b2f7Stbbdev    See the License for the specific language governing permissions and
*51c0b2f7Stbbdev    limitations under the License.
*51c0b2f7Stbbdev*/
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#include "common/config.h"
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev// TODO revamp: move parts dependent on __TBB_EXTRA_DEBUG into separate test(s) since having these
*51c0b2f7Stbbdev// parts in all of tests might make testing of the product, which is different from what is actually
*51c0b2f7Stbbdev// released.
*51c0b2f7Stbbdev#define __TBB_EXTRA_DEBUG 1
*51c0b2f7Stbbdev#include "tbb/flow_graph.h"
*51c0b2f7Stbbdev#include "tbb/spin_rw_mutex.h"
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#include "common/test.h"
*51c0b2f7Stbbdev#include "common/utils.h"
*51c0b2f7Stbbdev#include "common/graph_utils.h"
*51c0b2f7Stbbdev#include "common/test_follows_and_precedes_api.h"
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! \file test_multifunction_node.cpp
*51c0b2f7Stbbdev//! \brief Test for [flow_graph.multifunction_node] specification
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#if TBB_USE_DEBUG
*51c0b2f7Stbbdev#define N 16
*51c0b2f7Stbbdev#else
*51c0b2f7Stbbdev#define N 100
*51c0b2f7Stbbdev#endif
*51c0b2f7Stbbdev#define MAX_NODES 4
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Performs test on function nodes with limited concurrency and buffering
*51c0b2f7Stbbdev/** These tests check:
*51c0b2f7Stbbdev    1) that the number of executing copies never exceed the concurrency limit
*51c0b2f7Stbbdev    2) that the node never rejects
*51c0b2f7Stbbdev    3) that no items are lost
*51c0b2f7Stbbdev    and 4) all of this happens even if there are multiple predecessors and successors
*51c0b2f7Stbbdev*/
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! exercise buffered multifunction_node.
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple, typename Body >
*51c0b2f7Stbbdevvoid buffered_levels( size_t concurrency, Body body ) {
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type OutputType;
*51c0b2f7Stbbdev    // Do for lc = 1 to concurrency level
*51c0b2f7Stbbdev    for ( size_t lc = 1; lc <= concurrency; ++lc ) {
*51c0b2f7Stbbdev        tbb::flow::graph g;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        // Set the execute_counter back to zero in the harness
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::execute_count = 0;
*51c0b2f7Stbbdev        // Set the number of current executors to zero.
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::current_executors = 0;
*51c0b2f7Stbbdev        // Set the max allowed executors to lc.  There is a check in the functor to make sure this is never exceeded.
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::max_executors = lc;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        // Create the function_node with the appropriate concurrency level, and use default buffering
*51c0b2f7Stbbdev        tbb::flow::multifunction_node< InputType, OutputTuple > exe_node( g, lc, body );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        //Create a vector of identical exe_nodes
*51c0b2f7Stbbdev        std::vector< tbb::flow::multifunction_node< InputType, OutputTuple > > exe_vec(2, exe_node);
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        // exercise each of the copied nodes
*51c0b2f7Stbbdev        for (size_t node_idx=0; node_idx<exe_vec.size(); ++node_idx) {
*51c0b2f7Stbbdev            for (size_t num_receivers = 1; num_receivers <= MAX_NODES; ++num_receivers ) {
*51c0b2f7Stbbdev                // Create num_receivers counting receivers and connect the exe_vec[node_idx] to them.
*51c0b2f7Stbbdev                std::vector< std::shared_ptr<harness_mapped_receiver<OutputType>> > receivers;
*51c0b2f7Stbbdev                for (size_t i = 0; i < num_receivers; i++) {
*51c0b2f7Stbbdev                    receivers.push_back( std::make_shared<harness_mapped_receiver<OutputType>>(g) );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    tbb::flow::make_edge( tbb::flow::output_port<0>(exe_vec[node_idx]), *receivers[r] );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                // Do the test with varying numbers of senders
*51c0b2f7Stbbdev                std::vector< std::shared_ptr<harness_counting_sender<InputType>> > senders;
*51c0b2f7Stbbdev                for (size_t num_senders = 1; num_senders <= MAX_NODES; ++num_senders ) {
*51c0b2f7Stbbdev                    // Create num_senders senders, set their message limit each to N, and connect
*51c0b2f7Stbbdev                    // them to the exe_vec[node_idx]
*51c0b2f7Stbbdev                    senders.clear();
*51c0b2f7Stbbdev                    for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                        senders.push_back( std::make_shared<harness_counting_sender<InputType>>() );
*51c0b2f7Stbbdev                        senders.back()->my_limit = N;
*51c0b2f7Stbbdev                        tbb::flow::make_edge( *senders.back(), exe_vec[node_idx] );
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                    // Initialize the receivers so they know how many senders and messages to check for
*51c0b2f7Stbbdev                    for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                        receivers[r]->initialize_map( N, num_senders );
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                    // Do the test
*51c0b2f7Stbbdev                    utils::NativeParallelFor( (int)num_senders, parallel_put_until_limit<InputType>(senders) );
*51c0b2f7Stbbdev                    g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                    // confirm that each sender was requested from N times
*51c0b2f7Stbbdev                    for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                        size_t n = senders[s]->my_received;
*51c0b2f7Stbbdev                        CHECK_MESSAGE( n == N, "" );
*51c0b2f7Stbbdev                        CHECK_MESSAGE( senders[s]->my_receiver.load(std::memory_order_relaxed) == &exe_vec[node_idx], "" );
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev                    // validate the receivers
*51c0b2f7Stbbdev                    for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                        receivers[r]->validate();
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    tbb::flow::remove_edge( tbb::flow::output_port<0>(exe_vec[node_idx]), *receivers[r] );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev                CHECK_MESSAGE( exe_vec[node_idx].try_put( InputType() ) == true, "" );
*51c0b2f7Stbbdev                g.wait_for_all();
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    // since it's detached, nothing should have changed
*51c0b2f7Stbbdev                    receivers[r]->validate();
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevconst size_t Offset = 123;
*51c0b2f7Stbbdevstd::atomic<size_t> global_execute_count;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevstruct inc_functor {
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    std::atomic<size_t> local_execute_count;
*51c0b2f7Stbbdev    inc_functor( ) { local_execute_count = 0; }
*51c0b2f7Stbbdev    inc_functor( const inc_functor &f ) { local_execute_count = size_t(f.local_execute_count); }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    template<typename output_ports_type>
*51c0b2f7Stbbdev    void operator()( int i, output_ports_type &p ) {
*51c0b2f7Stbbdev       ++global_execute_count;
*51c0b2f7Stbbdev       ++local_execute_count;
*51c0b2f7Stbbdev       (void)std::get<0>(p).try_put(i);
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev};
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple >
*51c0b2f7Stbbdevvoid buffered_levels_with_copy( size_t concurrency ) {
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type OutputType;
*51c0b2f7Stbbdev    // Do for lc = 1 to concurrency level
*51c0b2f7Stbbdev    for ( size_t lc = 1; lc <= concurrency; ++lc ) {
*51c0b2f7Stbbdev        tbb::flow::graph g;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        inc_functor cf;
*51c0b2f7Stbbdev        cf.local_execute_count = Offset;
*51c0b2f7Stbbdev        global_execute_count = Offset;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        tbb::flow::multifunction_node< InputType, OutputTuple > exe_node( g, lc, cf );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        for (size_t num_receivers = 1; num_receivers <= MAX_NODES; ++num_receivers ) {
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            std::vector< std::shared_ptr<harness_mapped_receiver<OutputType>> > receivers;
*51c0b2f7Stbbdev            for (size_t i = 0; i < num_receivers; i++) {
*51c0b2f7Stbbdev                receivers.push_back( std::make_shared<harness_mapped_receiver<OutputType>>(g) );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev               tbb::flow::make_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            std::vector< std::shared_ptr<harness_counting_sender<InputType>> > senders;
*51c0b2f7Stbbdev            for (size_t num_senders = 1; num_senders <= MAX_NODES; ++num_senders ) {
*51c0b2f7Stbbdev                senders.clear();
*51c0b2f7Stbbdev                for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                    senders.push_back( std::make_shared<harness_counting_sender<InputType>>() );
*51c0b2f7Stbbdev                    senders.back()->my_limit = N;
*51c0b2f7Stbbdev                    tbb::flow::make_edge( *senders.back(), exe_node );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    receivers[r]->initialize_map( N, num_senders );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                utils::NativeParallelFor( (int)num_senders, parallel_put_until_limit<InputType>(senders) );
*51c0b2f7Stbbdev                g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                    size_t n = senders[s]->my_received;
*51c0b2f7Stbbdev                    CHECK_MESSAGE( n == N, "" );
*51c0b2f7Stbbdev                    CHECK_MESSAGE( senders[s]->my_receiver.load(std::memory_order_relaxed) == &exe_node, "" );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    receivers[r]->validate();
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                tbb::flow::remove_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev            CHECK_MESSAGE( exe_node.try_put( InputType() ) == true, "" );
*51c0b2f7Stbbdev            g.wait_for_all();
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                receivers[r]->validate();
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        // validate that the local body matches the global execute_count and both are correct
*51c0b2f7Stbbdev        inc_functor body_copy = tbb::flow::copy_body<inc_functor>( exe_node );
*51c0b2f7Stbbdev        const size_t expected_count = N/2 * MAX_NODES * MAX_NODES * ( MAX_NODES + 1 ) + MAX_NODES + Offset;
*51c0b2f7Stbbdev        size_t global_count = global_execute_count;
*51c0b2f7Stbbdev        size_t inc_count = body_copy.local_execute_count;
*51c0b2f7Stbbdev        CHECK_MESSAGE( (global_count == expected_count && global_count == inc_count), "" );
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple >
*51c0b2f7Stbbdevvoid run_buffered_levels( int c ) {
*51c0b2f7Stbbdev    typedef typename tbb::flow::multifunction_node<InputType,OutputTuple>::output_ports_type output_ports_type;
*51c0b2f7Stbbdev    buffered_levels<InputType,OutputTuple>( c, []( InputType i, output_ports_type &p ) { harness_graph_multifunction_executor<InputType, OutputTuple>::func(i,p); } );
*51c0b2f7Stbbdev    buffered_levels<InputType,OutputTuple>( c, &harness_graph_multifunction_executor<InputType, OutputTuple>::func );
*51c0b2f7Stbbdev    buffered_levels<InputType,OutputTuple>( c, typename harness_graph_multifunction_executor<InputType, OutputTuple>::functor() );
*51c0b2f7Stbbdev    buffered_levels_with_copy<InputType,OutputTuple>( c );
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Performs test on executable nodes with limited concurrency
*51c0b2f7Stbbdev/** These tests check:
*51c0b2f7Stbbdev    1) that the nodes will accepts puts up to the concurrency limit,
*51c0b2f7Stbbdev    2) the nodes do not exceed the concurrency limit even when run with more threads (this is checked in the harness_graph_executor),
*51c0b2f7Stbbdev    3) the nodes will receive puts from multiple successors simultaneously,
*51c0b2f7Stbbdev    and 4) the nodes will send to multiple predecessors.
*51c0b2f7Stbbdev    There is no checking of the contents of the messages for corruption.
*51c0b2f7Stbbdev*/
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple, typename Body >
*51c0b2f7Stbbdevvoid concurrency_levels( size_t concurrency, Body body ) {
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type OutputType;
*51c0b2f7Stbbdev    for ( size_t lc = 1; lc <= concurrency; ++lc ) {
*51c0b2f7Stbbdev        tbb::flow::graph g;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        // Set the execute_counter back to zero in the harness
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::execute_count = 0;
*51c0b2f7Stbbdev        // Set the number of current executors to zero.
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::current_executors = 0;
*51c0b2f7Stbbdev        // Set the max allowed executors to lc.  There is a check in the functor to make sure this is never exceeded.
*51c0b2f7Stbbdev        harness_graph_multifunction_executor<InputType, OutputTuple>::max_executors = lc;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        tbb::flow::multifunction_node< InputType, OutputTuple, tbb::flow::rejecting > exe_node( g, lc, body );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        for (size_t num_receivers = 1; num_receivers <= MAX_NODES; ++num_receivers ) {
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            std::vector< std::shared_ptr<harness_counting_receiver<OutputType>> > receivers;
*51c0b2f7Stbbdev            for (size_t i = 0; i < num_receivers; ++i) {
*51c0b2f7Stbbdev                receivers.push_back( std::make_shared<harness_counting_receiver<OutputType>>(g) );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                tbb::flow::make_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            std::vector< std::shared_ptr<harness_counting_sender<InputType>> > senders;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            for (size_t num_senders = 1; num_senders <= MAX_NODES; ++num_senders ) {
*51c0b2f7Stbbdev                {
*51c0b2f7Stbbdev                    // Exclusively lock m to prevent exe_node from finishing
*51c0b2f7Stbbdev                    tbb::spin_rw_mutex::scoped_lock l(
*51c0b2f7Stbbdev                        harness_graph_multifunction_executor< InputType, OutputTuple>::template mutex_holder<tbb::spin_rw_mutex>::mutex
*51c0b2f7Stbbdev                    );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                    // put to lc level, it will accept and then block at m
*51c0b2f7Stbbdev                    for ( size_t c = 0 ; c < lc ; ++c ) {
*51c0b2f7Stbbdev                        CHECK_MESSAGE( exe_node.try_put( InputType() ) == true, "" );
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev                    // it only accepts to lc level
*51c0b2f7Stbbdev                    CHECK_MESSAGE( exe_node.try_put( InputType() ) == false, "" );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                    senders.clear();
*51c0b2f7Stbbdev                    for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                        senders.push_back( std::make_shared<harness_counting_sender<InputType>>() );
*51c0b2f7Stbbdev                        senders.back()->my_limit = N;
*51c0b2f7Stbbdev                        exe_node.register_predecessor( *senders.back() );
*51c0b2f7Stbbdev                    }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                } // release lock at end of scope, setting the exe node free to continue
*51c0b2f7Stbbdev                // wait for graph to settle down
*51c0b2f7Stbbdev                g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev                // confirm that each sender was requested from N times
*51c0b2f7Stbbdev                for (size_t s = 0; s < num_senders; ++s ) {
*51c0b2f7Stbbdev                    size_t n = senders[s]->my_received;
*51c0b2f7Stbbdev                    CHECK_MESSAGE( n == N, "" );
*51c0b2f7Stbbdev                    CHECK_MESSAGE( senders[s]->my_receiver.load(std::memory_order_relaxed) == &exe_node, "" );
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev                // confirm that each receivers got N * num_senders + the initial lc puts
*51c0b2f7Stbbdev                for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                    size_t n = receivers[r]->my_count;
*51c0b2f7Stbbdev                    CHECK_MESSAGE( n == num_senders*N+lc, "" );
*51c0b2f7Stbbdev                    receivers[r]->my_count = 0;
*51c0b2f7Stbbdev                }
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                tbb::flow::remove_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev            CHECK_MESSAGE( exe_node.try_put( InputType() ) == true, "" );
*51c0b2f7Stbbdev            g.wait_for_all();
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                CHECK_MESSAGE( int(receivers[r]->my_count) == 0, "" );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple >
*51c0b2f7Stbbdevvoid run_concurrency_levels( int c ) {
*51c0b2f7Stbbdev    typedef typename tbb::flow::multifunction_node<InputType,OutputTuple>::output_ports_type output_ports_type;
*51c0b2f7Stbbdev    concurrency_levels<InputType,OutputTuple>( c, []( InputType i, output_ports_type &p ) { harness_graph_multifunction_executor<InputType, OutputTuple>::template tfunc<tbb::spin_rw_mutex>(i,p); } );
*51c0b2f7Stbbdev    concurrency_levels<InputType,OutputTuple>( c, &harness_graph_multifunction_executor<InputType, OutputTuple>::template tfunc<tbb::spin_rw_mutex> );
*51c0b2f7Stbbdev    concurrency_levels<InputType,OutputTuple>( c, typename harness_graph_multifunction_executor<InputType, OutputTuple>::template tfunctor<tbb::spin_rw_mutex>() );
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevstruct empty_no_assign {
*51c0b2f7Stbbdev   empty_no_assign() {}
*51c0b2f7Stbbdev   empty_no_assign( int ) {}
*51c0b2f7Stbbdev   operator int() { return 0; }
*51c0b2f7Stbbdev   operator int() const { return 0; }
*51c0b2f7Stbbdev};
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType >
*51c0b2f7Stbbdevstruct parallel_puts : private utils::NoAssign {
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    tbb::flow::receiver< InputType > * const my_exe_node;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    parallel_puts( tbb::flow::receiver< InputType > &exe_node ) : my_exe_node(&exe_node) {}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    void operator()( int ) const  {
*51c0b2f7Stbbdev        for ( int i = 0; i < N; ++i ) {
*51c0b2f7Stbbdev            // the nodes will accept all puts
*51c0b2f7Stbbdev            CHECK_MESSAGE( my_exe_node->try_put( InputType() ) == true, "" );
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev};
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Performs test on executable nodes with unlimited concurrency
*51c0b2f7Stbbdev/** These tests check:
*51c0b2f7Stbbdev    1) that the nodes will accept all puts
*51c0b2f7Stbbdev    2) the nodes will receive puts from multiple predecessors simultaneously,
*51c0b2f7Stbbdev    and 3) the nodes will send to multiple successors.
*51c0b2f7Stbbdev    There is no checking of the contents of the messages for corruption.
*51c0b2f7Stbbdev*/
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple, typename Body >
*51c0b2f7Stbbdevvoid unlimited_concurrency( Body body ) {
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type OutputType;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    for (unsigned int p = 1; p < 2*utils::MaxThread; ++p) {
*51c0b2f7Stbbdev        tbb::flow::graph g;
*51c0b2f7Stbbdev        tbb::flow::multifunction_node< InputType, OutputTuple, tbb::flow::rejecting > exe_node( g, tbb::flow::unlimited, body );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev        for (size_t num_receivers = 1; num_receivers <= MAX_NODES; ++num_receivers ) {
*51c0b2f7Stbbdev            std::vector< std::shared_ptr<harness_counting_receiver<OutputType>> > receivers;
*51c0b2f7Stbbdev            for (size_t i = 0; i < num_receivers; ++i) {
*51c0b2f7Stbbdev                receivers.push_back( std::make_shared<harness_counting_receiver<OutputType>>(g) );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            harness_graph_multifunction_executor<InputType, OutputTuple>::execute_count = 0;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                tbb::flow::make_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            utils::NativeParallelFor( p, parallel_puts<InputType>(exe_node) );
*51c0b2f7Stbbdev            g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            // 2) the nodes will receive puts from multiple predecessors simultaneously,
*51c0b2f7Stbbdev            size_t ec = harness_graph_multifunction_executor<InputType, OutputTuple>::execute_count;
*51c0b2f7Stbbdev            CHECK_MESSAGE( (unsigned int)ec == p*N, "" );
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                size_t c = receivers[r]->my_count;
*51c0b2f7Stbbdev                // 3) the nodes will send to multiple successors.
*51c0b2f7Stbbdev                CHECK_MESSAGE( (unsigned int)c == p*N, "" );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev            for (size_t r = 0; r < num_receivers; ++r ) {
*51c0b2f7Stbbdev                tbb::flow::remove_edge( tbb::flow::output_port<0>(exe_node), *receivers[r] );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate< typename InputType, typename OutputTuple >
*51c0b2f7Stbbdevvoid run_unlimited_concurrency() {
*51c0b2f7Stbbdev    harness_graph_multifunction_executor<InputType, OutputTuple>::max_executors = 0;
*51c0b2f7Stbbdev    typedef typename tbb::flow::multifunction_node<InputType,OutputTuple>::output_ports_type output_ports_type;
*51c0b2f7Stbbdev    unlimited_concurrency<InputType,OutputTuple>( []( InputType i, output_ports_type &p ) { harness_graph_multifunction_executor<InputType, OutputTuple>::func(i,p); } );
*51c0b2f7Stbbdev    unlimited_concurrency<InputType,OutputTuple>( &harness_graph_multifunction_executor<InputType, OutputTuple>::func );
*51c0b2f7Stbbdev    unlimited_concurrency<InputType,OutputTuple>( typename harness_graph_multifunction_executor<InputType, OutputTuple>::functor() );
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate<typename InputType, typename OutputTuple>
*51c0b2f7Stbbdevstruct oddEvenBody {
*51c0b2f7Stbbdev    typedef typename tbb::flow::multifunction_node<InputType,OutputTuple>::output_ports_type output_ports_type;
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type EvenType;
*51c0b2f7Stbbdev    typedef typename std::tuple_element<1,OutputTuple>::type OddType;
*51c0b2f7Stbbdev    void operator() (const InputType &i, output_ports_type &p) {
*51c0b2f7Stbbdev        if((int)i % 2) {
*51c0b2f7Stbbdev            (void)std::get<1>(p).try_put(OddType(i));
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev        else {
*51c0b2f7Stbbdev            (void)std::get<0>(p).try_put(EvenType(i));
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev};
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate<typename InputType, typename OutputTuple >
*51c0b2f7Stbbdevvoid run_multiport_test(int num_threads) {
*51c0b2f7Stbbdev    typedef typename tbb::flow::multifunction_node<InputType, OutputTuple> mo_node_type;
*51c0b2f7Stbbdev    typedef typename std::tuple_element<0,OutputTuple>::type EvenType;
*51c0b2f7Stbbdev    typedef typename std::tuple_element<1,OutputTuple>::type OddType;
*51c0b2f7Stbbdev    tbb::task_arena arena(num_threads);
*51c0b2f7Stbbdev    arena.execute(
*51c0b2f7Stbbdev        [&] () {
*51c0b2f7Stbbdev            tbb::flow::graph g;
*51c0b2f7Stbbdev            mo_node_type mo_node(g, tbb::flow::unlimited, oddEvenBody<InputType, OutputTuple>() );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            tbb::flow::queue_node<EvenType> q0(g);
*51c0b2f7Stbbdev            tbb::flow::queue_node<OddType> q1(g);
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            tbb::flow::make_edge(tbb::flow::output_port<0>(mo_node), q0);
*51c0b2f7Stbbdev            tbb::flow::make_edge(tbb::flow::output_port<1>(mo_node), q1);
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            for(InputType i = 0; i < N; ++i) {
*51c0b2f7Stbbdev                mo_node.try_put(i);
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev            g.wait_for_all();
*51c0b2f7Stbbdev            for(int i = 0; i < N/2; ++i) {
*51c0b2f7Stbbdev                EvenType e{};
*51c0b2f7Stbbdev                OddType o{};
*51c0b2f7Stbbdev                CHECK_MESSAGE( q0.try_get(e), "" );
*51c0b2f7Stbbdev                CHECK_MESSAGE( (int)e % 2 == 0, "" );
*51c0b2f7Stbbdev                CHECK_MESSAGE( q1.try_get(o), "" );
*51c0b2f7Stbbdev                CHECK_MESSAGE( (int)o % 2 == 1, "" );
*51c0b2f7Stbbdev            }
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    );
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Tests limited concurrency cases for nodes that accept data messages
*51c0b2f7Stbbdevvoid test_concurrency(int num_threads) {
*51c0b2f7Stbbdev    tbb::task_arena arena(num_threads);
*51c0b2f7Stbbdev    arena.execute(
*51c0b2f7Stbbdev        [&] () {
*51c0b2f7Stbbdev            run_concurrency_levels<int,std::tuple<int> >(num_threads);
*51c0b2f7Stbbdev            run_concurrency_levels<int,std::tuple<tbb::flow::continue_msg> >(num_threads);
*51c0b2f7Stbbdev            run_buffered_levels<int, std::tuple<int> >(num_threads);
*51c0b2f7Stbbdev            run_unlimited_concurrency<int, std::tuple<int> >();
*51c0b2f7Stbbdev            run_unlimited_concurrency<int,std::tuple<empty_no_assign> >();
*51c0b2f7Stbbdev            run_unlimited_concurrency<empty_no_assign,std::tuple<int> >();
*51c0b2f7Stbbdev            run_unlimited_concurrency<empty_no_assign,std::tuple<empty_no_assign> >();
*51c0b2f7Stbbdev            run_unlimited_concurrency<int,std::tuple<tbb::flow::continue_msg> >();
*51c0b2f7Stbbdev            run_unlimited_concurrency<empty_no_assign,std::tuple<tbb::flow::continue_msg> >();
*51c0b2f7Stbbdev            run_multiport_test<int, std::tuple<int, int> >(num_threads);
*51c0b2f7Stbbdev            run_multiport_test<float, std::tuple<int, double> >(num_threads);
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    );
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevtemplate<typename Policy>
*51c0b2f7Stbbdevvoid test_ports_return_references() {
*51c0b2f7Stbbdev    tbb::flow::graph g;
*51c0b2f7Stbbdev    typedef int InputType;
*51c0b2f7Stbbdev    typedef std::tuple<int> OutputTuple;
*51c0b2f7Stbbdev    tbb::flow::multifunction_node<InputType, OutputTuple, Policy> mf_node(
*51c0b2f7Stbbdev        g, tbb::flow::unlimited,
*51c0b2f7Stbbdev        &harness_graph_multifunction_executor<InputType, OutputTuple>::empty_func );
*51c0b2f7Stbbdev    test_output_ports_return_ref(mf_node);
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#if __TBB_PREVIEW_FLOW_GRAPH_NODE_SET
*51c0b2f7Stbbdev#include <array>
*51c0b2f7Stbbdev#include <vector>
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevvoid test_precedes() {
*51c0b2f7Stbbdev    using namespace tbb::flow;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    using multinode = multifunction_node<int, std::tuple<int, int>>;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    graph g;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    buffer_node<int> b1(g);
*51c0b2f7Stbbdev    buffer_node<int> b2(g);
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    multinode node(precedes(b1, b2), unlimited, [](const int& i, multinode::output_ports_type& op) -> void {
*51c0b2f7Stbbdev            if (i % 2)
*51c0b2f7Stbbdev                std::get<0>(op).try_put(i);
*51c0b2f7Stbbdev            else
*51c0b2f7Stbbdev                std::get<1>(op).try_put(i);
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev    );
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    node.try_put(0);
*51c0b2f7Stbbdev    node.try_put(1);
*51c0b2f7Stbbdev    g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    int storage;
*51c0b2f7Stbbdev    CHECK_MESSAGE((b1.try_get(storage) && !b1.try_get(storage) && b2.try_get(storage) && !b2.try_get(storage)),
*51c0b2f7Stbbdev            "Not exact edge quantity was made");
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdevvoid test_follows_and_precedes_api() {
*51c0b2f7Stbbdev    using multinode = tbb::flow::multifunction_node<int, std::tuple<int, int, int>>;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    std::array<int, 3> messages_for_follows = { {0, 1, 2} };
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    follows_and_precedes_testing::test_follows
*51c0b2f7Stbbdev        <int, tbb::flow::multifunction_node<int, std::tuple<int, int, int>>>
*51c0b2f7Stbbdev        (messages_for_follows, tbb::flow::unlimited, [](const int& i, multinode::output_ports_type& op) -> void {
*51c0b2f7Stbbdev            std::get<0>(op).try_put(i);
*51c0b2f7Stbbdev        });
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    test_precedes();
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev#endif // __TBB_PREVIEW_FLOW_GRAPH_NODE_SET
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Test various node bodies with concurrency
*51c0b2f7Stbbdev//! \brief \ref error_guessing
*51c0b2f7StbbdevTEST_CASE("Concurrency test"){
*51c0b2f7Stbbdev    for( unsigned int p=utils::MinThread; p<=utils::MaxThread; ++p ) {
*51c0b2f7Stbbdev       test_concurrency(p);
*51c0b2f7Stbbdev    }
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! Test return types of ports
*51c0b2f7Stbbdev//! \brief \ref error_guessing
*51c0b2f7StbbdevTEST_CASE("Test ports retrurn references"){
*51c0b2f7Stbbdev    test_ports_return_references<tbb::flow::queueing>();
*51c0b2f7Stbbdev    test_ports_return_references<tbb::flow::rejecting>();
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev//! NativeParallelFor testing with various concurrency settings
*51c0b2f7Stbbdev//! \brief \ref error_guessing
*51c0b2f7StbbdevTEST_CASE("Lightweight testing"){
*51c0b2f7Stbbdev    lightweight_testing::test<tbb::flow::multifunction_node>(10);
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#if __TBB_PREVIEW_FLOW_GRAPH_NODE_SET
*51c0b2f7Stbbdev//! Test follows and precedes API
*51c0b2f7Stbbdev//! \brief \ref error_guessing
*51c0b2f7StbbdevTEST_CASE("Test follows-precedes API"){
*51c0b2f7Stbbdev    test_follows_and_precedes_api();
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev//! Test priority constructor with follows and precedes API
*51c0b2f7Stbbdev//! \brief \ref error_guessing
*51c0b2f7StbbdevTEST_CASE("Test priority with follows and precedes"){
*51c0b2f7Stbbdev    using namespace tbb::flow;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    using multinode = multifunction_node<int, std::tuple<int, int>>;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    graph g;
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    buffer_node<int> b1(g);
*51c0b2f7Stbbdev    buffer_node<int> b2(g);
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    multinode node(precedes(b1, b2), unlimited, [](const int& i, multinode::output_ports_type& op) -> void {
*51c0b2f7Stbbdev            if (i % 2)
*51c0b2f7Stbbdev                std::get<0>(op).try_put(i);
*51c0b2f7Stbbdev            else
*51c0b2f7Stbbdev                std::get<1>(op).try_put(i);
*51c0b2f7Stbbdev        }
*51c0b2f7Stbbdev        , node_priority_t(0));
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    node.try_put(0);
*51c0b2f7Stbbdev    node.try_put(1);
*51c0b2f7Stbbdev    g.wait_for_all();
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev    int storage;
*51c0b2f7Stbbdev    CHECK_MESSAGE((b1.try_get(storage) && !b1.try_get(storage) && b2.try_get(storage) && !b2.try_get(storage)),
*51c0b2f7Stbbdev            "Not exact edge quantity was made");
*51c0b2f7Stbbdev}
*51c0b2f7Stbbdev
*51c0b2f7Stbbdev#endif
*51c0b2f7Stbbdev