test_all/fibonacci/fibonacci.cpp

d86ed7fbStbbdev/*
*c21e688aSSergey Zheltov    Copyright (c) 2005-2022 Intel Corporation
d86ed7fbStbbdev
d86ed7fbStbbdev    Licensed under the Apache License, Version 2.0 (the "License");
d86ed7fbStbbdev    you may not use this file except in compliance with the License.
d86ed7fbStbbdev    You may obtain a copy of the License at
d86ed7fbStbbdev
d86ed7fbStbbdev        http://www.apache.org/licenses/LICENSE-2.0
d86ed7fbStbbdev
d86ed7fbStbbdev    Unless required by applicable law or agreed to in writing, software
d86ed7fbStbbdev    distributed under the License is distributed on an "AS IS" BASIS,
d86ed7fbStbbdev    WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
d86ed7fbStbbdev    See the License for the specific language governing permissions and
d86ed7fbStbbdev    limitations under the License.
d86ed7fbStbbdev*/
d86ed7fbStbbdev
d86ed7fbStbbdev/* Example program that computes Fibonacci numbers in different ways.
d86ed7fbStbbdev   Arguments are: [ Number [Threads [Repeats]]]
d86ed7fbStbbdev   The defaults are Number=500 Threads=1:4 Repeats=1.
d86ed7fbStbbdev
d86ed7fbStbbdev   The point of this program is to check that the library is working properly.
d86ed7fbStbbdev   Most of the computations are deliberately silly and not expected to
d86ed7fbStbbdev   show any speedup on multiprocessors.
d86ed7fbStbbdev*/
d86ed7fbStbbdev
d86ed7fbStbbdev// enable assertions
d86ed7fbStbbdev#ifdef NDEBUG
d86ed7fbStbbdev#undef NDEBUG
d86ed7fbStbbdev#endif
d86ed7fbStbbdev
d86ed7fbStbbdev#include <cstdio>
d86ed7fbStbbdev#include <cstdlib>
d86ed7fbStbbdev#include <cassert>
d86ed7fbStbbdev
d86ed7fbStbbdev#include <utility>
d86ed7fbStbbdev#include <thread>
d86ed7fbStbbdev#include <atomic>
d86ed7fbStbbdev#include <mutex>
d86ed7fbStbbdev
d86ed7fbStbbdev#include "oneapi/tbb/tick_count.h"
d86ed7fbStbbdev#include "oneapi/tbb/blocked_range.h"
d86ed7fbStbbdev#include "oneapi/tbb/concurrent_vector.h"
d86ed7fbStbbdev#include "oneapi/tbb/concurrent_queue.h"
d86ed7fbStbbdev#include "oneapi/tbb/concurrent_hash_map.h"
d86ed7fbStbbdev#include "oneapi/tbb/parallel_for.h"
d86ed7fbStbbdev#include "oneapi/tbb/parallel_reduce.h"
d86ed7fbStbbdev#include "oneapi/tbb/parallel_scan.h"
d86ed7fbStbbdev#include "oneapi/tbb/parallel_pipeline.h"
d86ed7fbStbbdev#include "oneapi/tbb/spin_mutex.h"
d86ed7fbStbbdev#include "oneapi/tbb/queuing_mutex.h"
d86ed7fbStbbdev#include "oneapi/tbb/global_control.h"
d86ed7fbStbbdev
d86ed7fbStbbdev//! type used for Fibonacci number computations
d86ed7fbStbbdevtypedef long long value;
d86ed7fbStbbdev
d86ed7fbStbbdev//! Matrix 2x2 class
d86ed7fbStbbdevstruct Matrix2x2 {
d86ed7fbStbbdev    //! Array of values
d86ed7fbStbbdev    value v[2][2];
d86ed7fbStbbdev    Matrix2x2() {}
d86ed7fbStbbdev    Matrix2x2(value v00, value v01, value v10, value v11) {
d86ed7fbStbbdev        v[0][0] = v00;
d86ed7fbStbbdev        v[0][1] = v01;
d86ed7fbStbbdev        v[1][0] = v10;
d86ed7fbStbbdev        v[1][1] = v11;
d86ed7fbStbbdev    }
d86ed7fbStbbdev    Matrix2x2 operator*(const Matrix2x2 &to) const; //< Multiply two Matrices
d86ed7fbStbbdev};
d86ed7fbStbbdev//! Identity matrix
d86ed7fbStbbdevstatic const Matrix2x2 MatrixIdentity(1, 0, 0, 1);
d86ed7fbStbbdev//! Default matrix to multiply
d86ed7fbStbbdevstatic const Matrix2x2 Matrix1110(1, 1, 1, 0);
d86ed7fbStbbdev//! Raw arrays matrices multiply
d86ed7fbStbbdevvoid Matrix2x2Multiply(const value a[2][2], const value b[2][2], value c[2][2]);
d86ed7fbStbbdev
d86ed7fbStbbdev/////////////////////// Serial methods ////////////////////////
d86ed7fbStbbdev
d86ed7fbStbbdev//! Plain serial sum
d86ed7fbStbbdevvalue SerialFib(int n) {
d86ed7fbStbbdev    if (n < 2)
d86ed7fbStbbdev        return n;
d86ed7fbStbbdev    value a = 0, b = 1, sum;
d86ed7fbStbbdev    int i;
d86ed7fbStbbdev    for (i = 2; i <= n; i++) { // n is really index of Fibonacci number
d86ed7fbStbbdev        sum = a + b;
d86ed7fbStbbdev        a = b;
d86ed7fbStbbdev        b = sum;
d86ed7fbStbbdev    }
d86ed7fbStbbdev    return sum;
d86ed7fbStbbdev}
d86ed7fbStbbdev//! Serial n-1 matrices multiplication
d86ed7fbStbbdevvalue SerialMatrixFib(int n) {
d86ed7fbStbbdev    value c[2][2], a[2][2] = { { 1, 1 }, { 1, 0 } }, b[2][2] = { { 1, 1 }, { 1, 0 } };
d86ed7fbStbbdev    int i;
d86ed7fbStbbdev    for (i = 2; i < n; i++) { // Using condition to prevent copying of values
d86ed7fbStbbdev        if (i & 1)
d86ed7fbStbbdev            Matrix2x2Multiply(a, c, b);
d86ed7fbStbbdev        else
d86ed7fbStbbdev            Matrix2x2Multiply(a, b, c);
d86ed7fbStbbdev    }
d86ed7fbStbbdev    return (i & 1) ? c[0][0] : b[0][0]; // get result from upper left cell
d86ed7fbStbbdev}
d86ed7fbStbbdev//! Recursive summing. Just for complete list of serial algorithms, not used
d86ed7fbStbbdevvalue SerialRecursiveFib(int n) {
d86ed7fbStbbdev    value result;
d86ed7fbStbbdev    if (n < 2)
d86ed7fbStbbdev        result = n;
d86ed7fbStbbdev    else
d86ed7fbStbbdev        result = SerialRecursiveFib(n - 1) + SerialRecursiveFib(n - 2);
d86ed7fbStbbdev    return result;
d86ed7fbStbbdev}
b15aabb3Stbbdev
b15aabb3Stbbdev// GCC 4.8 C++ standard library implements std::this_thread::yield as no-op.
b15aabb3Stbbdev#if __TBB_GLIBCXX_THIS_THREAD_YIELD_BROKEN
b15aabb3Stbbdevstatic inline void yield() {
b15aabb3Stbbdev    sched_yield();
b15aabb3Stbbdev}
b15aabb3Stbbdev#else
b15aabb3Stbbdevusing std::this_thread::yield;
b15aabb3Stbbdev#endif
b15aabb3Stbbdev
d86ed7fbStbbdev//! Introducing of queue method in serial
d86ed7fbStbbdevvalue SerialQueueFib(int n) {
d86ed7fbStbbdev    oneapi::tbb::concurrent_queue<Matrix2x2> Q;
d86ed7fbStbbdev    for (int i = 1; i < n; i++)
d86ed7fbStbbdev        Q.push(Matrix1110);
d86ed7fbStbbdev    Matrix2x2 A, B;
d86ed7fbStbbdev    while (true) {
d86ed7fbStbbdev        while (!Q.try_pop(A))
b15aabb3Stbbdev            yield();
d86ed7fbStbbdev        if (Q.empty())
d86ed7fbStbbdev            break;
d86ed7fbStbbdev        while (!Q.try_pop(B))
b15aabb3Stbbdev            yield();
d86ed7fbStbbdev        Q.push(A * B);
d86ed7fbStbbdev    }
d86ed7fbStbbdev    return A.v[0][0];
d86ed7fbStbbdev}
d86ed7fbStbbdev//! Trying to use concurrent_vector
d86ed7fbStbbdevvalue SerialVectorFib(int n) {
d86ed7fbStbbdev    oneapi::tbb::concurrent_vector<value> A;
d86ed7fbStbbdev    A.grow_by(2);
d86ed7fbStbbdev    A[0] = 0;
d86ed7fbStbbdev    A[1] = 1;
d86ed7fbStbbdev    for (int i = 2; i <= n; i++) {
d86ed7fbStbbdev        A.grow_to_at_least(i + 1);
d86ed7fbStbbdev        A[i] = A[i - 1] + A[i - 2];
d86ed7fbStbbdev    }
d86ed7fbStbbdev    return A[n];
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev///////////////////// Parallel methods ////////////////////////
d86ed7fbStbbdev
d86ed7fbStbbdev// *** Serial shared by mutexes *** //
d86ed7fbStbbdev
d86ed7fbStbbdev//! Shared glabals
d86ed7fbStbbdevvalue SharedA = 0, SharedB = 1;
d86ed7fbStbbdevint SharedI = 1, SharedN;
d86ed7fbStbbdev
d86ed7fbStbbdev//! Template task class which computes Fibonacci numbers with shared globals
d86ed7fbStbbdevtemplate <typename M>
d86ed7fbStbbdevclass SharedSerialFibBody {
d86ed7fbStbbdev    M &mutex;
d86ed7fbStbbdev
d86ed7fbStbbdevpublic:
d86ed7fbStbbdev    SharedSerialFibBody(M &m) : mutex(m) {}
d86ed7fbStbbdev    //! main loop
d86ed7fbStbbdev    void operator()(const oneapi::tbb::blocked_range<int> &range) const {
d86ed7fbStbbdev        for (;;) {
d86ed7fbStbbdev            typename M::scoped_lock lock(mutex);
d86ed7fbStbbdev            if (SharedI >= SharedN)
d86ed7fbStbbdev                break;
d86ed7fbStbbdev            value sum = SharedA + SharedB;
d86ed7fbStbbdev            SharedA = SharedB;
d86ed7fbStbbdev            SharedB = sum;
d86ed7fbStbbdev            ++SharedI;
d86ed7fbStbbdev        }
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev
d86ed7fbStbbdevtemplate <>
d86ed7fbStbbdevvoid SharedSerialFibBody<std::mutex>::operator()(
d86ed7fbStbbdev    const oneapi::tbb::blocked_range<int> &range) const {
d86ed7fbStbbdev    for (;;) {
d86ed7fbStbbdev        std::lock_guard<std::mutex> lock(mutex);
d86ed7fbStbbdev        if (SharedI >= SharedN)
d86ed7fbStbbdev            break;
d86ed7fbStbbdev        value sum = SharedA + SharedB;
d86ed7fbStbbdev        SharedA = SharedB;
d86ed7fbStbbdev        SharedB = sum;
d86ed7fbStbbdev        ++SharedI;
d86ed7fbStbbdev    }
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev//! Root function
d86ed7fbStbbdevtemplate <class M>
d86ed7fbStbbdevvalue SharedSerialFib(int n) {
d86ed7fbStbbdev    SharedA = 0;
d86ed7fbStbbdev    SharedB = 1;
d86ed7fbStbbdev    SharedI = 1;
d86ed7fbStbbdev    SharedN = n;
d86ed7fbStbbdev    M mutex;
d86ed7fbStbbdev    parallel_for(oneapi::tbb::blocked_range<int>(0, 4, 1), SharedSerialFibBody<M>(mutex));
d86ed7fbStbbdev    return SharedB;
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev// *** Serial shared by concurrent hash map *** //
d86ed7fbStbbdev
d86ed7fbStbbdev//! Hash comparer
d86ed7fbStbbdevstruct IntHashCompare {
d86ed7fbStbbdev    bool equal(const int j, const int k) const {
d86ed7fbStbbdev        return j == k;
d86ed7fbStbbdev    }
4a23d002Skboyarinov    std::size_t hash(const int k) const {
4a23d002Skboyarinov        return (std::size_t)k;
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev//! NumbersTable type based on concurrent_hash_map
d86ed7fbStbbdevtypedef oneapi::tbb::concurrent_hash_map<int, value, IntHashCompare> NumbersTable;
d86ed7fbStbbdev//! task for serial method using shared concurrent_hash_map
d86ed7fbStbbdevclass ConcurrentHashSerialFibTask {
d86ed7fbStbbdev    NumbersTable &Fib;
d86ed7fbStbbdev    int my_n;
d86ed7fbStbbdev
d86ed7fbStbbdevpublic:
d86ed7fbStbbdev    //! constructor
d86ed7fbStbbdev    ConcurrentHashSerialFibTask(NumbersTable &cht, int n) : Fib(cht), my_n(n) {}
d86ed7fbStbbdev    //! executing task
d86ed7fbStbbdev    void operator()() const {
d86ed7fbStbbdev        for (int i = 2; i <= my_n; ++i) { // there is no difference in to recycle or to make loop
d86ed7fbStbbdev            NumbersTable::const_accessor f1, f2; // same as iterators
d86ed7fbStbbdev            if (!Fib.find(f1, i - 1) || !Fib.find(f2, i - 2)) {
d86ed7fbStbbdev                // Something is seriously wrong, because i-1 and i-2 must have been inserted
d86ed7fbStbbdev                // earlier by this thread or another thread.
d86ed7fbStbbdev                assert(0);
d86ed7fbStbbdev            }
d86ed7fbStbbdev            value sum = f1->second + f2->second;
d86ed7fbStbbdev            NumbersTable::const_accessor fsum;
d86ed7fbStbbdev            Fib.insert(fsum, std::make_pair(i, sum)); // inserting
d86ed7fbStbbdev            assert(fsum->second == sum); // check value
d86ed7fbStbbdev        }
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev
d86ed7fbStbbdev//! Root function
d86ed7fbStbbdevvalue ConcurrentHashSerialFib(int n) {
d86ed7fbStbbdev    NumbersTable Fib;
d86ed7fbStbbdev    bool okay;
d86ed7fbStbbdev    okay = Fib.insert(std::make_pair(0, 0));
d86ed7fbStbbdev    assert(okay); // assign initial values
d86ed7fbStbbdev    okay = Fib.insert(std::make_pair(1, 1));
d86ed7fbStbbdev    assert(okay);
d86ed7fbStbbdev
d86ed7fbStbbdev    // task_list list;
d86ed7fbStbbdev    oneapi::tbb::task_group tg;
d86ed7fbStbbdev    // allocate tasks
d86ed7fbStbbdev    tg.run(ConcurrentHashSerialFibTask(Fib, n));
d86ed7fbStbbdev    tg.run(ConcurrentHashSerialFibTask(Fib, n));
d86ed7fbStbbdev    tg.wait();
d86ed7fbStbbdev    NumbersTable::const_accessor fresult;
d86ed7fbStbbdev    okay = Fib.find(fresult, n);
d86ed7fbStbbdev    assert(okay);
d86ed7fbStbbdev    return fresult->second;
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev// *** Queue with parallel_pipeline *** //
d86ed7fbStbbdev
d86ed7fbStbbdevtypedef oneapi::tbb::concurrent_queue<Matrix2x2> queue_t;
d86ed7fbStbbdevnamespace parallel_pipeline_ns {
d86ed7fbStbbdevstd::atomic<int> N; //< index of Fibonacci number minus 1
d86ed7fbStbbdevqueue_t Queue;
d86ed7fbStbbdev} // namespace parallel_pipeline_ns
d86ed7fbStbbdev
d86ed7fbStbbdev//! functor to fills queue
d86ed7fbStbbdevstruct InputFunc {
d86ed7fbStbbdev    InputFunc() {}
d86ed7fbStbbdev    queue_t *operator()(oneapi::tbb::flow_control &fc) const {
d86ed7fbStbbdev        using namespace parallel_pipeline_ns;
d86ed7fbStbbdev
d86ed7fbStbbdev        int n = --N;
d86ed7fbStbbdev        if (n <= 0) {
d86ed7fbStbbdev            fc.stop();
d86ed7fbStbbdev            return nullptr;
d86ed7fbStbbdev        }
d86ed7fbStbbdev        Queue.push(Matrix1110);
d86ed7fbStbbdev        return &Queue;
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev//! functor to process queue
d86ed7fbStbbdevstruct MultiplyFunc {
d86ed7fbStbbdev    MultiplyFunc() {}
d86ed7fbStbbdev    void operator()(queue_t *queue) const {
d86ed7fbStbbdev        //concurrent_queue<Matrix2x2> &Queue = *static_cast<concurrent_queue<Matrix2x2> *>(p);
d86ed7fbStbbdev        Matrix2x2 m1, m2;
d86ed7fbStbbdev        // get two elements
d86ed7fbStbbdev        while (!queue->try_pop(m1))
b15aabb3Stbbdev            yield();
d86ed7fbStbbdev        while (!queue->try_pop(m2))
b15aabb3Stbbdev            yield();
d86ed7fbStbbdev        m1 = m1 * m2; // process them
d86ed7fbStbbdev        queue->push(m1); // and push back
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev//! Root function
d86ed7fbStbbdevvalue ParallelPipeFib(int n) {
d86ed7fbStbbdev    using namespace parallel_pipeline_ns;
d86ed7fbStbbdev
d86ed7fbStbbdev    N = n - 1;
d86ed7fbStbbdev    Queue.push(Matrix1110);
d86ed7fbStbbdev
d86ed7fbStbbdev    oneapi::tbb::parallel_pipeline(
d86ed7fbStbbdev        n,
d86ed7fbStbbdev        oneapi::tbb::make_filter<void, queue_t *>(oneapi::tbb::filter_mode::parallel, InputFunc()) &
d86ed7fbStbbdev            oneapi::tbb::make_filter<queue_t *, void>(oneapi::tbb::filter_mode::parallel,
d86ed7fbStbbdev                                                      MultiplyFunc()));
d86ed7fbStbbdev
d86ed7fbStbbdev    assert(Queue.unsafe_size() == 1);
d86ed7fbStbbdev    Matrix2x2 M;
d86ed7fbStbbdev    bool result = Queue.try_pop(M); // get last element
d86ed7fbStbbdev    assert(result);
d86ed7fbStbbdev    value res = M.v[0][0]; // get value
d86ed7fbStbbdev    Queue.clear();
d86ed7fbStbbdev    return res;
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev// *** parallel_reduce *** //
d86ed7fbStbbdev
d86ed7fbStbbdev//! Functor for parallel_reduce
d86ed7fbStbbdevstruct parallel_reduceFibBody {
d86ed7fbStbbdev    Matrix2x2 sum;
d86ed7fbStbbdev    int split_flag; //< flag to make one less operation for split bodies
d86ed7fbStbbdev    //! Constructor fills sum with initial matrix
d86ed7fbStbbdev    parallel_reduceFibBody() : sum(Matrix1110), split_flag(0) {}
d86ed7fbStbbdev    //! Splitting constructor
d86ed7fbStbbdev    parallel_reduceFibBody(parallel_reduceFibBody &other, oneapi::tbb::split)
d86ed7fbStbbdev            : sum(Matrix1110),
d86ed7fbStbbdev              split_flag(1 /*note that it is split*/) {}
d86ed7fbStbbdev    //! Join point
d86ed7fbStbbdev    void join(parallel_reduceFibBody &s) {
d86ed7fbStbbdev        sum = sum * s.sum;
d86ed7fbStbbdev    }
d86ed7fbStbbdev    //! Process multiplications
d86ed7fbStbbdev    void operator()(const oneapi::tbb::blocked_range<int> &r) {
d86ed7fbStbbdev        for (int k = r.begin() + split_flag; k < r.end(); ++k)
d86ed7fbStbbdev            sum = sum * Matrix1110;
d86ed7fbStbbdev        split_flag = 0; // reset flag, because this method can be reused for next range
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev//! Root function
d86ed7fbStbbdevvalue parallel_reduceFib(int n) {
d86ed7fbStbbdev    parallel_reduceFibBody b;
d86ed7fbStbbdev    oneapi::tbb::parallel_reduce(oneapi::tbb::blocked_range<int>(2, n, 3),
d86ed7fbStbbdev                                 b); // do parallel reduce on range [2, n) for b
d86ed7fbStbbdev    return b.sum.v[0][0];
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev// *** parallel_scan *** //
d86ed7fbStbbdev
d86ed7fbStbbdev//! Functor for parallel_scan
d86ed7fbStbbdevstruct parallel_scanFibBody {
d86ed7fbStbbdev    /** Though parallel_scan is usually used to accumulate running sums,
d86ed7fbStbbdev        it can be used to accumulate running products too. */
d86ed7fbStbbdev    Matrix2x2 product;
d86ed7fbStbbdev    /** Pointer to output sequence */
d86ed7fbStbbdev    value *const output;
d86ed7fbStbbdev    //! Constructor sets product to identity matrix
d86ed7fbStbbdev    parallel_scanFibBody(value *output_) : product(MatrixIdentity), output(output_) {}
d86ed7fbStbbdev    //! Splitting constructor
d86ed7fbStbbdev    parallel_scanFibBody(parallel_scanFibBody &b, oneapi::tbb::split)
d86ed7fbStbbdev            : product(MatrixIdentity),
d86ed7fbStbbdev              output(b.output) {}
d86ed7fbStbbdev    //! Method for merging summary information from a, which was split off from *this, into *this.
d86ed7fbStbbdev    void reverse_join(parallel_scanFibBody &a) {
d86ed7fbStbbdev        // When using non-commutative reduction operation, reverse_join
d86ed7fbStbbdev        // should put argument "a" on the left side of the operation.
d86ed7fbStbbdev        // The reversal from the argument order is why the method is
d86ed7fbStbbdev        // called "reverse_join" instead of "join".
d86ed7fbStbbdev        product = a.product * product;
d86ed7fbStbbdev    }
d86ed7fbStbbdev    //! Method for assigning final result back to original body.
d86ed7fbStbbdev    void assign(parallel_scanFibBody &b) {
d86ed7fbStbbdev        product = b.product;
d86ed7fbStbbdev    }
d86ed7fbStbbdev    //! Compute matrix running product.
d86ed7fbStbbdev    /** Tag indicates whether is is the final scan over the range, or
d86ed7fbStbbdev        just a helper "prescan" that is computing a partial reduction. */
d86ed7fbStbbdev    template <typename Tag>
d86ed7fbStbbdev    void operator()(const oneapi::tbb::blocked_range<int> &r, Tag tag) {
d86ed7fbStbbdev        for (int k = r.begin(); k < r.end(); ++k) {
d86ed7fbStbbdev            // Code performs an "exclusive" scan, which outputs a value *before* updating the product.
d86ed7fbStbbdev            // For an "inclusive" scan, output the value after the update.
d86ed7fbStbbdev            if (tag.is_final_scan())
d86ed7fbStbbdev                output[k] = product.v[0][1];
d86ed7fbStbbdev            product = product * Matrix1110;
d86ed7fbStbbdev        }
d86ed7fbStbbdev    }
d86ed7fbStbbdev};
d86ed7fbStbbdev//! Root function
d86ed7fbStbbdevvalue parallel_scanFib(int n) {
d86ed7fbStbbdev    value *output = new value[n];
d86ed7fbStbbdev    parallel_scanFibBody b(output);
d86ed7fbStbbdev    oneapi::tbb::parallel_scan(oneapi::tbb::blocked_range<int>(0, n, 3), b);
d86ed7fbStbbdev    // output[0..n-1] now contains the Fibonacci sequence (modulo integer wrap-around).
d86ed7fbStbbdev    // Check the last two values for correctness.
d86ed7fbStbbdev    assert(n < 2 || output[n - 2] + output[n - 1] == b.product.v[0][1]);
d86ed7fbStbbdev    delete[] output;
d86ed7fbStbbdev    return b.product.v[0][1];
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev/////////////////////////// Main ////////////////////////////////////////////////////
d86ed7fbStbbdev
d86ed7fbStbbdev//! A closed range of int.
d86ed7fbStbbdevstruct IntRange {
d86ed7fbStbbdev    int low;
d86ed7fbStbbdev    int high;
d86ed7fbStbbdev    void set_from_string(const char *s);
d86ed7fbStbbdev    IntRange(int low_, int high_) : low(low_), high(high_) {}
d86ed7fbStbbdev};
d86ed7fbStbbdev
d86ed7fbStbbdevvoid IntRange::set_from_string(const char *s) {
d86ed7fbStbbdev    char *end;
d86ed7fbStbbdev    high = low = strtol(s, &end, 0);
d86ed7fbStbbdev    switch (*end) {
57f524caSIlya Isaev        case ':': high = strtol(end + 1, nullptr, 0); break;
d86ed7fbStbbdev        case '\0': break;
d86ed7fbStbbdev        default: printf("unexpected character = %c\n", *end);
d86ed7fbStbbdev    }
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev//! Tick count for start
d86ed7fbStbbdevstatic oneapi::tbb::tick_count t0;
d86ed7fbStbbdev
d86ed7fbStbbdev//! Verbose output flag
d86ed7fbStbbdevstatic bool Verbose = false;
d86ed7fbStbbdev
d86ed7fbStbbdevtypedef value (*MeasureFunc)(int);
d86ed7fbStbbdev//! Measure ticks count in loop [2..n]
d86ed7fbStbbdevvalue Measure(const char *name, MeasureFunc func, int n) {
d86ed7fbStbbdev    value result;
d86ed7fbStbbdev    if (Verbose)
d86ed7fbStbbdev        printf("%s", name);
d86ed7fbStbbdev    t0 = oneapi::tbb::tick_count::now();
d86ed7fbStbbdev    for (int number = 2; number <= n; number++)
d86ed7fbStbbdev        result = func(number);
d86ed7fbStbbdev    if (Verbose)
d86ed7fbStbbdev        printf("\t- in %f msec\n", (oneapi::tbb::tick_count::now() - t0).seconds() * 1000);
d86ed7fbStbbdev    return result;
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev//! program entry
d86ed7fbStbbdevint main(int argc, char *argv[]) {
d86ed7fbStbbdev    if (argc > 1)
d86ed7fbStbbdev        Verbose = true;
57f524caSIlya Isaev    int NumbersCount = argc > 1 ? strtol(argv[1], nullptr, 0) : 500;
d86ed7fbStbbdev    IntRange NThread(1, 4); // Number of threads to use.
d86ed7fbStbbdev    if (argc > 2)
d86ed7fbStbbdev        NThread.set_from_string(argv[2]);
57f524caSIlya Isaev    unsigned long ntrial = argc > 3 ? (unsigned long)strtoul(argv[3], nullptr, 0) : 1;
d86ed7fbStbbdev    value result, sum;
d86ed7fbStbbdev
d86ed7fbStbbdev    if (Verbose)
d86ed7fbStbbdev        printf("Fibonacci numbers example. Generating %d numbers..\n", NumbersCount);
d86ed7fbStbbdev
d86ed7fbStbbdev    result = Measure("Serial loop", SerialFib, NumbersCount);
d86ed7fbStbbdev    sum = Measure("Serial matrix", SerialMatrixFib, NumbersCount);
d86ed7fbStbbdev    assert(result == sum);
d86ed7fbStbbdev    sum = Measure("Serial vector", SerialVectorFib, NumbersCount);
d86ed7fbStbbdev    assert(result == sum);
d86ed7fbStbbdev    sum = Measure("Serial queue", SerialQueueFib, NumbersCount);
d86ed7fbStbbdev    assert(result == sum);
d86ed7fbStbbdev    // now in parallel
d86ed7fbStbbdev    for (unsigned long i = 0; i < ntrial; ++i) {
d86ed7fbStbbdev        for (int threads = NThread.low; threads <= NThread.high; threads *= 2) {
d86ed7fbStbbdev            oneapi::tbb::global_control c(oneapi::tbb::global_control::max_allowed_parallelism,
d86ed7fbStbbdev                                          threads);
d86ed7fbStbbdev            if (Verbose)
d86ed7fbStbbdev                printf("\nThreads number is %d\n", threads);
d86ed7fbStbbdev
d86ed7fbStbbdev            sum = Measure("Shared serial (mutex)\t", SharedSerialFib<std::mutex>, NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Shared serial (spin_mutex)",
d86ed7fbStbbdev                          SharedSerialFib<oneapi::tbb::spin_mutex>,
d86ed7fbStbbdev                          NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Shared serial (queuing_mutex)",
d86ed7fbStbbdev                          SharedSerialFib<oneapi::tbb::queuing_mutex>,
d86ed7fbStbbdev                          NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Shared serial (Conc.HashTable)", ConcurrentHashSerialFib, NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Parallel pipe/queue\t", ParallelPipeFib, NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Parallel reduce\t\t", parallel_reduceFib, NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev            sum = Measure("Parallel scan\t\t", parallel_scanFib, NumbersCount);
d86ed7fbStbbdev            assert(result == sum);
d86ed7fbStbbdev        }
d86ed7fbStbbdev
d86ed7fbStbbdev#ifdef __GNUC__
d86ed7fbStbbdev        if (Verbose)
d86ed7fbStbbdev            printf("Fibonacci number #%d modulo 2^64 is %lld\n\n", NumbersCount, result);
d86ed7fbStbbdev#else
d86ed7fbStbbdev        if (Verbose)
d86ed7fbStbbdev            printf("Fibonacci number #%d modulo 2^64 is %I64d\n\n", NumbersCount, result);
d86ed7fbStbbdev#endif
d86ed7fbStbbdev    }
d86ed7fbStbbdev    if (!Verbose)
d86ed7fbStbbdev        printf("TEST PASSED\n");
4523a761Stbbdev    // flush to prevent bufferization on exit
4523a761Stbbdev    fflush(stdout);
d86ed7fbStbbdev    return 0;
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdev// Utils
d86ed7fbStbbdev
d86ed7fbStbbdevvoid Matrix2x2Multiply(const value a[2][2], const value b[2][2], value c[2][2]) {
d86ed7fbStbbdev    for (int i = 0; i <= 1; i++)
d86ed7fbStbbdev        for (int j = 0; j <= 1; j++)
d86ed7fbStbbdev            c[i][j] = a[i][0] * b[0][j] + a[i][1] * b[1][j];
d86ed7fbStbbdev}
d86ed7fbStbbdev
d86ed7fbStbbdevMatrix2x2 Matrix2x2::operator*(const Matrix2x2 &to) const {
d86ed7fbStbbdev    Matrix2x2 result;
d86ed7fbStbbdev    Matrix2x2Multiply(v, to.v, result.v);
d86ed7fbStbbdev    return result;
d86ed7fbStbbdev}